一、谷歌的创新举措
谷歌在人工智能领域的创新举措引起了广泛关注。计划在 12 月推出的可控制计算机的人工智能 「Project Jarvis」,被寄予厚望。这个项目旨在接管用户的浏览器,帮助消费者完成收集研究、购买产品或预订航班等日常任务。
据报道,「Jarvis」 将由谷歌下一代旗舰 Gemini 大型语言模型提供动力。Gemini 模型在人工智能领域具有重要地位,它能够进行多模态推理,支持文本、图像、视频、音频和代码之间的无缝交互。在语言理解、推理、数学、编程等多个领域都展现出强大的实力。
目前,所有大型 AI 公司都在研发类似功能的模型。微软的 Copilot Vision 可以与用户讨论正在浏览的网页;苹果的 Apple Intelligence 预计将在明年具备跨多个应用程序的屏幕识别能力;Anthropic 刚刚推出的 Claude 测试版已能在计算机上执行操作;OpenAI 也在研发类似的功能。这表明人工智能领域的竞争日益激烈,而谷歌的 「Project Jarvis」 和 Gemini 模型的推出,无疑将为市场带来新的活力。
谷歌展示 「Jarvis」 的计划可能会有所变动,预计将首先向少量测试者发布,以帮助公司修复潜在的 Bug。这一举措显示了谷歌对产品质量的重视,通过小范围测试,可以及时发现并解决问题,为正式发布做好充分准备。
总的来说,谷歌的创新举措体现了其在人工智能领域的积极探索和领先地位,「Project Jarvis」 和 Gemini 模型的推出,将为用户带来更加便捷、高效的体验,也将推动人工智能技术的进一步发展。
二、Project Jarvis 的功能与特点
(一)强大的日常任务处理能力
Project Jarvis 展现出了强大的日常任务处理能力,能够帮助用户执行收集研究、购买产品或预订航班等多种日常任务。它通过截取屏幕截图、解析内容,并自动点击按钮或输入文本来实现网页任务自动化。例如,当用户需要进行产品研究时,Project Jarvis 可以快速截取相关网页的内容,分析其中的关键信息,为用户提供准确的产品评价和比较。在购买产品时,它能够自动填写表单、选择支付方式,极大地提高了购物效率。预订航班时,它可以搜索最佳航线和价格,自动完成订票流程。
(二)与浏览器的紧密结合
Project Jarvis 专门针对 Chrome 浏览器进行了优化,这使得它能够更好地与浏览器的功能相结合。然而,目前该工具在执行不同操作时存在几秒钟的间隔时间,运行速度相对较慢。尽管如此,它的目标用户主要是那些希望实现网页日常任务自动化的人。对于这些用户来说,Project Jarvis 提供了一种便捷的方式来处理繁琐的网页任务,节省了时间和精力。
(三)与其他产品的比较
与微软 Copilot Vision 相比,Project Jarvis 在功能上有相似之处,但 Copilot Vision 可以与用户讨论正在浏览的网页,而 Project Jarvis 则更侧重于通过自动操作来完成任务。苹果的 Apple Intelligence 预计将在明年具备跨多个应用程序的屏幕识别能力,而 Project Jarvis 目前只能操作浏览器。Anthropic 刚刚推出的 Claude 测试版已能在计算机上执行操作,但与 Project Jarvis 存在关键差异,Anthropic 的产品可以操作安装于电脑不同应用程序上,而 Project Jarvis 目前只能操作浏览器,并且已经针对谷歌的 Chrome 浏览器进行了 「定制化」 调整。OpenAI 也在研发类似功能的产品,这表明人工智能领域的竞争日益激烈。在这场竞争中,Project Jarvis 凭借其与 Chrome 浏览器的紧密结合以及对网页任务自动化的专注,有望在特定用户群体中获得优势。
三、Gemini 大型语言模型的特点
(一)多版本与强大性能
Gemini 1.0 分为 Ultra、Pro 和 Nano 三个版本,展现出了不同的性能特点和适用场景。Ultra 版本能力最强,复杂度最高,适用于高度复杂的任务。它在大型语言模型研究和开发中广泛使用的 32 项学术基准中,有 30 项性能都超过了目前最先进的水平。Ultra 的得分率为 90.0%,是第一个在 MMLU(大规模多任务语言理解)测试中超过人类专家的模型,能够处理包括数学、物理、历史、法律、医学和伦理等 57 个科目,展现出强大的知识和解决问题的能力。
Pro 版本性能稍弱于 Ultra,但它是适用于各种任务的最佳模型。它将为许多 Google AI 服务提供支持,并且 Bard 宣布将使用 Gemini Pro 来进行新的升级。
Nano 版本注重端侧处理能力,可在移动设备上本地运行,是端侧设备上最高效的模型。它采用 4 位量化进行部署,有两个尺寸,参数分别为 1.8B(Nano - 1)和 3.25B(Nano - 2),分别针对低内存和高内存设备,为移动设备用户提供便捷的人工智能服务。
(二)多模态与广泛应用
Gemini 采用原生多模态设计,从一开始就被创建为能够处理不同形式数据的模型,包括文本、代码、音频、图像和视频。它可以归纳并流畅地理解、操作以及组合这些不同类型的信息。
在多模态应用方面,Gemini 能够通过阅读、过滤以及理解信息,从数十万份文件中提取见解。它擅长解释数学和物理等复杂科目中的推理,经过训练,可以同时识别并理解文本、图像、音频等,更好地理解具有细微差别的信息,回答与复杂主题相关的问题。
此外,Gemini 在编码领域也有出色表现。它可用作更高级编码系统的引擎,例如利用一个专门版本的 Gemini,创建了更先进的代码生成系统 AlphaCode 2,该系统擅长解决那些不仅需要编码能力而且也需要复杂数学和理论计算机科学知识的竞赛性编程问题。
Gemini 还能理解多种输入输出形式,可应对问题回答、摘要生成、翻译、字幕生成、情感分析等多种任务,覆盖了文本、图像、音频、视频,甚至是 3D 模型和图表等多个领域。无论是智能手机用户还是 iOS 用户,都能通过谷歌应用或独立的 Gemini 应用轻松唤出 Gemini,实现与屏幕内容互动及执行各类常见任务。
四、Project Jarvis 与 Gemini 的关系
Gemini 大型语言模型作为谷歌在人工智能领域的重磅成果,为 Project Jarvis 提供了强大的动力支持。Project Jarvis 之所以能够实现接管用户浏览器、完成各种日常任务的强大功能,很大程度上得益于 Gemini 的先进技术。
Gemini 的多模态特性使得 Project Jarvis 能够处理多种形式的数据。例如,在用户进行收集研究任务时,Project Jarvis 可以借助 Gemini 对文本、图像、视频等多种信息的理解能力,快速从不同来源收集并分析相关资料。当用户预订航班时,Gemini 可以理解航班信息中的复杂数据,如航班时间、价格、航线等,为 Project Jarvis 提供准确的决策依据。
Gemini 的强大性能也为 Project Jarvis 的高效运行提供了保障。以 Ultra 版本为例,其在 32 项学术基准中有 30 项性能超过目前最先进水平,这意味着 Project Jarvis 在处理复杂任务时能够获得更准确、更高效的结果。而 Pro 版本作为适用于各种任务的最佳模型,为许多 Google AI 服务提供支持,也将为 Project Jarvis 的功能扩展和优化提供坚实的基础。
此外,Gemini 的多模态应用能力也为 Project Jarvis 带来了更多的可能性。例如,在购物场景中,Project Jarvis 可以利用 Gemini 对图像的识别能力,帮助用户识别商品、比较不同商品的外观和特点。在预订航班时,Gemini 可以结合地图和航班信息,为用户提供更直观的航线选择和航班推荐。
总之,Project Jarvis 和 Gemini 大型语言模型相互配合,共同推动谷歌在人工智能领域的发展。Project Jarvis 以其便捷的网页任务自动化功能为用户带来高效的体验,而 Gemini 则以其强大的性能和多模态特性为 Project Jarvis 提供技术支持。两者的结合将为人工智能的发展开辟新的道路,为用户带来更多的便利和创新。