美国AI公司爆发「夺旗」大战，谷歌和OpenAI杠上了

2024-05-15科技

就在OpenAI宣布将推出GPT-4o后一天不到的时间内，谷歌就宣布推出Astra。显然，谷歌是在正面硬刚OpenAI。

谷歌硬杠OpenAI

在谷歌的年度I/O开发者大会上，谷歌发布了大量关于人工智能的公告，其中包括Project Astra——旨在构建未来通用人工智能代理的努力。

会议上演示了一个早期版本，但其想法是构建一个多模式人工智能助手，充当助手，查看并理解世界的动态并实时响应，以帮助完成日常任务/问题。其前提类似于OpenAI昨天通过GPT-4o支持的ChatGPT展示的内容。

谷歌Deepmind首席执行官Demis Hassabis在一篇博客文章中写道：「要真正发挥作用，智能体需要像人类一样理解和响应复杂且动态的世界，并吸收并记住所看到和听到的内容，以了解背景并采取行动。它还需要主动、可教和个性化，这样用户就可以自然地与它交谈，没有滞后或延迟。」

在谷歌发布的一段演示视频中，在Pixel智能手机上运行的Project Astra 代理原型能够识别对象、描述其特定组件并理解白板上编写的代码。它甚至通过相机取景器来识别邻居，并通过告诉用户眼镜放在哪里来显示记忆迹象。

第二个演示视频展示了类似的功能，包括代理建议改进系统架构的案例，但使用一副眼镜将结果实时叠加在用户的视野上。

Demis Hassabis指出，虽然谷歌在多模式输入推理方面取得了重大进展，但将代理的响应时间降低到人类对话水平是一项艰巨的工程挑战。为了解决这个问题，该公司的代理通过连续编码视频帧、将视频和语音输入组合成事件时间线并缓存该信息以进行有效调用来处理信息。

他说：「通过利用我们领先的语音模型，我们还增强了它们的发音，为代理提供了更广泛的语调。这些代理可以更好地理解他们所处的环境，并在对话中快速做出反应。」

OpenAI没有为GPT-4o使用多个模型。相反，该公司通过文本、视觉和音频对模型进行端到端训练，使其能够处理所有输入和输出，并平均在320毫秒内提供响应。谷歌尚未透露Astra响应时间的具体数字，但随着工作的进展，延迟（如果有的话）预计会减少。目前还不清楚Project Astra是否会拥有与OpenAI在 GPT-4o上表现出的同样的情绪范围。

目前，Astra只是谷歌在成熟的人工智能代理方面的早期工作，它就在拐角处，可以通过相关的上下文和记忆来帮助日常生活，无论是工作还是一些个人任务。谷歌尚未透露这一愿景何时会转化为实际产品，但它确实证实Android、iOS和网络上的Gemini应用程序将具备理解现实世界并同时进行交互的能力。

谷歌将首先将Gemini Live添加到应用程序中，允许用户与聊天机器人进行双向对话。最终，可能在今年晚些时候的某个时候，Gemini Live将包括今天展示的一些视觉功能，允许用户打开相机并讨论周围的环境。值得注意的是，用户还可以在这些对话期间打断Gemini，就像OpenAI对ChatGPT所做的那样。

此外，发布会上，谷歌还秀起了肌肉。如果说GPT是OpenAI的核心，那谷歌的AI核心就是Gemini。

谷歌镜头已经可以让用户根据图像进行搜索，但现在谷歌更进一步，提供了通过视频进行搜索的能力。这意味着用户可以拍摄用户想要搜索的内容的视频，在视频中提出问题，谷歌的人工智能将尝试从网络上提取相关答案。

谷歌将于今年夏天推出一项新功能，对于任何拥有多年甚至十多年照片可供筛选的人来说，这可能是一个福音。「询问照片」让Gemini可以仔细查看用户的Google照片库以回答用户的问题，该功能不仅仅是调出狗和猫的照片。在现场，首席执行官桑达尔·皮查伊 (Sundar Pichai) 通过询问Gemini他的车牌号是多少来进行演示。得到的答复是数字本身，然后是数字的图片，这样他就可以确保数字是正确的。

谷歌在其产品阵容中推出了一款新的人工智能模型：Gemini 1.5 Flash。新的多模式模型与Gemini 1.5 Pro一样强大，但它针对「狭窄、高频、低延迟的任务」进行了优化。这使得它能够更好地产生快速响应。谷歌还对Gemini 1.5进行了一些更改，据称这将提高其翻译、推理和编码的能力。谷歌还表示，它已将Gemini 1.5 Pro的上下文窗口（可以接收的信息量）增加了一倍，从100万个令牌增加到200万个token。

谷歌正在将其最新的主流语言模型Gemini 1.5 Pro纳入文档、表格、幻灯片、云端硬盘和Gmail的侧边栏中。当下个月向付费订阅者推出时，它将变成Workspace中的通用助手，无论用户身在何处，都可以从用户的云端硬盘中的任何和所有内容中获取信息。它还可以为用户做一些事情，例如编写包含用户当前正在查看的文档中的信息的电子邮件，或者提醒用户稍后回复用户正在阅读的电子邮件。一些早期测试人员已经可以使用这些功能，但谷歌表示将于下个月向所有付费Gemini订阅者推出。

谷歌对OpenAI的Sora的回应是一种新的生成式AI模型，可以根据文本、图像和基于视频的提示输出1080p视频。视频可以以多种风格制作，例如航拍或延时摄影，并且可以根据更多提示进行调整。谷歌已经向一些创作者提供Veo，用于YouTube视频，同时也向好莱坞推销其用于电影。

谷歌正在推出一个名为Gems的定制聊天机器人创建者。就像OpenAI的GPT一样，Gems允许用户向Gemini发出指令，以定制它的响应方式以及它的专长。

新的Gemini Live功能旨在让与Gemini的语音聊天感觉更加自然。聊天机器人的声音将被更新，具有一些额外的个性，用户将能够在句子中打断它，或者要求它通过智能手机摄像头观看并实时提供有关所看到内容的信息。Gemini还获得了新的集成，可以使用多模式功能从Google日历、任务和Keep更新或提取信息（例如将传单中的详细信息添加到个人日历中）。

如果用户使用的是Android手机或平板电脑，用户现在可以在屏幕上圈出数学问题并获得解决该问题的帮助。谷歌的人工智能不会为用户解决问题，因此不会帮助学生在作业上作弊。但它会把作业分解成几个步骤，让作业更容易完成。

谷歌将于本周向美国每个人推出「人工智能概述」。现在，「专门」的Gemini 模型将使用来自网络的汇总答案来设计和填充结果页面（类似于用户在Perplexity 或Arc Search等人工智能搜索工具中看到的内容）。

谷歌表示，使用设备上的Gemini Nano AI智能技术，Android手机将能够通过查找危险信号（例如常见的诈骗者对话模式）来帮助用户避免诈骗电话，然后弹出实时警告。该公司承诺在今年晚些时候提供有关该功能的更多细节。

谷歌表示，Gemini很快将能够让用户提出有关屏幕上视频的问题，并且它将根据自动字幕进行回答。对于付费Gemini Advanced用户，它还可以提取PDF并提供信息。Android上Gemini的这些和其他多模式更新将在接下来的几个月内推出。

谷歌宣布将在桌面版Chrome中添加Gemini Nano（Gemini模型的轻量级版本）。内置助手将使用设备上的人工智能来帮助用户直接在Google Chrome中生成社交媒体帖子、产品评论等文本。

谷歌表示，它正在扩展SynthID的功能——该公司表示，它将把水印嵌入到使用其新的Veo视频生成器创建的内容中，并且它现在还可以检测人工智能生成的视频。

OpenAI内乱

关于OpenAI的GPT-4o，已经有太多资料放出，在此就不多做介绍。GPT-4o一经推出后，全世界的科技圈再度为之疯狂。

然而，有意思的是，就在OpenAI刚刚推出新产品之际，公司首席科学家Ilya Sutskever就公开宣布辞职。

本周二，在Ilya Sutskever在推特上发表的一篇文章中表示，在工作近十年后，他将离开公司。

Ilya Sutskever表示，他「有信心」该公司将继续开发「既安全又有益」的技术。

Ilya Sutskever说，自己对下一步行动感到「兴奋」。

OpenAI的首席执行官Altman在自己关于推特的帖子中表示：「Ilya和OpenAI将分道扬镳。这对我来说非常悲伤；Ilya无疑是我们这一代最伟大的思想家之一，是我们领域的指路明灯，也是一位亲爱的朋友他的才华和远见广为人知，但他的热情和同情心却鲜为人知，但同样重要。」

同时，Altman也宣布，Jakub将接替Ilya Sutskever成为新的首席科学家。根据OpenAI的新闻稿，Jakub指的是该公司的研究总监Jakub Pachocki。据称，他一直「带头开发GPT-4和OpenAI Five，以及大规模RL和深度学习优化的基础研究。」

Ilya Sutskever是OpenAI在生成人工智能方面一些最大突破的幕后推手，但在过去六个月里，有报道称他在OpenAI首席执行官兼联合创始人Sam Altman令人震惊且最终失败的董事会罢免中发挥了关键作用，他在公司的地位一直受到质疑。

Altman被董事会赶出几天后，Ilya Sutskever表示他对自己在此次调动中所扮演的角色感到遗憾，而Altman在被赶下台后仅五天就重返OpenAI担任首席执行官。

之后，尽管Ilya Sutskever表达了悔意，但他在公司的角色仍然紧张。据知情人士透露，在OpenAI试图罢免Altman首席执行官职务后，Ilya Sutskever基本上已被排除在OpenAI之外。Ilya Sutskever过去也对ChatGPT等人工智能模型造成的潜在危害表示担忧。

去年，Ilya Sutskever在 OpenAI成立了一个名为Superalignment的新团队，旨在确保人工智能模型为人类福祉而工作，并且不会造成伤害。

显然，OpenAI的内部问题在过去一段时间以来不断扩大。实际上，除了Ilya Sutskever外，一直负责Superalignment团队并此前与Ilya Sutskever共同呼吁「引导和控制」更强大人工智能的Jan Leike也已从OpenAI辞职。他的职责将由另一位OpenAI联合创始人John Schulman接替，他在去年失败的董事会政变中站在Altman一边。

不管Ilya Sutskever出于什么理由离职，可以肯定的一点是，他将继续在AI领域发展。也许，就在不久的将来，我们就会看到另一家OpenAI。

在美国，AI公司为了争当第一个吃螃蟹的人，彼此之间的竞争只能用「白热化」来形容。