美國AI公司爆發「奪旗」大戰，谷歌和OpenAI杠上了

2024-05-15科技

就在OpenAI宣布將推出GPT-4o後一天不到的時間內，谷歌就宣布推出Astra。顯然，谷歌是在正面硬剛OpenAI。

谷歌硬杠OpenAI

在谷歌的年度I/O開發者大會上，谷歌釋出了大量關於人工智能的公告，其中包括Project Astra——旨在構建未來通用人工智能代理的努力。

會議上演示了一個早期版本，但其想法是構建一個多模式人工智能助手，充當助手，檢視並理解世界的動態並即時響應，以幫助完成日常任務/問題。其前提類似於OpenAI昨天透過GPT-4o支持的ChatGPT展示的內容。

谷歌Deepmind行政總裁Demis Hassabis在一篇網誌文章中寫道：「要真正發揮作用，智能體需要像人類一樣理解和響應復雜且動態的世界，並吸收並記住所看到和聽到的內容，以了解背景並采取行動。它還需要主動、可教和個人化，這樣使用者就可以自然地與它交談，沒有滯後或延遲。」

在谷歌釋出的一段演示影片中，在Pixel智能電話上執行的Project Astra 代理原型能夠辨識物件、描述其特定元件並理解白板上編寫的程式碼。它甚至透過相機觀景窗來辨識鄰居，並透過告訴使用者眼鏡放在哪裏來顯示記憶跡象。

第二個演示影片展示了類似的功能，包括代理建議改進系統架構的案例，但使用一副眼鏡將結果即時疊加在使用者的視野上。

Demis Hassabis指出，雖然谷歌在多模式輸入推理方面取得了重大進展，但將代理的響應時間降低到人類對話水平是一項艱巨的工程挑戰。為了解決這個問題，該公司的代理透過連續編碼影片幀、將影片和語音輸入組合成事件時間線並緩存該資訊以進行有效呼叫來處理資訊。

他說：「透過利用我們領先的語音模型，我們還增強了它們的發音，為代理提供了更廣泛的語調。這些代理可以更好地理解他們所處的環境，並在對話中快速做出反應。」

OpenAI沒有為GPT-4o使用多個模型。相反，該公司透過文本、視覺和音訊對模型進行端到端訓練，使其能夠處理所有輸入和輸出，並平均在320毫秒內提供響應。谷歌尚未透露Astra響應時間的具體數碼，但隨著工作的進展，延遲（如果有的話）預計會減少。目前還不清楚Project Astra是否會擁有與OpenAI在 GPT-4o上表現出的同樣的情緒範圍。

目前，Astra只是谷歌在成熟的人工智能代理方面的早期工作，它就在拐角處，可以透過相關的上下文和記憶來幫助日常生活，無論是工作還是一些個人任務。谷歌尚未透露這一願景何時會轉化為實際產品，但它確實證實Android、iOS和網絡上的Gemini應用程式將具備理解現實世界並同時進行互動的能力。

谷歌將首先將Gemini Live添加到應用程式中，允許使用者與聊天機器人進行雙向對話。最終，可能在今年晚些時候的某個時候，Gemini Live將包括今天展示的一些視覺功能，允許使用者開啟相機並討論周圍的環境。值得註意的是，使用者還可以在這些對話期間打斷Gemini，就像OpenAI對ChatGPT所做的那樣。

此外，釋出會上，谷歌還秀起了肌肉。如果說GPT是OpenAI的核心，那谷歌的AI核心就是Gemini。

谷歌鏡頭已經可以讓使用者根據影像進行搜尋，但現在谷歌更進一步，提供了透過影片進行搜尋的能力。這意味著使用者可以拍攝使用者想要搜尋的內容的影片，在影片中提出問題，谷歌的人工智能將嘗試從網絡上提取相關答案。

谷歌將於今年夏天推出一項新功能，對於任何擁有多年甚至十多年照片可供篩選的人來說，這可能是一個福音。「詢問照片」讓Gemini可以仔細檢視使用者的Google相片圖庫以回答使用者的問題，該功能不僅僅是調出狗和貓的照片。在現場，行政總裁桑達爾·皮查伊 (Sundar Pichai) 透過詢問Gemini他的車牌號是多少來進行演示。得到的答復是數碼本身，然後是數碼的圖片，這樣他就可以確保數碼是正確的。

谷歌在其產品陣容中推出了一款新的人工智能模型：Gemini 1.5 Flash。新的多模式模型與Gemini 1.5 Pro一樣強大，但它針對「狹窄、高頻、低延遲的任務」進行了最佳化。這使得它能夠更好地產生快速響應。谷歌還對Gemini 1.5進行了一些更改，據稱這將提高其轉譯、推理和編碼的能力。谷歌還表示，它已將Gemini 1.5 Pro的上下文視窗（可以接收的資訊量）增加了一倍，從100萬個令牌增加到200萬個token。

谷歌正在將其最新的主流語言模型Gemini 1.5 Pro納入文件、表格、投影片、雲端硬碟和Gmail的側資訊看板中。當下個月向付費訂閱者推出時，它將變成Workspace中的通用助手，無論使用者身在何處，都可以從使用者的雲端硬碟中的任何和所有內容中獲取資訊。它還可以為使用者做一些事情，例如編寫包含使用者當前正在檢視的文件中的資訊的電子郵件，或者提醒使用者稍後回復使用者正在閱讀的電子郵件。一些早期測試人員已經可以使用這些功能，但谷歌表示將於下個月向所有付費Gemini訂閱者推出。

谷歌對OpenAI的Sora的回應是一種新的生成式AI模型，可以根據文本、影像和基於影片的提示輸出1080p影片。影片可以以多種風格制作，例如航拍或延時攝影，並且可以根據更多提示進行調整。谷歌已經向一些創作者提供Veo，用於YouTube影片，同時也向好萊塢推銷其用於電影。

谷歌正在推出一個名為Gems的客製聊天機器人建立者。就像OpenAI的GPT一樣，Gems允許使用者向Gemini發出指令，以客製它的響應方式以及它的專長。

新的Gemini Live功能旨在讓與Gemini的語音聊天感覺更加自然。聊天機器人的聲音將被更新，具有一些額外的個性，使用者將能夠在句子中打斷它，或者要求它透過智能電話網絡攝影機觀看並即時提供有關所看到內容的資訊。Gemini還獲得了新的整合，可以使用多模式功能從Google行事曆、任務和Keep更新或提取資訊（例如將傳單中的詳細資訊添加到個人行事曆中）。

如果使用者使用的是Android手機或平板電腦，使用者現在可以在螢幕上圈出數學問題並獲得解決該問題的幫助。谷歌的人工智能不會為使用者解決問題，因此不會幫助學生在作業上作弊。但它會把作業分解成幾個步驟，讓作業更容易完成。

谷歌將於本周向美國每個人推出「人工智能概述」。現在，「專門」的Gemini 模型將使用來自網絡的匯總答案來設計和填充結果頁面（類似於使用者在Perplexity 或Arc Search等人工智能搜尋工具中看到的內容）。

谷歌表示，使用器材上的Gemini Nano AI智能技術，Android手機將能夠透過尋找危險訊號（例如常見的詐騙者對話模式）來幫助使用者避免詐騙電話，然後彈出即時警告。該公司承諾在今年晚些時候提供有關該功能的更多細節。

谷歌表示，Gemini很快將能夠讓使用者提出有關螢幕上影片的問題，並且它將根據自動字幕進行回答。對於付費Gemini Advanced使用者，它還可以提取PDF並提供資訊。Android上Gemini的這些和其他多模式更新將在接下來的幾個月內推出。

谷歌宣布將在桌面版Chrome中添加Gemini Nano（Gemini模型的輕量級版本）。內建助手將使用器材上的人工智能來幫助使用者直接在Google Chrome中生成社交媒體貼文、產品評論等文本。

谷歌表示，它正在擴充套件SynthID的功能——該公司表示，它將把浮水印嵌入到使用其新的Veo影片生成器建立的內容中，並且它現在還可以檢測人工智能生成的影片。

OpenAI內亂

關於OpenAI的GPT-4o，已經有太多資料放出，在此就不多做介紹。GPT-4o一經推出後，全世界的科技圈再度為之瘋狂。

然而，有意思的是，就在OpenAI剛剛推出新產品之際，公司首席科學家Ilya Sutskever就公開宣布辭職。

本周二，在Ilya Sutskever在推特上發表的一篇文章中表示，在工作近十年後，他將離開公司。

Ilya Sutskever表示，他「有信心」該公司將繼續開發「既安全又有益」的技術。

Ilya Sutskever說，自己對下一步行動感到「興奮」。

OpenAI的行政總裁Altman在自己關於推特的貼文中表示：「Ilya和OpenAI將分道揚鑣。這對我來說非常悲傷；Ilya無疑是我們這一代最偉大的思想家之一，是我們領域的指路明燈，也是一位親愛的朋友他的才華和遠見廣為人知，但他的熱情和同情心卻鮮為人知，但同樣重要。」

同時，Altman也宣布，Jakub將接替Ilya Sutskever成為新的首席科學家。根據OpenAI的新聞稿，Jakub指的是該公司的研究總監Jakub Pachocki。據稱，他一直「帶頭開發GPT-4和OpenAI Five，以及大規模RL和深度學習最佳化的基礎研究。」

Ilya Sutskever是OpenAI在生成人工智能方面一些最大突破的幕後推手，但在過去六個月裏，有報道稱他在OpenAI行政總裁兼聯合創始人Sam Altman令人震驚且最終失敗的董事會罷免中發揮了關鍵作用，他在公司的地位一直受到質疑。

Altman被董事會趕出幾天後，Ilya Sutskever表示他對自己在此次調動中所扮演的角色感到遺憾，而Altman在被趕下台後僅五天就重返OpenAI擔任行政總裁。

之後，盡管Ilya Sutskever表達了悔意，但他在公司的角色仍然緊張。據知情人士透露，在OpenAI試圖罷免Altman行政總裁職務後，Ilya Sutskever基本上已被排除在OpenAI之外。Ilya Sutskever過去也對ChatGPT等人工智能模型造成的潛在危害表示擔憂。

去年，Ilya Sutskever在 OpenAI成立了一個名為Superalignment的新團隊，旨在確保人工智能模型為人類福祉而工作，並且不會造成傷害。

顯然，OpenAI的內部問題在過去一段時間以來不斷擴大。實際上，除了Ilya Sutskever外，一直負責Superalignment團隊並此前與Ilya Sutskever共同呼籲「引導和控制」更強大人工智能的Jan Leike也已從OpenAI辭職。他的職責將由另一位OpenAI聯合創始人John Schulman接替，他在去年失敗的董事會政變中站在Altman一邊。

不管Ilya Sutskever出於什麽理由離職，可以肯定的一點是，他將繼續在AI領域發展。也許，就在不久的將來，我們就會看到另一家OpenAI。

在美國，AI公司為了爭當第一個吃螃蟹的人，彼此之間的競爭只能用「白熱化」來形容。