一招鮮還是全都要？谷歌開發者大會連出22招反擊OpenAI

2024-05-15科技

面對OpenAI搞出突然釋出的精準「狙擊」，台北時間5月15日淩晨，谷歌在其一年一度的I/O開發者大會上一連介紹了22項新功能/產品，意圖使用「多點開花」的戰術從OpenAI搶回被奪去的使用者註意力。

相比5月14日，OpenAI用一場26分鐘的線上直播展示了GPT-4o帶來的驚艷互動能力，谷歌開發者大會的現場演講持續了1小時52分鐘，各產品線負責人輪番登場，展示了谷歌在智慧助理、視訊生成、影像生成、音樂創作、AI搜尋等多個方面的能力，相關的新功能、新升級多達22項。

新京報貝殼財經記者瀏覽整個釋出會發現，谷歌本次推出了不乏令人眼前一亮的新功能和新理念，如透過手機網路攝影機或AR眼鏡幫助主人解答問題的智慧助手Project Astra；對標Sora的視訊大模型Veo；新的AI搜尋方式如ask Photos（問照片）功能，以及將Gemini直接植入安卓底層架構等。

不過，作為老牌搜尋引擎以及上一屆AI領軍人物，谷歌也沒有忘記自己做搜尋的「初心」，谷歌搜尋業務主管麗茲·瑞德（Liz Reid）在現場演示了一系列搜尋與AI結合的新功能後留下了一句「問就行（just ask）」「谷歌可以幫你搜尋、調查、計劃、頭腦風暴……你只需要做一件事，就是問。」

谷歌搜尋業務主管麗茲·瑞德發表演講。

AI智慧助手Astra可透過網路攝影機解題找東西但為視訊演示

釋出會現場，DeepMind聯合創始人兼執行長德米斯·哈薩比斯（Demis Hassabis）展示了一段視訊。視訊中，拿著手機或戴著VR眼鏡的測試者一邊「看」周圍的景物，一邊對谷歌AI助手提問，例如「看到能發出聲音的東西就告訴我。」而搭載大模型Gemini的智慧助手Project Astra對答如流，如「這是一個音箱。」測試者直接在螢幕上對音箱的黑色喇叭上畫出了一道紅色箭頭：「這又叫什麽？」「高頻喇叭。」

智慧助手Project Astra幫助使用者解答問題的演示視訊。

這段展示中，谷歌AI助手的效果堪比真人專家，甚至當使用者看向窗外，智慧助手立刻就說出了使用者的詳細地址：「這兒顯然是倫敦的國王十字路口區域。」同時，其也可以理解繪畫和影像，如可以對一個寫在白板上的系統流程圖給出意見「在伺服器和資料庫間添加緩存可以提高速度」。

德米斯稱，Project Astra是自己期待了幾十年的AI助手的雛形，是通用 AI 的未來，「AI個人助理可以透過連續編碼視訊幀、將視訊和語音輸入組合到事件時間線中，並緩存這些資訊以進行有效回憶，從而更快地處理資訊。」

谷歌執行長桑達爾·皮查伊(Sundar Pichai)表示，谷歌計劃從今年開始將Astra的功能添加到其Gemini應用程式及其產品中。不過，他也強調，雖然最終目標是「讓Astra在公司的軟體中實作無縫連線」，但該產品將被謹慎推出，並且「商業化之路將由品質驅動」。

不過，Astra似乎並未體現出GPT-4o在前一日展現的能夠讀懂使用者情緒的功能，而且OpenAI的直播為現場演示，而Astra的功能則僅體現在視訊裏，當然，德米斯信誓旦旦表示，演示視訊沒有經過偽造或篡改。

皮查伊表示，Project Astra的多媒體聊天功能將在今年晚些時候出現在Gemini聊天機器人上。

推出 Gemini 1.5 Pro大模型長文本從100萬 tokens翻倍至200萬 tokens

在谷歌智慧助手的背後，谷歌大模型Gemini也有所升級。此次開發者大會上，皮查伊宣布了關於Gemini 1.5 Pro 的重大更新。首先，谷歌將 Gemini 1.5 Pro 的上下文長度從原有的 100萬tokens（語句單位）提升到了200萬tokens，這一升級將極大地增強其數據處理能力，使得模型在處理更加復雜和龐大的數據時更加遊刃有余。

升級後的 Gemini 1.5 Pro 在多項公共基準測試中取得了顯著改進，特別是在影像和視訊理解方面，展現出了先進的效能。這一模型不僅能夠理解文本內容，還能夠準確地解讀影像和視訊中的資訊。

據了解，Gemini 1.5 Pro可以對 Google AI Studio（谷歌AI演播室）中上傳的視訊影像和音訊進行推理。此外，谷歌還將1.5 Pro整合到了Google產品中，如Gemini Advanced和Workspace 應用程式。收費方面，Gemini 1.5 Pro每100萬tokens 收費3.5美元。

谷歌還推出了針對速度和效率進行了最佳化的Gemini 1.5 Flash，這是能提供最快API（介面）速度的Gemini系列模型，它針對大規模、大批次、高頻任務進行了最佳化，服務更具成本效益，並具有100萬tokens的長文本視窗。

谷歌宣布， Gemini 1.5 Pro 將面向全球開發者開放。這意味著，無論是專業的開發人員還是業余的愛好者，都可以更加深入地了解和使用這一強大的模型。

文生一切？視訊、圖片、音樂領域全方位秀肌肉

除了對標OpenAI前一日推出的智慧助理新功能外，谷歌還展示了一系列AI生成大模型，包括對標Sora的文生視訊大模型Veo，對標Suno的AI音樂創作工具Music AI Sandbox，以及谷歌最高品質文生圖模型Imagen 3。

其中，眾人最為期待的當數谷歌的文生視訊大模型，當德米斯秀出Veo的圖示時，全場爆發出了最為熱烈的掌聲。

德米斯介紹谷歌文生視訊大模型veo。

德米斯介紹，Veo是視訊生成領域技術的集大成者，包含了多年來谷歌開發的生成查詢網路的各類技術。只需一個文本、影像或視訊提示，Veo就能生成和編輯70秒以上不同視覺風格的高品質1080p視訊，並且還可以任意延長視訊長度。

谷歌在釋出會現場展示的Veo生成視訊為一組汽車從賽博龐克風格的黑夜行駛至現代寫實風白天的鏡頭，該段視訊在黑夜部份較為模糊，白天部份則足夠清晰，品質很高。不過，貝殼財經記者註意到，該視訊的大部份時間都為汽車尾部跟隨視角，視訊的表現品質相對而言不如Sora更精致且有更多不同角度的鏡頭。

根據宣傳視訊，電影導演也用到了Veo，「Veo幫我們把靈感變成現實。」電影導演說，「人工智慧可以幫我們快速發現構思中的錯誤並快速糾正，提高效率。」谷歌方面表示，憑借對自然語言和視覺語意的深入理解，Veo 模型在理解視訊內容、渲染高畫質影像、模擬物理原理等方面都有所突破。Veo 生成的視訊能夠準確、細致地表達使用者的創作意圖。

從5月15日開始，谷歌會為一些創作者在 VideoFX中提供預覽版 Veo，創作者可以加入谷歌的等待名單。谷歌還將把Veo的一些功能引入到了油管短視訊等產品中。

值得註意的是，針對之前傳出的OpenAI依賴油管視訊內容訓練Sora模型的訊息（谷歌是油管的母公司），皮查伊稱，如果谷歌確定了這一訊息的真實性，谷歌將要「解決這個問題」。

「你只需要做一件事就是問」

皮查伊在演講中提到，Gemini帶來的最令人興奮的變革之一是在Google搜尋中。「我們最大的投資和創新領域之一是我們的創始產品——搜尋。」皮查伊回顧，25年前谷歌就建立了搜尋，如今Gemini時代，搜尋也提升到了全新的水平。

皮查伊在現場展示了新功能「問照片」。當使用者在停車場付費卻忘記了車牌號碼時，之前可能會在手機照片中搜尋鍵碼，瀏覽大批過往照片來尋找車牌。但現在，谷歌相簿足夠聰明，可以根據位置、多年來在照片中出現的次數以及其他數據來確定哪輛車是預期的車輛，並在文本回復中返回實際車牌號以及驗證它的影像。

另一個新功能則是AI概述（AI Overview），該功能相比傳統搜尋引擎的結果，能為使用者呈現出完整的包括觀點、見解、連結的答案，使用者在搜尋框輸入問題，即可得到一個AI總結的答案，且能處理超長問題。

如使用者想找一個合適的瑜伽或普拉提工作室，需要同時考慮時間、價格、距離等因素。AI搜尋就可以幫助使用者提煉整合資訊並呈現在AI搜尋概述中，最終可以顯示出波士頓最佳瑜伽工作室的優惠詳情、從家過去的步行時間，為使用者節省數個小時的時間。這一功能也適用在出行、聚會等規劃上，或是餐飲計劃的制定等。

皮查伊說，谷歌的AI搜尋概述有三大獨特優勢：即時資訊、排名和品質體系、Gemini模型能力。而AI概述功能將陸續面向美國及各國使用者開放。

此外，谷歌還將很快推出視訊搜尋功能。搜尋產品副總裁姚露絲（Rose Yao）現場演示了透過手機網路攝影機拍攝一個壞掉的留聲機後再問谷歌問題的方式，得到了這架留聲機壞在哪裏，如何維修等回復。

谷歌搜尋產品副總裁姚露絲（Rose Yao）現場演示視訊搜尋功能。

值得註意的是，作為安卓系統的開發方，谷歌表示要做「系統級AI」，即把Gemini用在安卓系統的底層。當Gemini在系統級層面執行，使用者將不用安裝任何AI套用，而是直接在手機作業系統裏享受相關功能。

比如，使用者在看視訊的時候，手機可以彈出提示，詢問是不是想了解關於這個視訊的問題，當使用者詢問視訊中的細節時，Gemini可以直接從視訊中找到答案。

谷歌特別強調，這些體驗只在安卓手機中擁有，似乎在和OpenAI使用蘋果手機和電腦進行演示「針鋒相對」。谷歌和OpenAI的「神仙打架」將落地到作業系統端繼續對抗。

不過，皮查伊在會後采訪中也表示，谷歌也不排除與蘋果保持合作關系，「我們一直致力於為蘋果生態系提供出色的體驗，我相信我們有很多方法來確保我們的產品是可存取的。今天，我們看到AI概述已經成為iOS上的一個受歡迎的功能，所以我們將繼續努力。」

記者聯系信箱：[email protected]

新京報貝殼財經記者羅亦丹

編輯嶽彩周陳莉

校對柳寶慶