谷歌放大招，AI搜尋引擎來了，釋出最強AI模型！釋出會現場：總共提了120次AI、視訊模型登場……

2024-05-15科技

雖然被OpenAI搶在前面釋出了重磅新品演示，但谷歌後發制人，做到了OpenAI還沒能做到的事， 率先釋出人工智慧（AI）搜尋引擎 ，捍衛搜尋領域的王者地位，同時對壘OpenAI新釋出的旗艦模型GPT-4o， 以升級版的最強大AI模型Gemini迎戰 。

從台北時間5月15日淩晨1點開始，谷歌在山景城總部附近的海岸線圓形劇場，召開了長達兩個小時的年度I/O開發者大會Keynote演講。

與預期一致，谷歌的這場釋出會基本都是在談AI、AI、AI、AI和AI。 根據釋出會最後的官方統計，整場Keynote的演講稿裏總共提了120次AI。

谷歌CEO Sundar Pichai表示，谷歌所有的工作都圍繞生成式AI模型Gemini來做，「我們希望每個人都能從Gemini所做的事中受益。」AI搜尋正是Pichai提到的Gemini融入谷歌多種服務之一。

同時谷歌搜尋也將具備多步驟推理能力，可以一次性處理帶有多個限制條件的長問題，並支持「拍視訊」搜尋解決方案的新搜尋形式。

另外以上下文視窗「長」聞名的Gemini 1.5 Pro大模型，在今年晚些時候將會把100萬Tokens的視窗，進一步擴大至200萬Tokens，拓展同步處理多模態資訊的邊界。而對於一些需要快速響應的場景， 谷歌也推出了Gemini 1.5 Flash模型 。今年2月剛剛問世的Gemma開源模型，也將在下個月迎來參數量更大的Gemma 2。 在多模態領域，谷歌也釋出了文生圖工具Imagen 3、與Youtube&音樂家合作的「AI音樂沙盒」，以及最新的視訊生成模型Veo。 而多模態Gemini Nano模型也將在今年晚些時候登陸Pixel手機，這是在本地執行的機載模型。

值得註意的是，谷歌的釋出會上也有一些與昨日OpenAI釋出會「雷同」的地方——即時AI助手。從今年夏天開始，Gemini也將支持語音即時互動，同時今年晚些時候還將上線即時視訊互動。未來幾個月內，谷歌也將推出類似於GPTs的自訂AI助手功能，叫做Gems，能夠與整套「谷歌全家桶」聯動。

硬體方面， 谷歌宣布了第六代TPU芯片Trillium ，並透露能夠在明年初用上輝達最新的Blackwell架構GPU。另外，液冷、光纜等中國股民可能會感興趣的題材也在釋出會上出現。

Gemini 1.5 Pro上下文視窗200萬token 全球最長

谷歌稱，推出號稱有史以來最強大AI模型Gemini Advanced三個月內。從本周二起，谷歌在Gemini Advanced中加入新模型成員Gemini 1.5 Pro，稱它擁有的上下文視窗在全球消費類聊天機器人中最長，視窗起始就有100萬個token。Gemini 1.5 Pro將向150 多個國家地區的Gemini Advanced訂閱者提供，支持超過35 種語言。

Pichai稱，Gemini 1.5 Pro「提供了迄今為止所有基礎模型中最長的上下文視窗。」他介紹，Gemini 1.5 Pro將擁有200 萬個token的上下文視窗，是當前模型100萬個token視窗的兩倍。

Gemini新語音對話功能Live客製版Gemini

谷歌稱，今年夏季將擴充套件 Gemini 的多模態功能，包括增加用語音進行深入雙向對話的能力，該功能被稱為 Live。透過 Gemini Live，使用者可以與 Gemini 交談，並可以從各種自然的聲音中選擇它回應的聲音。使用者甚至可以按照自己的節奏說話，或者在回答過程中打斷並澄清問題，就像在任何人類對話中一樣。

谷歌稱，今年夏季，將在Gemini Advanced 中添加新的旅行規劃功能。借助考慮時間和空間方面物流的先進推理，Gemini將能夠建立個人化的行程，節省使用者的工作時間。

未來幾周，谷歌將在Gemini Advanced中添加新的數據分析功能。使用者只需上傳電子試算表，Gemini 就可以分析數據、制作圖表，並更快地發掘見解。

谷歌將推出被稱為Gem的Gemini的客製版本。Gemini Advanced 訂閱者將很快可以獲得更個人化的體驗，根據自己的需要建立Gemini，只需描述使用者希望 Gem 做什麽以及希望它如何響應，就可以讓它化身健身夥伴、主廚幫手、編程式碼的拍檔或者創意寫作指南。

Project Astra回答手機所拍物問題安卓端側Gemini增加多模態功能

谷歌官宣推出新的多模態AI計畫Project Astra，它可以為使用者解釋智慧型手機拍到的東西。在谷歌展示的視訊中，只要將手機網路攝影機對準某個物體，Gemini就可以辨識它，比如一個紅蘋果，還可以回答諸如鏡頭中什麽東西是可以發聲的這種問題。

谷歌稱，將很快為模型Gemini Nano添加多模式功能。這意味著，使用者的手機可以透過文本、影像、聲音和口語，按照使用者理解的方式理解世界。

谷歌稱，端側安卓系統手機版的Gemini Nano將更有幫助，更有上下文的意識。今年，安卓手機的使用者將可以將生成的影像拖放到Google Messages 和 Gmail 中，並可以直接在手機上提出有關YouTube視訊和 PDF檔的問題，得到解答。

谷歌稱，今年晚些時候，Gemini Nano的輔助功能TalkBack將增強。影像描述將更加清晰和豐富，幫助弱視使用者和盲人使用者透過語音反饋，更好地指示他們的手機。

全場釋出會回顧

釋出會開始，Alphabet&谷歌CEO桑達爾·皮查伊登上舞台。

皮查伊表示，現在已經有超過150萬開發者正在使用谷歌的人工智慧Gemini，今天將展示一系列有關搜尋、圖片、工作套件、安卓系統等等與人工智慧有關的案例。

皮查伊宣布，能夠總結谷歌搜尋引擎結果的「AI概覽」（AI Overviews）功能，將於本周在美國推出。

---基於Gemini支持，谷歌圖片（Google Photos）將支持使用者儲存圖片的AI搜尋，例如「告訴我，我的車牌號碼是多少？」——這個名為Ask Photos的功能將於今年夏天推出。

皮查伊宣布，最新版本的Gemini 1.5 Pro（在多項核心功能方面均較最初釋出版本有所提高）現在向全球所有開發者開放。從今天開始， 支持100萬tokens上下文視窗的Gemini 1.5 Pro將在Gemini Advanced功能下向使用者開放 ，支持35種語言。

谷歌同時面向開發者推出支持 200萬tokens 的Gemini 1.5 Pro模型的預覽，並表示最終的目標將是「無限上下文」。

谷歌AI業務總負責人、DeepMind的執行長傑米斯·哈薩比斯登台，宣布推出Gemini 1.5 Flash大模型。這個模型兼具速度與效率，和多模態推理能力，以及長達100萬tokens的上下文視窗。開發者將能夠申請體驗200萬tokens的上下文視窗的Gemini 1.5 Flash。

谷歌展示「未來的人工智慧助手」——名為「Astra」的計畫。哈薩比斯表示，這樣的AI助手需要像人類一樣理解這個動態且復雜的世界。需要記得住它看到的東西，這樣才能理解對話並付諸於行動。同時它也得能積極主動接受教導，以及自然、無延遲地進行交流。在演示視訊中，谷歌的AI助手能夠透過網路攝影機視訊，辨識「什麽東西能發出聲音」、「現在身處何地」等指令。

谷歌宣布了一系列與影像、音樂、視訊有關的生成式AI工具。包括文生圖工具Imagen 3、與Youtube以及音樂家合作的「AI音樂沙盒」，以及最新的視訊生成模型Veo。

其中最受關註的視訊生成模型Veo，能夠根據文字、圖片和視訊的提示，生成高品質1080p視訊。

哈薩比斯離場，皮查伊重回舞台，釋出第六代TPU芯片Trillium，較上一代芯片的算力表現翻4.7倍，雲使用者從今年下半年開始可以用上新芯片。同時谷歌雲將在2025年初，用上輝達的最新Blackwell架構GPU。

皮查伊開始介紹自家的AI超級電腦，比起使用者自己買相同的硬體和芯片，谷歌的架構能使得效能翻倍，其中有部份功勞來自於 液冷系統 。皮查伊表示，谷歌部署液冷系統的數據中心已經達到1GW，而且還在不斷增長中。

皮查伊表示，谷歌投資了200萬英裏的地面和海底光纖，比第二名的雲服務商翻了十倍。液冷、光纜，應該都是股民們會感興趣的東西。

谷歌搜尋業務負責人Liz Reid開始具體介紹AI Overviews功能。Reid表示，在進行搜尋時，搜素引擎具備多步驟推理的能力，例如尋找一個瑜伽教室，同時展示新手優惠報價，和距離特定位置的步行時間。這個AI搜尋引擎助手，還能介紹食譜、安排行程，以及接受視訊形式的提問（例如視訊中的相機怎麽使用）。

在辦公套件Workspace方面，谷歌將逐步推出總結、信件Q&A，以及智慧回復等功能。

谷歌Gemini總經理Sissie Hsiao介紹了Gemini App的更新。與周一的OpenAI一樣，從今年夏天開始，Gemini也將支持語音即時互動，同時今年晚些時候還將上線即時視訊互動功能。未來幾個月內，谷歌也將推出類似於GPTs的自訂AI助手功能，叫做Gems。這個AI助手的亮點，將是能與「谷歌全家桶」進行互動。

Hsiao再次強調了Gemini的長上下文視窗——能夠一次性處理整整1500頁的檔，或3萬行程式碼、1小時視訊。不同的載體也能混同一起送出給聊天機器人。她再次強調，今年晚些時候上下文視窗將翻倍至200萬Tokens。

安卓生態系的負責人Sameer Samat登台，他將討論今年安卓系統實作的「三大突破」，分別是「畫圈圈搜尋」、Gemini手機AI助手，第三是在手機本地執行的AI。

谷歌表示，今年晚些時候，能夠在本地執行的多模態Gemini Nano模型將登陸Pixel手機， 意味著手機將能透過文字、圖片、視訊、音訊，理解使用者的世界。舉例而言，在聽到「幫你把錢轉到安全帳戶」這樣的詐騙電話時，手機會自動彈出詐騙警告。整個過程都是在本地執行，不會引發私密泄露。

谷歌披露大模型API的最新定價，其中Gemini 1.5 Pro定價為7美元/100萬Tokens，12.8K上下文視窗的版本定價為3.5美元/100萬Tokens；而Gemini 1.5的起售價為0.35美元/100萬Tokens。

對於在今年二月剛剛推出的輕量級開源模型Gemma，谷歌宣布推出視訊語言模型PaliGemma，並將會在6月推出Gemma 2。相較於第一代模型只有20億和70億的參數量，第二代開源Gemma的參數量能達到270億。

作為釋出會最後的彩蛋，谷歌CEO皮查伊最後用Gemini總結了今天的釋出會稿子裏總共提了多少次AI——120次。當然，這並不包括皮查伊問完這個問題後，又喚了幾遍AI。

截至當地時間5月14日收盤，谷歌報171.93美元，漲幅0.6%，市值2.1萬億美元。

每日經濟新聞綜合公開資料

免責聲明：本文內容與數據僅供參考，不構成投資建議，使用前請核實。據此操作，風險自擔。

每日經濟新聞

如需轉載請與【每日經濟新聞】報社聯系。