一、谷歌的創新舉措
谷歌在人工智慧領域的創新舉措引起了廣泛關註。計劃在 12 月推出的可控制電腦的人工智慧 「Project Jarvis」,被寄予厚望。這個計畫旨在接管使用者的瀏覽器,幫助消費者完成收集研究、購買產品或預訂航班等日常任務。
據報道,「Jarvis」 將由谷歌下一代旗艦 Gemini 大型語言模型提供動力。Gemini 模型在人工智慧領域具有重要地位,它能夠進行多模態推理,支持文本、影像、視訊、音訊和程式碼之間的無縫互動。在語言理解、推理、數學、編程等多個領域都展現出強大的實力。
目前,所有大型 AI 公司都在研發類似功能的模型。微軟的 Copilot Vision 可以與使用者討論正在瀏覽的網頁;蘋果的 Apple Intelligence 預計將在明年具備跨多個應用程式的螢幕辨識能力;Anthropic 剛剛推出的 Claude 測試版已能在電腦上執行操作;OpenAI 也在研發類似的功能。這表明人工智慧領域的競爭日益激烈,而谷歌的 「Project Jarvis」 和 Gemini 模型的推出,無疑將為市場帶來新的活力。
谷歌展示 「Jarvis」 的計劃可能會有所變動,預計將首先向少量測試者釋出,以幫助公司修復潛在的 Bug。這一舉措顯示了谷歌對產品品質的重視,透過小範圍測試,可以及時發現並解決問題,為正式釋出做好充分準備。
總的來說,谷歌的創新舉措體現了其在人工智慧領域的積極探索和領先地位,「Project Jarvis」 和 Gemini 模型的推出,將為使用者帶來更加便捷、高效的體驗,也將推動人工智慧技術的進一步發展。
二、Project Jarvis 的功能與特點
(一)強大的日常任務處理能力
Project Jarvis 展現出了強大的日常任務處理能力,能夠幫助使用者執行收集研究、購買產品或預訂航班等多種日常任務。它透過截取螢幕截圖、解析內容,並自動點選按鈕或輸入文本來實作網頁任務自動化。例如,當使用者需要進行產品研究時,Project Jarvis 可以快速截取相關網頁的內容,分析其中的關鍵資訊,為使用者提供準確的產品評價和比較。在購買產品時,它能夠自動填寫表單、選擇支付方式,極大地提高了購物效率。預訂航班時,它可以搜尋最佳航線和價格,自動完成訂票流程。
(二)與瀏覽器的緊密結合
Project Jarvis 專門針對 Chrome 瀏覽器進行了最佳化,這使得它能夠更好地與瀏覽器的功能相結合。然而,目前該工具在執行不同操作時存在幾秒鐘的間隔時間,執行速度相對較慢。盡管如此,它的目標使用者主要是那些希望實作網頁日常任務自動化的人。對於這些使用者來說,Project Jarvis 提供了一種便捷的方式來處理繁瑣的網頁任務,節省了時間和精力。
(三)與其他產品的比較
與微軟 Copilot Vision 相比,Project Jarvis 在功能上有相似之處,但 Copilot Vision 可以與使用者討論正在瀏覽的網頁,而 Project Jarvis 則更側重於透過自動操作來完成任務。蘋果的 Apple Intelligence 預計將在明年具備跨多個應用程式的螢幕辨識能力,而 Project Jarvis 目前只能操作瀏覽器。Anthropic 剛剛推出的 Claude 測試版已能在電腦上執行操作,但與 Project Jarvis 存在關鍵差異,Anthropic 的產品可以操作安裝於電腦不同應用程式上,而 Project Jarvis 目前只能操作瀏覽器,並且已經針對谷歌的 Chrome 瀏覽器進行了 「客製化」 調整。OpenAI 也在研發類似功能的產品,這表明人工智慧領域的競爭日益激烈。在這場競爭中,Project Jarvis 憑借其與 Chrome 瀏覽器的緊密結合以及對網頁任務自動化的專註,有望在特定使用者群體中獲得優勢。
三、Gemini 大型語言模型的特點
(一)多版本與強大效能
Gemini 1.0 分為 Ultra、Pro 和 Nano 三個版本,展現出了不同的效能特點和適用場景。Ultra 版本能力最強,復雜度最高,適用於高度復雜的任務。它在大型語言模型研究和開發中廣泛使用的 32 項學術基準中,有 30 項效能都超過了目前最先進的水平。Ultra 的得分率為 90.0%,是第一個在 MMLU(大規模多工語言理解)測試中超過人類專家的模型,能夠處理包括數學、物理、歷史、法律、醫學和倫理等 57 個科目,展現出強大的知識和解決問題的能力。
Pro 版本效能稍弱於 Ultra,但它是適用於各種任務的最佳模型。它將為許多 Google AI 服務提供支持,並且 Bard 宣布將使用 Gemini Pro 來進行新的升級。
Nano 版本註重端側處理能力,可在行動裝置上本地執行,是端側裝置上最高效的模型。它采用 4 位量化進行部署,有兩個尺寸,參數分別為 1.8B(Nano - 1)和 3.25B(Nano - 2),分別針對低記憶體和高記憶體裝置,為行動裝置使用者提供便捷的人工智慧服務。
(二)多模態與廣泛套用
Gemini 采用原生多模態設計,從一開始就被建立為能夠處理不同形式數據的模型,包括文本、程式碼、音訊、影像和視訊。它可以歸納並流暢地理解、操作以及組合這些不同型別的資訊。
在多模態套用方面,Gemini 能夠透過閱讀、過濾以及理解資訊,從數十萬份檔中提取見解。它擅長解釋數學和物理等復雜科目中的推理,經過訓練,可以同時辨識並理解文本、影像、音訊等,更好地理解具有細微差別的資訊,回答與復雜主題相關的問題。
此外,Gemini 在編碼領域也有出色表現。它可用作更高級編碼系統的引擎,例如利用一個專門版本的 Gemini,建立了更先進的程式碼生成系統 AlphaCode 2,該系統擅長解決那些不僅需要編碼能力而且也需要復雜數學和理論電腦科學知識的競賽性編程問題。
Gemini 還能理解多種輸入輸出形式,可應對問題回答、摘要生成、轉譯、字幕生成、情感分析等多種任務,覆蓋了文本、影像、音訊、視訊,甚至是 3D 模型和圖表等多個領域。無論是智慧型手機使用者還是 iOS 使用者,都能透過谷歌套用或獨立的 Gemini 套用輕松喚出 Gemini,實作與螢幕內容互動及執行各類常見任務。
四、Project Jarvis 與 Gemini 的關系
Gemini 大型語言模型作為谷歌在人工智慧領域的重磅成果,為 Project Jarvis 提供了強大的動力支持。Project Jarvis 之所以能夠實作接管使用者瀏覽器、完成各種日常任務的強大功能,很大程度上得益於 Gemini 的先進技術。
Gemini 的多模態特性使得 Project Jarvis 能夠處理多種形式的數據。例如,在使用者進行收集研究任務時,Project Jarvis 可以借助 Gemini 對文本、影像、視訊等多種資訊的理解能力,快速從不同來源收集並分析相關資料。當使用者預訂航班時,Gemini 可以理解航班資訊中的復雜數據,如航班時間、價格、航線等,為 Project Jarvis 提供準確的決策依據。
Gemini 的強大效能也為 Project Jarvis 的高效執行提供了保障。以 Ultra 版本為例,其在 32 項學術基準中有 30 項效能超過目前最先進水平,這意味著 Project Jarvis 在處理復雜任務時能夠獲得更準確、更高效的結果。而 Pro 版本作為適用於各種任務的最佳模型,為許多 Google AI 服務提供支持,也將為 Project Jarvis 的功能擴充套件和最佳化提供堅實的基礎。
此外,Gemini 的多模態套用能力也為 Project Jarvis 帶來了更多的可能性。例如,在購物場景中,Project Jarvis 可以利用 Gemini 對影像的辨識能力,幫助使用者辨識商品、比較不同商品的外觀和特點。在預訂航班時,Gemini 可以結合地圖和航班資訊,為使用者提供更直觀的航線選擇和航班推薦。
總之,Project Jarvis 和 Gemini 大型語言模型相互配合,共同推動谷歌在人工智慧領域的發展。Project Jarvis 以其便捷的網頁任務自動化功能為使用者帶來高效的體驗,而 Gemini 則以其強大的效能和多模態特性為 Project Jarvis 提供技術支持。兩者的結合將為人工智慧的發展開辟新的道路,為使用者帶來更多的便利和創新。