IT之家 10 月 27 日訊息,據 The Information 報道,谷歌計劃在 12 月預覽其大型動作模型「Project Jarvis」。知情人士透露,該專案將幫助使用者執行諸如「收集研究、購買產品或預訂航班」等任務。
報道稱,「Jarvis」將由未來版本的谷歌 Gemini 驅動,專門針對 Chrome 瀏覽器進行最佳化。該工具旨在透過截取螢幕截圖、解析內容並自動點選按鈕或輸入文本,幫助使用者「自動化日常的網頁任務」。目前,該工具在執行不同操作的時候,中間會有幾秒鐘的間隔時間。
IT之家註意到,目前所有大型 AI 公司都在研發類似功能的模型。微軟的 Copilot Vision 可以與使用者討論正在瀏覽的網頁;蘋果的 Apple Intelligence 預計將在明年具備跨多個應用程式的螢幕辨識能力;Anthropic 剛剛推出的 Claude 測試版已能在電腦上執行操作;OpenAI 也在研發類似的功能。
報道稱,谷歌展示「Jarvis」的計劃也可能會有所變動,預計將首先向少量測試者釋出,以幫助公司修復潛在的 Bug。