AI手機第一個殺手級套用，是「AI讀屏」？

2024-10-27財經

作者 | 山竹

出品 | 鋅產業

經過一年多的搖旗吶喊，AI手機終於還是在2024年完成了對智能電話的替代。

至少在概念上，幾大主流手機廠商今年在傳播口徑上都已經陸續完成了向AI手機的轉變，就連蘋果也高調選擇了與OpenAI聯姻。

即便如此，對於大多數消費者來說，依然沒有弄明白「AI手機」和「智能電話」究竟有何不同。

關於AI手機，我今年看到最多、也是最直接的AI功能是「AI讀屏」：

手機搭載的智能體像人類一樣辨識出手機螢幕上的內容，然後一步一步按人類的思維邏輯完成常見的諸如線上購物、朋友圈點贊評論等功能。

與智能電話中的AI不同的是：

這樣的AI有了明顯的「思維鏈」，實作邏輯更為復雜。

與智能電話時代的功能設計邏輯不同的是：

這次，「AI讀屏」功能的後台執行邏輯，被手機廠商在手機螢幕上完整呈現了出來。

對於大多數普通消費者來說，人工智能的自動化能力第一次被具象化，帶來的是最直接的視覺沖擊。

那麽，這樣的「讀屏術」在技術上是如何實作的？

01 微軟谷歌神仙過招，端側AI雛形初顯

大模型炸場後，微軟和谷歌的往來過招，成了這場曠世之爭的看點，AI手機的「讀屏術」正是在這樣的神仙過招中逐漸成形。

2023年2月8日，微軟New Bing（Bing AI）釋出，這是微軟與OpenAI聯手後，借生成式AI面向搜尋引擎發起的新一輪沖擊，New Bing在ChatGPT加持下，曾斬獲不小市場熱度，也一度把谷歌嚇得不輕。

面對被視為ChatGPT版的New Bing，谷歌隨後祭出了自己的Bard。

Bard是由谷歌內部早在2021年就已經對外釋出、同樣是基於Transformer架構的LaMDA提供支持，但當時還是一個實驗性的聊天機器人。

這是谷歌和微軟在生成式AI領域第一次正面較量，雙方的這次較量，讓搜尋引擎這一互聯網老產品，有了一些Chat新花樣。

不過，此時的生成式AI，還沒有對端側造成直接沖擊。

真正的沖擊，是在微軟Copilot釋出後。

2023年3月16日，微軟對外官宣，正式為Microsoft 365套用加持Copilot服務（Microsoft 365 Copilot），在將生成式AI疊加到辦公軟件後，真正的內容生成魔力開始成為生產力工具的一部份。

大模型由此也在企業辦公軟件領域形成了一股潮流，開啟了搶灘登陸模式。

就谷歌和微軟兩大科技巨頭而言，為了做出生成式AI技術模式下的殺手級套用，他們動用了生態力量——分別將Windows生態和安卓生態面向大模型全面開啟。

這之後，二者的大模型之爭開始下沈到端側。

經過大概半年試錯和打磨後，谷歌和微軟分別在端側拿出了自己的「關鍵作品」：

谷歌是在2023年10月釋出的pixel 8系列手機上增加了一個名為Circle to Search的功能。

有了這一功能，只要你對著手機螢幕上的圖片圈出你想了解的產品，谷歌AI就可以自動搜尋出這一產品的相關資訊和出處。

這一功能後來也被三星拿去作為Galaxy AI的主打功能，對外宣傳推廣。

實際上，在這一功能出現之前谷歌對Bard進行過一次升級，更新後的Bard可以從Gmail、Docs、谷歌地圖、YouTube等套用中總結資訊，也是在那時，個人本地知識庫開始被谷歌用於深度檢索（也就是RAG），並由此衍生出為使用者提供出行建議、日程安排等功能的個人助理。

Circle to Search自然是承襲了這一能力。

微軟則是在2024年5月20日AI PC釋出會上官宣釋出了Recall功能。

這一功能是透過微軟Copilot，幫助使用者根據記憶點或時間線來跳回到此前某個時間點電腦上顯示的原始內容。

實際上，除了這兩位AI大佬外，當初為了拿下蘋果的大模型訂單並獲得新一輪融資，OpenAI釋出了GPT-4o，並秀了一波視覺辨識的功能。

透過手機網絡攝影機，讓GPT-4o解寫在紙上的數學題，甚至辨識出現在鏡頭前使用者的情緒。

檢索增強生成（RAG）和包括語言、視覺在內的多模態大模型技術的成熟，以及大模型在端側的下沈和套用，讓AI讀屏功能在手機上出現成了順理成章。

02「AI讀屏」工作流

2024年的手機圈，AI讀屏功能正在迅速成為標配。

僅以這周手機圈密集的釋出會上對外公布的資訊來看：

先有華為在鴻蒙釋出會上對外釋出的小藝圈選功能（類似谷歌的Circle to Search），又有榮耀在更新新系統時對外釋出演示的「一句話點咖啡」功能。

在OPPO Find X8系列釋出會上，OPPO更為直接地上新了「一鍵問屏」功能。

或許是因為是針對手機系統的釋出會，榮耀雖然請了沈騰作為公司的AI大使，還做了主題為「AI就是一句話的事兒」廣告，但並沒有針對這一功能給出明確的諸如「AI讀屏」或「一鍵問屏」這樣的命名。

不過，榮耀CEO趙明倒是在釋出會上講明白了「AI讀屏」功能的具體工作流。

在趙明的介紹中，AI讀屏的工作流可以分為三步（以「幫我點杯喝的吧，我有些困了」語音指令為例）：

第一步，模糊意圖理解。

手機內建的智能體將語音指令進行拆分理解，分析使用者意圖是「困了」想點杯解困的「喝的」，篩選出可能選項（咖啡、綠茶、涼茶等）。

第二步，復雜任務規劃。

首先智能體根據手機時間資訊、定位資訊，辨識出最終配送地址；

然後智能體根據手機已有的本地個人知識庫中收集到的你的日常飲食習慣，得出你希望點單的咖啡的品牌、甜度、是否加冰等資訊（如果是新手機，這一步會卡殼，就需要使用者手動點選）；

最終智能體確認具體的點單資訊並自動填充配送地址。

第三步，任務自動執行。

首先智能體辨識出手機螢幕上的本地生活服務APP（例如美團），並搜尋咖啡品牌（例如瑞幸）；

其次辨識並理解螢幕上的關鍵資訊，進入外賣點單頁面（例如瑞幸的幸運送）；

然後根據已經規劃出的使用者點單內容（例如大杯少冰正常糖拿鐵），在螢幕上一步一步進行類人的點選操作；

最後進入到結算頁面，使用者接管，由使用者並選擇是否用優惠券、是否確認下單。

如果說ChatGPT在全球形成的熱潮讓大家意識到了生成式AI、大模型的顛覆性，那麽作為一個更聰明的聊天機器人，它首先帶來的是又一次互動模式的改變。

AI讀屏就是人類和手機互動模式改變的一個重要體現。

03 當AI開始接管你的手機

如果結合微軟、谷歌大模型之爭來看，AI讀屏背後的技術邏輯，和微軟的Recall、谷歌的Circle to Search，以及OpenAI的GPT-4o有著諸多相似之處。

從技術實作原理上來看，包括OpenAI的GPT、Anthropic的Claude、谷歌Gemini、阿裏通義千問在內的所有主流大模型，都能做出AI讀屏功能。

實際上，就在手機圈紛紛押註AI讀屏功能時，在本周與三星中國官宣了戰略合作的智譜AI在2024中國電腦大會（CNCC 2024）上釋出了AutoGLM。

什麽是AutoGLM？

智譜AI的大模型是以GLM做得命名，AutoGLM也就是擁有自主能力的大模型，有媒體將它解讀為是學會了使用工具的大模型，但本質上就是在手機上實作了AI讀屏功能。

從官方公布的資訊來看，這一模型目前是以App中的一個功能模組對外呈現（只支持安卓手機，現在還在內測階段），並沒有與手機底層系統強關聯，也不挑手機品牌。

如果說在這套流程中，手機廠商的地位有何獨特之處的話，那應該是平台和數據了。

作為手機這一超級硬件的主導者，手機廠商不僅掌握著平台入口，更有強大的系統整合能力。

這就意味著決定端側智能體智能程度的本地個人知識庫，以及端側智能體的微調、最佳化能力，對幾大手機廠商的軟件團隊有很強的依賴性。

實際上，早在10月22日，OpenAI的頭號死敵Anthropic就對外官宣釋出了Claude 3.5 Sonnet，在這次版本更新中，Anthropic加入了一個獨特的功能是」computer use「。

這個computer use，其實就是PC版本的AI讀屏，它可以讀取你PC的螢幕，並根據你給出的一段話的任務指令，自動完成諸如搜旅遊攻略、寫程式程式碼等功能。

不過，在Anthropic官方的描述中，在OSWorld（評估 AI 模型像人類一樣使用電腦的能力）上，Claude 3.5 Sonnet的得分為14.9%，遠未達到人類平均水平，人類平均得分是70%-75%。

要想提高模型準確度，本地個人知識庫也就成了必須。

在過去這短短一周裏，這麽多AI巨頭和手機廠商都瞄準了AI讀屏功能在猛攻，顯然是將這一功能視為了AI手機的殺手級套用。

AI讀屏，確實最能體現AI手機的「AI」與智能電話的「AI」的本質區別，也是各大手機廠商的機會。

對於像我們這樣的普通消費者來說，未來，AI不只會接管你的手機，甚至還會接管你的PC，乃至更多電子器材。

而這樣的UI Agent，其實還不是端側智能體的終極形態。