當前位置: 華文世界 > 數位

手機AI哪家強?手機端側大模型橫向對比評測(上)

2024-05-07數位

自去年8月華為宣布HarmonyOS 4系統全面接入盤古大模型之後,國內一線手機品牌陸續啟動了AI手機戰略。尤其是高通和聯發科在最新一代行動平台大幅提升NPU效能之後,旗艦手機的AI算力最高可以支持端側部署130億乃至330億參數級預訓練大語言模型。

據市場調研機構IDC預計,2024年全球新一代AI手機出貨量將達到1.7億部,約占智慧型手機整體出貨量的15%。旗艦機型將成為AI手機發展初期的重要增長動力。而在中國市場,隨著新的芯片和使用者使用場景的快速叠代,新一代AI手機所占份額自2024年以後開始迅速增長。預計2024年中國市場AI手機出貨量為3700萬台,2027年將達到1.5億台,所占市場份額超過50%。

在2024年新一波旗艦機釋出潮之後,我們看到Android手機廠商不約而同地選擇了將各家產品中的AI語音助手,作為多模態AI的主要入口,來為使用者提供豐富的生成式AI服務。那麽本期我們就來看看,國內第一梯隊的各品牌新機都為我們帶來了哪些AI功能?升級後的智慧語音助手—YOYO助理、小愛同學、藍心小V和小布助手等,誰更能滿足使用者的期望?

事先聲明,手機AI曾是一個比較寬泛的概念,甚至可以追溯到2017年或者更早的人臉解鎖、智慧助理等功能。實質上,除了眾所周知的AI影像演算法或者說計算攝影之外,人工智慧和機器學習一直在為系統流暢度、行程優先級、套用駐留、檔碎片清理乃至續航最佳化方面,持續提供助力。然而ChatGPT的橫空出世似乎重新定義了AI,如今無論是業內還是使用者,都預設將整合了AI計算核心和大語言模型的手機稱為「AI手機」。因此,本文測試主要針對手機端側AI大模型及旗艦新品帶來的AI進階功能。

我們如何測試?針對當前各家手機品牌在新機上部署的AI功能,並結合近期在評測和使用過程中的一些真實體驗,我們特地制定了一系列測試流程,其中部份測試計畫參考了SuperCLUE和其他中文通用大模型的綜合性測評基準。限於報道篇幅,本次測試也許無法面面俱到,也可能不一定能真實反映各家手機端測大模型的真實智慧水準,但應該足以幫助各位朋友了解當前手機AI的大致表現,以及不同品牌機型當前在AI方面有哪些差異和獨特的亮點。

測試機型如下:

榮耀 Magic6 Pro

系統版本:

MagicOS 8.0(8.0.0.126)

行動平台:

第三代驍龍8

智慧助手:

YOYO助理(8.0.1.229)

AI大模型:

魔法大模型

參數量級:70億

系統版本:

Xiaomi HyperOS(1.0.8.0)

行動平台:

第三代驍龍8

智慧助手:

小愛同學(小愛語音6.123.9)

AI大模型: MiLM

參數量級:13億

小米14 Ultra

vivo X100 Pro

系統版本: OriginOS 4(PD2324C_A_14.0.15.22.W10)

行動平台:

天璣9300

智慧助手:

藍心小V(2.5.0)

AI大模型:

藍心大模型

參數量級:70億

系統版本:

ColorOS 14(PHY110_14.0.1.540)

行動平台:

第三代驍龍8

智慧助手:

小布助手(10.3.2)

AI大模型: AndesGPT

參數量級:70億

OPPO Find X7 Ultra

0 1

助手喚醒與功能設定

考察語音助手喚醒方式是否足夠多樣,以及文章要點總結、照片處理(如AI消除路人或AI擴圖)等功能的互動入口是否便捷。

榮耀

榮耀Magic6 Pro不僅可以透過語音、長按電源鍵、耳機線控、藍芽喚醒語音助手,獨有的氣息喚醒讓使用者只要正對手機底部麥克風說出指令即可實作(手機須靠近嘴唇,且支持聲紋增強以強化辨識),同時也支持添加桌面捷徑。「設定-智慧助手-YOYO助理」的「AI字幕」功能還支持視訊中中英日韓四種語言的即時轉譯,在接通電話時,通話字幕能夠將語音即時轉換為文字顯示在螢幕上。此外,榮耀MagicOS還支持眼動追蹤功能,可透過註視螢幕展開橫幅通知。

小米

小米14 Ultra喚醒小愛同學的方式有很多,基礎的包括語音喚醒、長按電源1秒松手喚醒、線控/藍芽耳機喚醒等,將系統導航模式更換為經典導航鍵後,可以設定長按Home鍵、長按選單鍵、長按返回鍵或者自訂按鍵組合長按喚醒。此外開啟「更多設定」,找到「快捷手勢」還可以透過背部輕敲喚醒小愛同學。在「通知與狀態列-智慧裝置控制」選擇融合裝置中心,所有互聯裝置和智慧家居都能在這個版面進行控制,周邊裝置基於使用者習慣運作,帶來智慧化的服務。同時,更多的AIGC功能都在小愛同學新增板塊「大模型探索」當中,點選進入就能體驗。

▲從左至右依次為:榮耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

vivo

藍心小V支持的喚醒方式多種多樣,如桌面圖示、懸浮圖示、智慧側資訊看板圖示和對應的原子元件等。藍心小V的設定中可開啟未成年人模式,但除使用時間段與單次使用時長之外,系統並未標明該模式有何差別。此外OriginOS 4中的部份設定選項進行了重新分類,「設定-AI」頁面中的「智慧建議」支持手機低電量時自動提示附近的充電寶資訊,智慧生活目前可覆蓋9類智慧裝置的快速發現、連線與操控。不過,目前在OriginOS 4中,藍心小V與過去的Jovi語音助手處於共存狀態,對於不熟悉vivo的新使用者或是不太了解藍心小V的普通使用者而言,可能會將兩者混淆。

OPPO

除語音喚醒、長按電源鍵0.5s喚醒、長按線控耳機喚醒之外,OPPO Find X7 Ultra還支持添加小布助手的桌面捷徑、速覽卡片、桌面卡片,以及側資訊看板圖示等方式,點選即可進入小布助手界面。小布助手不僅支持單獨的音量調節,在系統「設定-小布助手-創新實驗室」中,還可以開啟「小布通話」由助手幫忙自動接聽電話。對於年紀較大的使用者,則可選擇開啟「小布助手關懷版」,轉換成字型更大、設計更簡潔明快的界面。

0 3

多輪語意對話及生成

(2-1)多輪提問: 人工智慧對我們的生活有什麽影響?它對於人類的弊端體現在哪些方面?你覺得它的出現會不會讓人變得更懶?這玩意是否會泄露我的私密?

榮耀

YOYO助理的每一條回復可謂面面俱到,比如它談到了人工智慧正在改變傳統的教育和學習方式,在醫療保健領域的套用日益廣泛,也帶來了娛樂和社交方式的變革;它也分析出低技能的工作崗位更容易受到沖擊,人工智慧在社交媒體和線上廣告等領域的套用可能導致使用者個人資訊被濫用,以及人工智慧的預訓練數據可能存在偏見或歧視,從而導致決策的不公平或是倫理問題。YOYO助理的回復最令人滿意之處在於,它羅列每一個要點時都會有舉例說明,理解起來更加順暢。

小米

小愛同學對於前兩個問題的解答十分全面,例如它提及了人工智慧的高昂成本、準確性/可靠性、缺乏通用性和創造力問題,以及可能存在潛在的偏見、數據偏差和技術濫用風險等問題。點選每一輪對話底部的「搜尋增強」按鈕,它還會給出答案中每一個要點的參考來源,並支持點選跳轉。不過,對於最後一個問題中的「這玩意」,它無法辨識具體的指代事物,也就是說多輪語意的關鍵詞分析還存在進步空間。這條回復中,它根據「泄露私密」這條線索,轉去提醒了一些關於使用智慧型手機、智慧家居裝置和社交平台時的安全事項。

vivo

藍心小V的多輪回答接近滿分。談及AI對生活的影響,除工作效率和生活品質改善外,它提到了娛樂方式、教育方式的變革以及醫療保健的改善。後續問題中,也談到了社會倫理道德、技術依賴和失控風險。在私密安全問題上,它居然更多的是在談AI也能夠采取諸如數據匿名化、數據加密、許可權控制、合規性審查之類的私密保護措施。該項測試中唯一減分的是,它說到AI缺乏人類的情感與直覺,無法像人類一樣具有創造力和想象力,緊接著說「這可能會對人類的文化、藝術和科學等領域產生一定的沖擊」,該語句的邏輯前後矛盾。

OPPO

小布助手的回復條理清晰,整體令人滿意,它以分列要點的形式回復了人工智慧帶來的便捷與挑戰;提出對人類的弊端體現在就業、私密安全、社會不平等、決策不透明和公平性問題等方面;分析了人工智慧的出現可能會導致人類因生活便利產生的懶惰傾向,以及資訊獲取和決策支持導致的認知懶惰,但也提出了人工智慧只是作為一種輔助工具出現,也催生了很多新的職業與機會,我們應以積極的態度面對人工智慧的發展;最後關於私密泄露問題,它分析存在的數據收集、數據泄露和人工智慧系統可能受到的主動和被動攻擊風險。

(2-2)請撰寫一段場景對話,若幹個同學參與一個交通宣傳的活動,其中B同學提出了自己獨到的見解。

從左至右依次為:榮耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

榮耀: YOYO助理撰寫了6個同學參與的7段對話。相較於其他語音助手的對話創作,YOYO給出的場景對話更像是參加完一場交通宣傳活動後,多位同學正在交流「觀後感」,並未偏離主題,對話邏輯也較為順暢。只是B同學提出了還要去主動學習和思考,來掌握交通安全知識,而實際提出具體方式方法的反而是另外三位同學。

小米: 4個同學的9段對話感覺是活動前的交流,A同學提示學校將要組織一次活動,而C同學提出「我們該如何參與活動」,與題幹語意邏輯有一定出入。其他同學則是為活動本身提建議,但緊緊圍繞交通宣傳活動這個主題展開。多次測試下,小愛還會讓B同學給出不同的宣傳思路,比如組織模擬交通事故的戲劇表演,或是利用虛擬現實技術讓參與者能親身體驗不遵守交通規則帶來的危險。

vivo: 藍心小V給出的6段對話中,B同學首次發言時將對話主題從宣傳活動本身轉到了利用智慧交通系統來減少交通事故的發生率,略感生硬。(對此編輯們意見也有分歧,有的認為偏題,有的認為在活動中提出建議也無妨)。

OPPO: 小布撰寫了6個同學參與的9段對話,B同學提出了針對不同年齡、職業和文化背景的人進行客製宣傳策略,比如針對中小學生展開互動遊戲和動畫視訊教學,對成年人利用社交媒體釋出相關知識。其他人提出了制作動畫視訊面臨的技術、資金以及受眾接受度問題,也得到了如圖文並茂和利用增強現實和虛擬現實技術的解決思路。

0 3

邏輯推理

(3-1)A的左邊是B,B的左邊是C,C的左邊是D,請問D永遠都在A的左邊麽?

榮耀: 回答正確,考慮到了特定條件和環境下,即線性排列時命題才能夠成立。

小米: 多次測試得到的答案有著明顯的差異,正確的回復中考慮到了圓形或螺旋形的布局環境,個別回復末尾還標示了「百度知道」的參考源連結。

vivo: 雖然藍心小V首次給出的答案沒有考慮到非線性排列的可能性,但二次回復時它竟然完全「聽懂」了我們的提示,並給出了新的答案。

OPPO: 小布解答出二維空間的線性排列中,D確實在A的左邊,但在環形或三維空間中,位置排列可能會有變化。

(3-2)燒一根不均勻的繩子,從頭燒到尾總共需要1個小時。現在有若幹條材質相同的繩子,如何用燒繩的方法來計時1小時15分鐘呢?

該測試計畫的回復顯示出各AI大模型在邏輯推理方面存在的顯著差異

榮耀: 測試不透過。很奇怪地假設燃燒時間為T小時,而且居然讓我們在A繩燒完後等待15分鐘去熄滅B繩,可見其並未理解題意。二次測試時,它甚至認為無法透過燒繩來準確計時,建議使用沙漏、水鐘或其他計時裝置來輔助。

小米: 小愛同學直接給出了操作步驟,回答簡潔且正確。

vivo: 雖然藍心小V也分析出了利用兩端燃燒的計時方式,但其給出的操作最終並不能得到1小時15分鐘的計時。

OPPO: 小布先給出了分析與推理過程,確定基礎時間和組合時間,然後給出了具體操作步驟。整體推理過程非常清晰,結果也完全正確。

0 4

專業知識與生活服務

(4-1)我要跟老外問「這家酒店怎麽走」,你幫我轉譯一下吧。

從左至右依次為:榮耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

榮耀: 雖然回復同時給出了英文譯文和中文轉譯,但多次測試結果未能透過—它把前面半句全轉譯了。

小米: 轉譯完全正確,而且在不影響語意的前提下,即便更換問句中的個別字詞,給出的答案也無變化。

vivo: 前兩次對語音指令的回復,均未正確辨識出需要轉譯的句子。改為文字輸入(包括標點符號)後,終於給出了完美的解答。

OPPO: 重復提問情況下,由OPPO AI提供的轉譯無誤,但推播的搜狗轉譯會直接將前半句話轉譯成英語,令人啼笑皆非。多番測試下,尚不清楚為何會觸發兩種不同的轉譯推播。

(4-2)請解釋一下孟德爾第二定律,並舉例說明。

榮耀: 回答滿分,舉例與vivo類似,並指出了該定律在遺傳學上的重要性。

小米: 回答滿分,舉例直接用了孟德爾的豌豆雜交試驗,並給出了「百度文庫」的參考連結。

vivo: 給出的專業解釋通俗易懂,且額外講出了該定律的意義與適用範圍。

OPPO: 回答滿分,舉例也十分簡潔明了。

(4-3)炒牛肉怎麽炒才能又好吃又嫩滑?

榮耀: 回復達到預期,步驟十分清晰,如果能有牛肉部位的選購建議會更完美。

小米: 直接推播了第三方的10份菜譜(其中有2份還是重復的),並未能直接給出答案。

▲小米推播了菜譜,等於並未直接解答使用者的相關問題。

vivo: 不僅給出了選購、腌制和炒制的方法,還給出了佐料的具體克數和炒制的時間。

OPPO: 回復從牛肉選擇、如何腌制到炒制流程幾乎覆蓋了所有可能衍生的問題,甚至還加入了推薦配菜。

0 5

學科知識與計算

(5-1)底面邊長為4的正四棱錐被平行於其底面的平面所截,截去一個底面邊長為2、高為3的正四棱錐,所得棱台的體積是多少?(2023年新課標全國二卷)

多數機型在解答數學問題時,往往以程式碼來顯示部份運算子號,希望未來能夠改進。

榮耀: 解題思路正確,但遺憾的是多次測試均無法執行到最後,且答題中數學運算總是以程式碼形式呈現。

小米: 題幹理解錯誤,因而解題過程和答案均不正確。

vivo: 解題步驟完整,且竟然能顯示出正確且規範的數學運算格式,滿分!

OPPO: 分析過程清晰,步驟完整,答案正確。

(5-2)請君少卻,令將士得周旋,仆與諸君緩轡而觀之,不亦樂乎!請轉譯一下這句話。(2023年重慶新高考)

榮耀: 語音辨識和譯文無誤,並給出了部份詞句的重點解釋。有趣的是,即便因口音問題導致辨識存在些許差錯,YOYO也會在提示「這句文言文的結構和用詞似乎有些錯漏」後,根據文言文語法來嘗試轉譯。

小米: 多次測試發現,語音轉換文字存在錯漏,轉譯時要麽轉去轉譯【論語·學而】的「不亦樂乎」,要麽題幹只聽了一半,就自動「搶答」了正確答案。

vivo: 多次測試中,語音輸入均無法轉換成正確的中文語句,即便改為文字輸入,仍須嚴格輸入每處標點符號,否則也不能提供正確譯文。

OPPO: 語音轉換文字無誤,轉譯時未譯出「緩轡」的意思,其他正確。

0 6

文章生成

(6-1)我要寫一份「開啟AI手機元年」的報告,請幫我擬定一個提綱。

從左至右依次為:榮耀Magic6 Pro、小米14 Ultra、vivo X100 Pro和OPPO Find X7 Ultra。

榮耀: 提綱結構清晰,邏輯合理,開篇即定義AI手機概念,提出本報告的目的與意義,以此展開分析和探討當前AI技術的套用方向、手機廠商的布局及技術創新與挑戰,緊扣主題。

小米: 提綱詳細且完整,9大部份又有細分,且均有闡述說明,但提綱通用性太強,直到結論部份才提到「總結為什麽這一年被視作AI手機元年」。

vivo: 提綱整體十分簡潔,包括從背景到技術創新、套用場景,再到發展趨勢與結論建議共計5個部份。但直到總結部份才提到「AI手機元年」,整體思路過於模糊,通用性太強,而無實際操作意義。

OPPO: 提綱分為引言、AI手機元年背景分析(市場趨勢、技術進步、行業合作與創新)、AI手機元年關鍵技術(AI芯片、AI演算法、使用者體驗)、挑戰與機遇(私密安全問題、技術標準/相容性、創新與合作),以及結論與展望共5個部份,邏輯通暢,條理清晰。

(6-2)人們因技術發展得以更好地控制時間,但人也因此成為時間的仆人。這句話怎麽理解,請以此為核心寫一篇文章。

榮耀: YOYO生成了756字的【技術發展與時間的悖論:掌控與奴役】一文,開篇點題,提出「現代科技手段的出現讓我們可以隨時隨地處理工作和個人事務,看似自由的背後,我們是否已經成為時間的仆人」。文中警醒人類必須警惕自己陷入不斷回應任務的迴圈中,專註力被分散,忘記了時間的真正價值,還可能面臨壓力與焦慮的困擾。結論落腳於「保持對時間的自主性和平衡感……需要設定明確的界限與目標……學會放慢腳步」。

小米: 小愛同學生成的文章【技術的雙刃劍:時間的主人與仆人】,共計763字。它提出技術進步讓人類「能更高效地管理日常事務,從而在忙碌的生活中找到一種秩序感和掌控感」,但也可能錯過不少事情。與其他AI不同的是,小愛還以要點總結的形式提出了4點建議(設定優先級、留出緩沖時間、定期斷開連線等),讓文章看起來更像是一篇技術文件,而非材料作文。

vivo: 藍心小V生成了450字短文,沒有標題,但整體表述清晰,尤其是指出了「人們不斷追求更高效率、更快節奏的生活,以至於很少有時間去享受生活本身」,結論落腳於「讓技術真正成為服務於人類的工具,而不是控制人類的枷鎖」。

OPPO: 小布撰寫了一篇名為【時間的悖論:主人與仆人的雙重身份】的文章,全文共784字,全文起承轉合的結構十分明晰,結論落腳於「在這個快速發展的時代,我們需要重新審視自己與時間的關系。我們不能僅僅滿足於技術的便利,更要學會如何成為時間的主人」。

受篇幅影響,我們將在此後的文章中為大家帶來 後續 評測。