當前位置: 華文世界 > 科技

大模型套用新戰場:揭秘終端側AI競爭關鍵|智在終端

2024-09-03科技
魚羊 發自 凹非寺 量子位 | 公眾號 QbitAI
2024年過去2/3,大模型領域的一個共識開始愈加清晰:
AI技術的真正價值在於其普惠性。沒有套用,基礎模型將無法發揮其價值 。
於是乎,回顧這大半年,從互聯網大廠到手機廠商,各路人馬都在探索AI時代Killer APP的道路上狂奔。這股風潮,也開始在頂級學術會議中顯露蹤跡。
其中被行業、學術界都投以關註的一個核心問題就是:
在大模型「力大磚飛」的背景之下,AIGC套用要如何在手機等算力有限的終端裝置上更絲滑地落地呢?
△Midjourney生成
這段時間以來,ICML(國際機器學習大會)、CVPR(IEEE國際電腦視覺與模式辨識會議)等頂會上的最新技術分享和入選論文,正在揭開更多細節。
是時候總結一下了。
AI套用背後,大家都在聚焦哪些研究?
先來看看,AI套用從雲端邁向終端,現在進展到何種程度了。
目前,在大模型/AIGC套用方面,眾多安卓手機廠商都與高通保持著深度合作。
在CVPR 2024等頂會上,高通的技術Demo,吸引了不少眼球。
比如,在安卓手機上,實作多模態大模型(LLaVA)的本地部署:
△Qualcomm Research釋出於YouTube
這是一個70億參數級別的多模態大模型,支持多種型別的數據輸入,包括文本和影像。也支持圍繞影像的多輪對話。
就像這樣,丟給它一張小狗的照片,它不僅能描述照片資訊,還能接著和你聊狗狗適不適合家養之類的話題。
△量子位在巴塞隆納MWC高通展台拍攝的官方演示Demo
高通還展示了在安卓手機上執行LoRA的例項。
△Qualcomm Research釋出於YouTube
以及音訊驅動的3D數位人版AI助手——同樣能在斷網的情況下本地執行。
Demo原型既出,加之手機廠商們的魔改最佳化,對於普通使用者而言,意味著其中展現的新玩法新可能,在咱們自個兒的終端裝置上已經指日可待。
但在頂會上,更加受到關註的是,demo之外,高通的一系列最新論文們,還詳細地揭開了套用背後需要重點布局的關鍵技術。
量化
其中之一,就是量化。
在手機等終端裝置上部署大模型/AIGC套用,要解決的一大重點是如何實作高效能的推理 。
而量化是提高計算效能和記憶體效率最有效的方法之一。並且高通認為,使用低位數整型精度對高能效推理至關重要。
高通的多項研究工作發現,對於生成式AI來說,由於基於Transformer的大語言模型受到記憶體的限制,在量化到8位元(INT8)或4位元(INT4)權重後往往能夠獲得大幅提升的效率優勢。
其中,4位元權重量化不僅對大語言模型可行,在訓練後量化(PTQ)中同樣可能,並能實作最優表現。這一效率提升已經超過了浮點模型。
具體來說,高通的研究表明,借助量化感知訓練(QAT)等量化研究,許多生成式AI模型可以量化至INT4模型。
在不影響準確性和效能表現的情況下,INT4模型能節省更多功耗,與INT8相比實作90%的效能提升和60%的能效提升。
今年,高通還提出了一種名為LR-QAT(低秩量化感知訓練)的演算法,能使大語言模型在計算和記憶體使用上更高效。
LR-QAT受LoRA啟發,采用了低秩重參數化的方法,引入了低秩輔助權重,並將其放置在整數體中,在不損失精度的前提下實作了高效推理。
在Llama 2/3以及Mistral系列模型上的實驗結果顯示,在記憶體使用遠低於全模型QAT的情況下,LR-QAT達到了相同的效能。
另外,高通還重點布局了向量量化(VQ)技術,與傳統量化方法不同,VQ考慮了參數的聯合分布,能夠實作更高效的壓縮和更少的資訊遺失。
編譯
在AI模型被部署到硬體架構的過程中,編譯器是保障其以最高效能和最低功耗高效執行的關鍵。
編譯包括計算圖的切分、對映、排序和排程等步驟。
高通在傳統編譯器技術、多面體AI編輯器和編輯器組合最佳化AI方面都積累了不少技術成果。
比如,高通AI引擎Direct框架基於高通Hexagon NPU的硬體架構和記憶體層級進行運算排序,在提高效能的同時,可以最大程度減少記憶體溢位。
硬體加速
終端側的AI加速,離不開硬體的支持。
在硬體方面,高通AI引擎采用異構計算架構,包括Hexagon NPU、高通Adreno GPU、高通Kryo CPU或高通Oryon CPU。
其中,Hexagon NPU在今天已經成為高通AI引擎中的關鍵處理器。
以第三代驍龍8行動平台為例,Hexagon NPU在效能表現上,比前代產品快98%,同時功耗降低了40%。
架構方面,Hexagon NPU升級了全新的微架構。與前代產品相比,更快的向量加速器時鐘速度、更強的推理技術和對更多更快的Transformer網路的支持等等,全面提升了Hexagon NPU對生成式AI的響應能力,使得手機上的大模型「秒答」使用者提問成為可能。
Hexagon NPU之外,第三代驍龍8在高通傳感器中樞上也下了更多功夫:增加下一代微型NPU,AI效能提高3.5倍,記憶體增加30%。
事實上,作為大模型/AIGC套用向終端側遷移的潮流中最受關註的技術代表之一,以上重點之外,高通的AI研究布局早已延伸到更廣泛的領域之中。
以CVPR 2024入選論文為例,在生成式AI方面,高通提出了提高擴散模型效率的方法Clockwork Diffusion ,在提高Stable Diffusion v1.5感知得分的同時,能使算力消耗最高降低32%,使得SD模型更適用於低功耗端側裝置。
並且不止於手機,針對XR和自動駕駛領域的實際需求,高通還研究了高效多檢視視訊壓縮方法(LLSS)等。
在當前的熱點研究領域,比如AI視訊生成方面,高通也有新動作:
正在開發面向終端側AI的高效視訊架構。例如,對視訊到視訊的生成式AI技術FAIRY進行最佳化。在FAIRY第一階段,從錨定幀提取狀態。在第二階段,跨剩余幀編輯視訊。最佳化範例包括:跨幀最佳化、高效instructPix2Pix和影像/文本引導調節。
底層技術驅動AI創新
大模型套用是當下的大勢所趨。而當套用發展的程度愈加深入,一個關鍵問題也愈加明朗:
套用創新的演進速度,取決於技術基座是否紮實牢固。
這裏的技術基座,指的不僅是基礎模型本身,也包括從模型量化壓縮到部署的全棧AI最佳化。
可以這樣理解,如果說基礎模型決定了大模型套用效果的上限,那麽一系列AI最佳化技術,就決定了終端側大模型套用體驗的下限。
作為普通消費者,值得期待的是,像高通這樣的技術廠商,不僅正在理論研究方面快馬加鞭,其為套用、神經網路模型、演算法、軟體和硬體的全棧AI研究和最佳化,也已加速在實踐中部署。
以高通AI軟體棧為例。這是一套容納了大量AI技術的工具包,全面支持各種主流AI框架、不同作業系統和各類程式語言,能提升各種AI軟體在智慧終端上的相容性。
其中還包含高通AI Studio,相當於將高通所有AI工具整合到了一起,包括AI模型增效工具包、模型分析器和神經網路架構搜尋(NAS)等。
更為關鍵的是,基於高通AI軟體棧,只需一次開發,開發者就能跨不同裝置隨時隨地部署相應的AI模型。
就是說,高通AI軟體棧像是一個「轉換器」,能夠解決大模型在種類繁多的智慧終端中落地所面臨的一大難題——跨裝置遷移。
這樣一來,大模型套用不僅能從雲端走向手機端,還能被更快速地塞進汽車、XR、PC和物聯網裝置中。
站在現在的時間節點,人人都在期待改變世界的技術潮流翻騰出更洶湧的巨浪。
而站立潮頭的弄潮兒們正在再次驗證技術史中一次次被探明的事實:引領技術之先的人和組織,無不具備重視基礎技術的「發明家文化」。
不止是追趕最新的技術趨勢,更要提前布局,搶先攻克基本方案。
高通在【讓AI觸手可及】白皮書中同樣提到了這一點:
高通深耕AI研發超過15年,始終致力於讓感知、推理和行為等核心能力在終端上無處不在。
這些AI研究和在此之上產出的論文,影響的不僅是高通的技術布局,也正在影響整個行業的AI發展。
大模型時代,「發明家文化」仍在延續。
也正是這樣的文化,持續促進著新技術的普及化,促進著市場的競爭和繁榮,帶動起更多的行業創新和發展。
你覺得呢?
— 完 —