當前位置: 華文世界 > 科技

我們用GLM-4-Plus搞了個「閱讀智慧體」,工作效率提升了300%

2024-10-13科技

每隔一段時間,大模型行業都會傳出新的訊息。

先是在9月中旬,OpenAI在沒有預告的情況下釋出了o1模型的預覽版;不到半個月後,國內的智譜釋出了若幹更新模型,其中就包括新的基座大模型GLM-4-Plus,也是智譜當前最強大的模型。

國外圍繞o1模型的討論和場景探索還在繼續,也讓我們對GLM-4-Plus萌生了興趣:智譜的最強模型到底有多強,能夠解決哪些「懸而未決」的問題,又將帶來什麽樣的影響?

01 全球前三的GLM-4-Plus,到底強在哪裏

早在9月底的時候,國內人工智慧權威機構清華大學基礎模型研究中心就對國內外最具代表性的大模型進行了新一輪的綜合性測評,評測數據集包含語意、對齊、程式碼、智慧體、安全、數理邏輯、指令遵循等等。

按照清華大學基礎模型研究中心釋出的SuperBench九月綜合榜單,GLM-4-Plus的綜合能力排名前三,打破了過去被國外大模型壟斷前三甲的局面,並在多個關鍵能力上保持了國際領先水平。

鑒於GLM-4-Plus在上線前已經內測了一段時間,期間有不少技術博主曾進行評測,我們關註到了三個層面的能力提升。

一是語言理解能力 ,透過大規模語料庫訓練和最佳化演算法,GLM-4-Plus在處理復雜語意上的表現較其他模型更加出色。

借用測評博主toyama nao的結論:在難度較高的水果熱量計算上(需要合理搭配水果,使總熱量剛好在一個區間),大部份模型並沒有真的懂題目,但GLM-4-Plus完全理解了題意,並采用逐步湊數的方法給出了正確答案,而且回答非常有「人味」,也是第一個在此題拿到滿分的模型。

二是長文本能力 ,GLM-4-Plus支持128K上下文,憑借創新的記憶機制和分段處理技術,可以高效地處理大量文本資訊。

我們之前曾讓支持1M上下文的GLM-4-Long扮演了「書童」的角色,兩分鐘就能「熟讀」50多萬字的【國史大綱】。GLM-4-Plus在上下文長度上沒有過於「激進」,而是基於精準的長短文本數據混合策略,取得了更強的長文本的推理效果,能夠滿足論文閱讀、文章總結等更高頻的套用需求。

三是時序問答和多輪對話能力 ,從單一的影像辨識前進演化到對視訊、影像的理解,並能針對單個視訊進行多輪對話問答。

在智譜的Demo中,輸入長達40秒的視訊後,GLM-4-Plus可以準確理解並感知時間,精準定位到事件發生的時刻,然後在視訊理解的基礎上結合上下文進行對話,比如視訊中的某個物體是在第幾秒出現的、一共出現了幾次,在智慧安防、智慧檢測等場景中有著不可小覷的套用空間。

當然,以上只是我們比較感興趣的幾個能力,GLM-4-Plus的提升還體現在數學問題與程式碼計算、數據分析任務、機器轉譯等方面,作為智譜全模型家族堅實的能力底座,堪稱「六邊形戰士」般的存在。

02 比效能指標有感知的,是解決問題的能力

智譜提供了GLM-4-Plus的API介面,即使不懂技術原理、不會訓練和微調,也可以呼叫API來解決工作中的實際問題,甚至動手開發出一個「智慧體」,相比效能指標上的提升,有著更直接的價值感知。

因為日常工作需要處理大量的文字資料,限於大模型的語言理解和長文本能力,一些需求尚未被滿足。於是我們在智譜的開放平台bigmodel上呼叫了GLM-4-Plus,並進行了針對性的場景測試:

第一個是財務報告的閱讀和資訊整理。

每次到了財報季,不少企業會公布一份長達幾十頁乃至上百頁的報告,從頭到尾閱讀報告的內容,至少需要兩個小時的時間,而且會習慣性忽略掉一些關鍵資訊,所以我們將資訊的整理工作交給了GLM-4-Plus。

我們上傳了PDF檔,並輸入「總結報告中的核心資訊」的指令後,GLM-4-Plus迅速給出了我們想要的資訊:

其中有兩個讓我們眼前一亮的細節處理:原報告中單位是「千美元」,GLM-4-Plus在輸出的總結內容中,自動將單位換算成了「百萬美元」;「晶圓代工」的收入和增長並未體現在圖表中,僅在「管理層討論與分析」的篇末提及,依舊被GLM-4-Plus精準「捕捉」。

第二個是圍繞一些細節資訊的對話問答。

文件閱讀幾乎是所有大模型主打的場景,僅僅是資訊總結似乎不能證明GLM-4-Plus的能力有多強。所以我們進一步提升了難度,用一些「隱藏」在表格中的資訊詢問GLM-4-Plus,驗證能否在數萬字的報告中準確回答。

比如「目前有多少研發人員,30歲以下年輕人占比」的問題:

這個問題的迷惑性在於,表格中分別列舉了2023年中和2024年中的研發人員數量,如果大模型不能準確理解上下文語意,很可能會給出2023年的數據。GLM-4-Plus的表現無疑可圈可點,不僅準確抓住了2024年的數據,給出了表格中沒有的計算過程,而且將和問題對應的數位進行了加黑處理。

第三個是提煉核心資訊並生成視訊指令碼。

除了歸納總結和資訊檢索,另一個剛需場景在於內容生成。我們嘗試讓GLM-4-Plus在報告的基礎上提煉核心資訊並生成視訊指令碼,在這個產品高度同質化的賽道上,GLM-4-Plus能否給出不一樣的體驗感呢?

結果再次超出了我們的預期。

原以為GLM-4-Plus會像很多大模型一樣只是對資訊進行簡單的總結,最終給到的是一份90分的高分答卷,涵蓋旁白、畫面切換以及對插入圖表、數據動畫、「背景音樂選擇輕快但不喧賓奪主的風格」等貼心建議,也讓我們進一步理解了測評博主toyama nao為何會給GLM-4-Plus「有人味」的評價。

做一個總結的話, 在GLM-4-Plus的幫助下,我們的工作效率至少提升了300% ,考慮到智譜已經在智譜清言上線了視訊創作智慧體清影,30秒即可將任意文字生成視訊,讓我們對GLM-4-Plus的能力有了更多的期待:也許在不久後,只需上傳一份財報,就能自動生成視訊快訊。

03 人機互動的新範式,正被千萬開發者定義

盡管我們的需求主要集中在內容創作上,但在體驗了GLM-4-Plus的能力後,腦海中產生了這樣一個認知:GLM-4-Plus提升的不單單是工作效率,人機互動的習慣正在朝不可逆的方向演變。

就像財報分析的過程,有別於過去逐段閱讀、邊看邊記筆記的方式,GLM-4-Plus的多輪對話能力,讓我們可以對著目錄針對性提問,對整個工作流程和效率幾乎是重塑的,一旦養成了習慣就不願再重復過去的方式。

在整理素材的過程中,我們看到了GLM-4-Plus更多的套用場景:

有人將整理的大廠面試題庫「餵」給了GLM-4-Plus,然後讓模型生成針對性的面試題目。聯想到智譜清言APP上線的「視訊通話」功能,讓AI扮演面試官的角色,進行一對一針對性訓練並非沒有可能。

也有人在挖掘GLM-4-Plus的數學問題與程式碼計算能力,在大模型的幫助下一步步厘清破題思路、給出準確的程式碼計算邏輯,進而幫助學生更好地分析和解答數學題,讓GLM-4-Plus充當一對一家教。

更大範圍的使用者習慣,還需要和千萬開發者一起培養。

比如智譜清言APP的「視訊通話」功能,當AI有了「眼睛」後,幫我們解鎖了作業輔導、產品介紹、遊戲助手等一系列新體驗。目前智譜已經開始內測GLM-4-Plus-VideoCall,將「視訊通話」的魔法賦予越來越多的開發者。

以智慧硬體為例,VR眼鏡、智慧音箱、家教學習機等產品都可以整合GLM-4-Plus-VideoCall,實作視訊通話、語音多輪互動等跨模態能力,讓電影【Her】中的場景從科幻走進現實。

同樣的例子還有風頭正勁的具身智慧,在工業機器人等場景中,一旦擁有了視訊分析與即時互動能力,將不再局限於程式設定的機械操作,極大提升工業機器人的自主操作能力,進一步解放生產力。

也就是說,GLM-4-Plus不只是「智慧體」開發者的機會,還為硬體開發者提供了軟硬協同的合作空間。

把視角再放大一些的話,蘋果已經在iPhone 16系列上搭載了一顆獨立的「相機鍵」,並在官方演示中將其定義為視覺AI的互動入口,在很大程度上預示了硬體創新的方向。

由此可以得出的結論是: 智譜等大模型廠商已經向硬體開發者張開了懷抱,而蘋果為首的硬體廠商正在積極迎接AI時代,一場「雙向奔赴」將是可以預見的結局。

04 寫在最後

令人興奮的,遠不止大模型的能力進階和落地場景。

智譜在更新模型的同時,還同步釋放了一波紅利:10月份將贈送每位使用者1億tokens額度,並根據消耗梯度提供最高1折的API折扣。

原因並不難解釋,GLM-4-Plus在能力提升的同時,成本也在大幅下降。大模型落地到千行萬業的最後一道障礙,正在無形中「瓦解」。等待我們的,註定是一個被大模型覆寫的星光熠熠的時代。