當前位置: 華文世界 > 科技

分不清9.11和9.9大小,暴露大模型邏輯推理能力短板|快評

2024-07-18科技

▲某款大模型關於「9.11和9.9兩個數碼哪個更大」的回答。圖/某款大模型截圖

一道小學數學題,成功難倒了超過一半的大模型。近日,據第一財經報道,經測試,在「9.11和9.9兩個數碼哪個更大」這個基礎的數學題上,國內外12個大模型之中只有4個答對了,剩下8個全都回答錯誤。在答錯者中,還包括了知名的ChatGPT-4o。

數學相關的邏輯推理能力一直是當下大模型的短板。但一道小學生級別的數學題,卻成了各家標榜成為「生產力升級」的大模型面前的絆腳石,這在公眾輿論之中引發了不小爭議。究其原因,是近期公眾對於「大模型無所不能」的傳統認知與大模型當下仍處在測試探索期的現實之間產生了沖突。

實際上種種跡象顯示,大模型當前在純數學問題上的真實能力應該就處在小學水平的區間。2023年底,OpenAI(美國人工智能研究公司)內部曾被曝光有一個程式碼為Q的「絕密大專案」,該專案正是致力於解決大模型在數學運算能力上的問題。

這一專案被曝光後在行業內引發了激烈爭論。馬斯克曾公開表示,「該專案對人類造成了威脅」。但經媒體報道,這樣一個「威脅人類」的專案,其真實的純數學邏輯運算能力只是小學生水平。

今年高考期間,有媒體同樣用高考數學題「考驗」了大模型,參與測試的7個大模型在高考數學上全部「不及格」,最高分也只有75分。

綜合上述大模型真實的數學能力來看,這並不能理解為大模型有了高考數學75分的水平。更為準確的理解是,大模型是一個「不怎麽懂數學運算、但懂得大量搜尋文字資料分析」的主體,而75分是其可以透過資料搜集比對分析所能取得的最好成績。

從這個角度看,外界認為大模型是「文科生」似乎也不算是一種偏見。當前使用者可以感知到的大模型,是基於海量文本的相關性進行訓練分析,從而達到文本生成的人類平均水平。

但是,除了文本的分析和生成之外,人類對資訊的搜集分析處理中最重要的是推理能力,包括了邏輯推理、認知推理等。

數學運算是典型的邏輯推理能力。即根據前提條件給出符合邏輯或潛在邏輯關系的結論,而數學運算是用精確的語言和符號進行純邏輯的推演,因此,如此理解的話,更能直觀地感受到大模型的邏輯推理能力。

邏輯推理被認為是當前大模型最難攻克的一道關卡。而除了邏輯推理之外,對有限的碎片資訊進行不斷重組、搜尋以找到資訊全貌等,類似於傳統偵探推理小說所呈現的「碎片資訊拼湊分析」,也在大模型當前的能力範圍之外。

邏輯推理對於大模型的未來發展為什麽重要?從套用場景上看,推理能力意味著可靠性和適配性的問題。

目前,大模型所展現的套用場景主要局限在資料分析、內容生成等領域,而在涉及數碼分析、邏輯推演等行業領域,大模型的想象空間依然有限。很難想象,一個難以判斷小數點後數碼大小的大模型,能夠在工業生產制造、金融計算等領域有廣泛套用前景。

因此,國內外的大模型企業已經開始有意識地探索「如何訓練大模型在特定條件下的推理能力」。此前所提及的OpenAI的內部專案,這幾天也傳出了新訊息,該專案旨在提高大模型的「自主瀏覽和深度研究」能力,目前已經確認更名為「草莓」,並在行業內引發了進一步的討論。

從消費者的角度看,如果希望大模型能夠在數理分析、邏輯推理等領域成為有效助手,或許還有賴於大模型在推理訓練上的下一階段突破。但或許更值得思考的問題是:當大模型掌握了推理能力,那麽,距離進一步攻破人類的思維活動或許就真的不遠了。一些人對此有所擔憂,人類真的做好準備了嗎?

撰稿 / 王曉凱(媒體人)

編輯 / 馬小龍

校對 / 楊利