分不清9.11和9.9大小，暴露大模型邏輯推理能力短板|快評

2024-07-18科技

▲某款大模型關於「9.11和9.9兩個數碼哪個更大」的回答。圖/某款大模型截圖

一道小學數學題，成功難倒了超過一半的大模型。近日，據第一財經報道，經測試，在「9.11和9.9兩個數碼哪個更大」這個基礎的數學題上，國內外12個大模型之中只有4個答對了，剩下8個全都回答錯誤。在答錯者中，還包括了知名的ChatGPT-4o。

數學相關的邏輯推理能力一直是當下大模型的短板。但一道小學生級別的數學題，卻成了各家標榜成為「生產力升級」的大模型面前的絆腳石，這在公眾輿論之中引發了不小爭議。究其原因，是近期公眾對於「大模型無所不能」的傳統認知與大模型當下仍處在測試探索期的現實之間產生了沖突。

實際上種種跡象顯示，大模型當前在純數學問題上的真實能力應該就處在小學水平的區間。2023年底，OpenAI（美國人工智能研究公司）內部曾被曝光有一個程式碼為Q的「絕密大專案」，該專案正是致力於解決大模型在數學運算能力上的問題。

這一專案被曝光後在行業內引發了激烈爭論。馬斯克曾公開表示，「該專案對人類造成了威脅」。但經媒體報道，這樣一個「威脅人類」的專案，其真實的純數學邏輯運算能力只是小學生水平。

今年高考期間，有媒體同樣用高考數學題「考驗」了大模型，參與測試的7個大模型在高考數學上全部「不及格」，最高分也只有75分。

綜合上述大模型真實的數學能力來看，這並不能理解為大模型有了高考數學75分的水平。更為準確的理解是，大模型是一個「不怎麽懂數學運算、但懂得大量搜尋文字資料分析」的主體，而75分是其可以透過資料搜集比對分析所能取得的最好成績。

從這個角度看，外界認為大模型是「文科生」似乎也不算是一種偏見。當前使用者可以感知到的大模型，是基於海量文本的相關性進行訓練分析，從而達到文本生成的人類平均水平。

但是，除了文本的分析和生成之外，人類對資訊的搜集分析處理中最重要的是推理能力，包括了邏輯推理、認知推理等。

數學運算是典型的邏輯推理能力。即根據前提條件給出符合邏輯或潛在邏輯關系的結論，而數學運算是用精確的語言和符號進行純邏輯的推演，因此，如此理解的話，更能直觀地感受到大模型的邏輯推理能力。

邏輯推理被認為是當前大模型最難攻克的一道關卡。而除了邏輯推理之外，對有限的碎片資訊進行不斷重組、搜尋以找到資訊全貌等，類似於傳統偵探推理小說所呈現的「碎片資訊拼湊分析」，也在大模型當前的能力範圍之外。

邏輯推理對於大模型的未來發展為什麽重要？從套用場景上看，推理能力意味著可靠性和適配性的問題。

目前，大模型所展現的套用場景主要局限在資料分析、內容生成等領域，而在涉及數碼分析、邏輯推演等行業領域，大模型的想象空間依然有限。很難想象，一個難以判斷小數點後數碼大小的大模型，能夠在工業生產制造、金融計算等領域有廣泛套用前景。

因此，國內外的大模型企業已經開始有意識地探索「如何訓練大模型在特定條件下的推理能力」。此前所提及的OpenAI的內部專案，這幾天也傳出了新訊息，該專案旨在提高大模型的「自主瀏覽和深度研究」能力，目前已經確認更名為「草莓」，並在行業內引發了進一步的討論。

從消費者的角度看，如果希望大模型能夠在數理分析、邏輯推理等領域成為有效助手，或許還有賴於大模型在推理訓練上的下一階段突破。但或許更值得思考的問題是：當大模型掌握了推理能力，那麽，距離進一步攻破人類的思維活動或許就真的不遠了。一些人對此有所擔憂，人類真的做好準備了嗎？

撰稿 / 王曉凱（媒體人）

編輯 / 馬小龍

校對 / 楊利