9.11和9.9哪個大？簡單數學題8家AI大模型平台都翻了車

2024-07-17科技

紅星資本局7月17日訊息，今日，AI大模型在數學上的翻車話題引發不小關註。

一道「9.11和9.9哪個大」的簡單數學題，竟困住了海內外一眾AI大模型平台。

數學偏科

8個大模型全答錯

9.11和9.9哪個更大？據第一財經報道，就這一問題，12個大模型中阿裏通義千問、百度文心一言、Minimax和騰訊元寶答對，但ChatGPT-4o、字節豆包、月之暗面kimi、智譜清言、零一萬物萬知、階躍星辰躍問、百川智慧百小應、商湯商量都答錯了，錯法各有不同。

目前全球公認第一梯隊的大模型ChatGPT，在被問到「9.11和9.9哪個大」時回復稱，小數點後面的數位「11大於9」，因此9.11大。追問ChatGPT有沒有其他比較方法後，它將小數轉化成分數比較，得出「11/100比90/100小」，這一步是對的，但它接著下結論稱「因此9.11比9.9大」。

再看國內的大模型，例如詢問月之暗面旗下kimi，它在比較小數部份時認為，9.11的第一位小數是1，而9.9的第一位小數是0，錯誤地給出了小數，得出結論9.11更大。當質疑並提出常識後，kimi轉而開始表示自己回答有誤，並給出了正確的比較方法。

詢問字節豆包，它不僅給出了答案，還舉了生活中的例子方便理解，單看似有理有據實則胡說八道。豆包舉例認為，假設有兩筆錢，「9.11元比9.9元多0.21元」，並且測量長度時「9.11公尺要比9.9公尺長」。

商湯商量大模型首先給出了錯誤答案，當追問具體是如何比較的後，它在推演過程中成功得出小數0.11小於0.9，但話鋒一轉稱「所以9.11大於9.9」。當指出了這個前後邏輯問題，商量隨後承認「解釋有誤」。

值得註意的是，就在上月，AI大模型也因為數學翻車話題火上了熱搜。

6月19日，上海人工智慧實驗室釋出第一個AI高考全卷評測結果，阿裏通義千問大模型Qwen2-72B排名第一，在語數外三科420分的滿分中獲得303分，OpenAI的GPT-4o和上海人工智慧實驗室的書生·浦語2.0文曲星（InternLM2-20B-WQX）排名二三位。但引發關註的是，從結果來看，大模型的語文、英語考試水平普遍不錯，但數學都不及格。

業內人士：

一段時間內不會得到明顯改善

此前，哈爾濱工業大學和華為的研究團隊發表的綜述論文認為，模型產生幻覺的三大來源：資料來源、訓練過程和推理。大模型可能會過度依賴訓練數據中的一些模式，如位置接近性、共現統計數據和相關文件計數，從而導致幻覺。此外，大模型還可能會出現長尾知識回憶不足、難以應對復雜推理的情況。

針對大模型答數學題普遍「吃癟」的問題，國內某頭部大模型負責人就曾表示，大模型的指令遵循或者說推理能力通常是把一個指令背後的意思拆解出來，但數學題既包含規則性，又包含對各種思維的考察，解題邏輯和正常用大模型時的推理邏輯不一定完全一樣。

同時該負責人還提到，從更廣泛的大模型套用角度來看，AI能不能精準遵循指令是近一段時間內比較重要的事情，真正的商業價值也比較大可能來自於此，而解數學題對目前的AI來說還是一件比較「炫技」的事情。

另有業內人士向南方都市報表示，目前來看大模型的數理能力相對較差的情況在中外都是一樣的，「打個比方可以這樣講，大模型就是偏科，文科強理科弱，這個情況在一段時間內也不會得到明顯的改善」。