當前位置: 華文世界 > 科技

AI大模型可以寫詩,但不擅長數學

2024-07-24科技

原標題:A.I. Can Write Poetry, but It Struggles With Math

作者:Steve Lohr 來源:紐約時報 編譯:阿宅 圖源:Unsplash

人工智能聊天機器人就像學生一樣,努力勤奮,孜孜以求,口齒伶俐。但奇怪的是,它們卻經常在數學上遇到困難。

類似於ChatGPT這樣的聊天機器人可以寫詩、總結書籍摘要、回答問題,它們通常具有像人類一樣的流暢性。雖然這些系統可以根據所學知識進行數學運算,但結果可能會有所不同,甚至可能是錯的。這些聊天機器人經過微調,可以用於確定概率,而非進行基於規則的運算。可能性不等於準確性,而且語言比數學更靈活,標準更寬松。

美國西北大學電腦科學教授兼人工智能研究員基斯頓·哈蒙德(Kristian Hammond)說:「人工智能聊天機器人在數學方面吃力,是因為它們從來不是為數學而設計的。」

看起來,世界上最聰明的電腦科學家創造的人工智能更像是文科專業的學生,而不是數碼巫師。

乍一看,這與電腦的歷史發展截然不同。自20世紀40年代早期電腦誕生以來,電腦一直在不知疲倦、快速、準確地計算。長期以來,電腦真正擅長的是處理棘手的數碼,其表現遠遠優於人類。電腦遵循規則,並在結構化的數據庫中檢索資訊。它們既強大又脆弱,因此,過去在人工智能方面的努力遇到了障礙。

然而,十多年前,這一障礙得以突破。作為底層技術的神經網絡,可以松散地模擬了人腦中真實神經網絡的復雜連結。這類人工智能不是按照嚴格的規則編程的,而是透過分析大量數據來學習。這類人工智能像人類一樣,根據所吸收的所有資訊生成語言,預測接下來最有可能出現的單詞或短語。

「這項技術實作了很多了不起的事情,但並不意味著它是無所不能的。」哈蒙德博士說。

有時,人工智能聊天機器人會遇到簡單的算術和數學單詞問題,需要多個步驟才能找到解決方案,一些技術評論家最近註意到了這一點。雖然人工智能的熟練程度正在提高,但仍然有缺陷。

在最近召開的一次研討會上,可汗學院的首席學習官克里斯汀·迪瑟博(Kristen DiCerbo)介紹了數學準確性這一主題。「正如你們許多人所了解的,這確實是一個問題。」迪瑟博說。

幾個月前,可汗學院對其人工智能助手Khanmigo進行了大的調整,將許多數值問題發送到小算盤程式,而不是要求人工智能解決數學問題。學生在等待小算盤程式完成時,會在螢幕上看到「做數學」的字樣,也會看到Khanmigo的圖示在搖頭。迪瑟博說:「我們實際上是在使用專門的數學工具。」

這一年多來,ChatGPT在解決一些數學問題時用了類似的解決方法。對於大數除法和乘法等任務,ChatGPT會向小算盤程式尋求幫助。

OpenAI在一份聲明中表示,數學是一個「需要持續研究的重要領域」。OpenAI表示,在包含數千個需要視覺感知和數學推理的問題的公共數據庫上,其新版GPT達到了近64%的準確率,高於比上一版本的58%。

當人工智能聊天機器人消化了大量相關的訓練數據,包括教科書、練習和標準化測試時,它們的往往表現出色。其結果是,聊天機器人之前已經看到並分析了非常相似的問題。OpenAI表示,ChatGPT技術的最新版本在高中生的SAT數學考試中得分為第89百分位。

人工智能聊天機器人在數學方面的不穩定表現為人工智能界關於該領域最佳前進方向的激烈辯論增添了亮點。大體上形成了兩個陣營。

一方面,有人認為,為人工智能聊天機器人提供動力的高級神經網絡,即大語言模型,是通向穩步發展並最終實作通用人工智能(AGI)的唯一途徑。這是矽谷地區的主流觀點。

但也人質疑,向大模型添加更多數據和計算能力是否足夠。其中的代表人物是Meta首席人工智能科學家Yann LeCun。

LeCun博士說,大模型缺乏對邏輯的掌握,也缺乏常識推理。他堅稱,我們需要的是一種更廣泛的方法,他稱之為「世界模型」(world modeling),即能夠像人類一樣學習世界如何運作的系統。這可能需要十年左右的時間才能實作。

與此同時,Meta正在基於其大模型LLaMA,將人工智能驅動的智能助理軟件整合到其社交媒體服務中,包括Facebook、Instagram和WhatsApp。目前的模型可能有缺陷,但仍然做了很多工作。

大衛·費魯奇(David Ferrucci)領導的團隊打造了IBM著名的超級電腦「沃森」,這款電腦在2011年擊敗了【危險邊緣】(Jeopardy)節目歷史上最成功的兩位選手。與大多數電腦科學家一樣,費魯奇認為最新的人工智能技術無疑令人印象深刻,但主要在於語言技能方面,而非在於準確性。他成立的初創公司Elemental Cognition開發軟件,以改善金融、旅遊和藥物研發等領域的商業決策。Elemental Cognition將大語言模型作為一個組成部份,但也使用更多基於規則的軟件。

費魯奇博士說,這種結構化軟件是目前執行世界上大部份基礎系統(如銀行、供應鏈和空中交通管制)的計算基礎設施。他說:「許多重要的事情需要非常高的精確度。」

紐約高中數學老師柯克·舒妮達(Kirk Schneider)表示,他認為人工智能聊天機器人對教育產生影響是不可避免的。他說,雖然學校管理人員可以禁用,但學生們仍會使用。

但舒妮達先生有些不安。他說:「通常來說,這些人工智能聊天機器人表現較好,但數學方面還是不夠好,數學必須準確。」

然而,這些偶爾的失誤實際上是一個教學機會。舒妮達經常將他的班級分成小組,聊天機器人的答案是學生討論的焦點。將你的答案與機器人的進行對比,誰的對?你們是如何得出答案的?

「這教會學生帶著批判性的眼光看待事物,並提高批判性思維。」他說,「這類似於問另一個人,這個人可能是正確的,也可能是錯誤的。」

對於他的學生來說,這似乎是人生一課。在學生以後甚至已經不記得勾股定理後,這堂課仍值得一直銘記:不要相信人工智能程式告訴你的一切。不要過於相信它。