當前位置: 華文世界 > 科技

七款AI大模型「高考成績」公布:前三名文科過一本,理科過二本

2024-07-18科技

IT之家 7 月 18 日訊息,上海人工智慧實驗室 17 日公布了針對 7 個 AI 大模型的高考全科目測試結果,據大模型開源開放評測體系「司南」相關負責人介紹,「當前大模型仍存在很大的局限性。組織 AI 大模型‘參加高考’,目的是評測當前大模型的真實水平,找準問題,持續推進技術進步。」

測試結果顯示,書生浦語 2.0 系列文曲星大模型(浦語文曲星)、阿裏通義千問大模型 Qwen2-72B 以及 GPT-4o 再次包攬文、理科前三甲;前三名 AI「考生」的文、理科成績分別超過了「一本」「二本」線(以今年高考人數最多的河南省的分數線為參考)。

從官方提供的圖片來看,此次參與「高考」的大模型還包括來自零一萬物的 Yi-1.5-34B、來自通義千問的 Qwen2-57B、來自智譜的 GLM-4-9B 和法國 AI 初創公司 Mistral 旗下的 Mixtral 8×22B。

據介紹,此次評測具備如下特征:

  • 全卷考試:進行全卷評分,而不只針對單一題型,且包括帶圖的高考題

  • 考前開源:評測覆蓋的開源模型均為今年高考前開源的模型,排除泄題的可能性

  • 老師打分:邀請有高考閱卷經驗的老師打分,確保評分和高考盡量一致

  • 完全公開:生成答案的程式碼、模型答卷、評分結果完全開源

  • 在增加綜合科目的基礎上,Qwen2-72B、GPT-4o、浦語文曲星包攬文、理科前三甲。阿裏通義千問大模型 Qwen2-72B 以 546 分的成績榮獲 AI 高考「文科狀元」,浦語文曲星則以 468.5 分成為理科第一名,分別超過了「非開源國際插班生」GPT-4o(文科 531 分,理科 467 分)。同為國外機構釋出的 Mixtral 8x22B 平均得分最少,弱於國內大模型的高考表現。

    閱卷老師們一致認為,大模型與真人考生仍存在差距,雖然對於基礎知識的掌握表現出色,但在邏輯推理和知識靈活套用方面,大模型仍然差強人意。具體而言,在作答主觀題時,大模型往往無法完整理解題幹,不明白代詞指向,結果導致答非所問;解答數學題時,解題過程機械且邏輯性差,對於幾何題,常出現與空間邏輯相違背的推斷;對物理、化學實驗理解膚淺,無法準確辨識並運用實驗器材。

    此外,大模型也會偽造虛構內容,編造看似合理但實際不存在的詩句,或在存在明顯計算錯誤的情況下之後不反思,「硬著頭皮蒙」一個答案,均給閱卷老師帶來了困擾。

    據IT之家此前報道,根據上海人工智慧實驗室上個月公布的 AI 高考全卷結果,Qwen2-72B、GPT-4o 及書生浦語 2.0 文曲星(InternLM2-20B-WQX)成為本次大模型高考的前三甲,得分率均超過 70%。大部份模型「考生」語文、英語科目表現良好,但數學方面仍有很大提升空間。