當前位置: 華文世界 > 科技

實測國產AI大模型能力PK,包括豆包、kimi、文心、天工、星火等

2024-07-14科技

一個月前實測了豆包等5款國產AI大模型做了一道中考題,結果有喜有憂吧。過去了兩個月了,再來實測一道常見的中考題,求極值。

測試環境:華為Mate60 pro,作業系統為HarmonyOS4.2.0.130。各大模型均更新為最新版,測試時間為2024.07.12-21:00.

一、先上豆包的。版本4.6.0

中規中矩,中學老師都是這麽教的吧?常見的換元法。豆包比上次好像聰明了 。[比心]

二、看下kimi怎麽樣,版本1.4.0

kimi表現也不錯,用到了AM-GM不等式,也就是均值不等式,記著這個不等式,後面幾個AI大模型有幾個也用到了AM-GM不等式。[奸笑]

三、有請文心一言。版本3.6.0.11

文心一言比上次智慧多了,字數也最多,智力水平提升不少,特別是後面的文字註釋,好像、應該、似乎是自己推理出來的,不是檢索出來的 。[比心]

四、來看下天工。版本1.7.8

上次測試沒用測天工,聽粉絲建議,這次測試了天工。表現中規中矩,也用到了AM-GM不等式。從推理的過程看,好像都是智慧推理的結果,不是檢索的現成答案。

五、看下訊飛星火。版本4.0.4

簡單粗暴,字數最少,可答案是錯的。它是這次測試的幾個AI大模型唯一得出錯誤答案的。

其實它用的公式沒錯,只是在移項和不等式兩側平方時出錯了。正確的應該是:

嗯,再接再厲。

六、看下小藝是怎麽解答的。小藝包含在鴻蒙系統中,沒有單獨查到它的版本號。

小藝是幾款AI大模型中唯一采用導數來解答的,好像是超出了中學數學大綱。但測試中並沒限定解答方法,結果也正確。

總體看來,幾款國產大模型表現中規中矩,表現出了一定的智力水平。甚至可以用來輔導中學學生。是學生家長的福音嗎?是教培行業的末日嗎?聯想近日網上熱鬧的武漢無人出租車事件,AI真的已快速融入我們的生活。不是你想不想的問題,而是你如何面對它的問題。

人類,準備好了嗎? [捂臉]