实测国产AI大模型能力PK，包括豆包、kimi、文心、天工、星火等

2024-07-14科技

一个月前实测了豆包等5款国产AI大模型做了一道中考题，结果有喜有忧吧。过去了两个月了，再来实测一道常见的中考题，求极值。

测试环境：华为Mate60 pro，操作系统为HarmonyOS4.2.0.130。各大模型均更新为最新版，测试时间为2024.07.12-21:00.

一、先上豆包的。版本4.6.0

中规中矩，中学老师都是这么教的吧？常见的换元法。豆包比上次好像聪明了。[比心]

二、看下kimi怎么样，版本1.4.0

kimi表现也不错，用到了AM-GM不等式，也就是均值不等式，记着这个不等式，后面几个AI大模型有几个也用到了AM-GM不等式。[奸笑]

三、有请文心一言。版本3.6.0.11

文心一言比上次智能多了，字数也最多，智力水平提升不少，特别是后面的文字注释，好像、应该、似乎是自己推理出来的，不是检索出来的。[比心]

四、来看下天工。版本1.7.8

上次测试没用测天工，听粉丝建议，这次测试了天工。表现中规中矩，也用到了AM-GM不等式。从推理的过程看，好像都是智能推理的结果，不是检索的现成答案。

五、看下讯飞星火。版本4.0.4

简单粗暴，字数最少，可答案是错的。它是这次测试的几个AI大模型唯一得出错误答案的。

其实它用的公式没错，只是在移项和不等式两侧平方时出错了。正确的应该是：

嗯，再接再厉。

六、看下小艺是怎么解答的。小艺包含在鸿蒙系统中，没有单独查到它的版本号。

小艺是几款AI大模型中唯一采用导数来解答的，好像是超出了中学数学大纲。但测试中并没限定解答方法，结果也正确。

总体看来，几款国产大模型表现中规中矩，表现出了一定的智力水平。甚至可以用来辅导中学学生。是学生家长的福音吗？是教培行业的末日吗？联想近日网上热闹的武汉无人出租车事件，AI真的已快速融入我们的生活。不是你想不想的问题，而是你如何面对它的问题。