当前位置: 华文世界 > 科技

实测国产AI大模型能力PK,包括豆包、kimi、文心、天工、星火等

2024-07-14科技

一个月前实测了豆包等5款国产AI大模型做了一道中考题,结果有喜有忧吧。过去了两个月了,再来实测一道常见的中考题,求极值。

测试环境:华为Mate60 pro,操作系统为HarmonyOS4.2.0.130。各大模型均更新为最新版,测试时间为2024.07.12-21:00.

一、先上豆包的。版本4.6.0

中规中矩,中学老师都是这么教的吧?常见的换元法。豆包比上次好像聪明了 。[比心]

二、看下kimi怎么样,版本1.4.0

kimi表现也不错,用到了AM-GM不等式,也就是均值不等式,记着这个不等式,后面几个AI大模型有几个也用到了AM-GM不等式。[奸笑]

三、有请文心一言。版本3.6.0.11

文心一言比上次智能多了,字数也最多,智力水平提升不少,特别是后面的文字注释,好像、应该、似乎是自己推理出来的,不是检索出来的 。[比心]

四、来看下天工。版本1.7.8

上次测试没用测天工,听粉丝建议,这次测试了天工。表现中规中矩,也用到了AM-GM不等式。从推理的过程看,好像都是智能推理的结果,不是检索的现成答案。

五、看下讯飞星火。版本4.0.4

简单粗暴,字数最少,可答案是错的。它是这次测试的几个AI大模型唯一得出错误答案的。

其实它用的公式没错,只是在移项和不等式两侧平方时出错了。正确的应该是:

嗯,再接再厉。

六、看下小艺是怎么解答的。小艺包含在鸿蒙系统中,没有单独查到它的版本号。

小艺是几款AI大模型中唯一采用导数来解答的,好像是超出了中学数学大纲。但测试中并没限定解答方法,结果也正确。

总体看来,几款国产大模型表现中规中矩,表现出了一定的智力水平。甚至可以用来辅导中学学生。是学生家长的福音吗?是教培行业的末日吗?联想近日网上热闹的武汉无人出租车事件,AI真的已快速融入我们的生活。不是你想不想的问题,而是你如何面对它的问题。

人类,准备好了吗? [捂脸]