社区推荐｜GPT-4与国产模型大横评 - 科技

2024-02-10科技

敬请注意，本文仅供参考，并不代表硅星GenAI之观点。自2022年10月底ChatGPT横空出世以来，经过近一年的发展，多家企业纷纷表示其研发的大规模语言模型已达到世界领先水平，甚至有些企业声称已逾越了GPT。然而，据最近发布的上海人工智能实验室测评报告显示，GPT-4仍稳居榜首，而我国自主研发的大规模语言模型与之之间的差距正在逐渐减小。本文将客观地对我国三家知名大模型公司——智谱GLM-4、文心一言4.0以及字节跳动公司的豆包——进行性能评估。

首先，我们需要明确测评的衡量标准。在传统的主观评价方式（太客观的话，直接看评分即可）下，我们采用10分制作为评分标准。我们非常重视用户的使用体验，因此，对于每个问题的答案，我们会根据其满足程度给予1至10分的评分。

接下来，我们将开始第一部分的测试，包括联网查询、数据分析、多模态文生图、长文档理解以及智能体等重要能力的测试。我们以这些性能作为评价的依据，并与GPT-4进行对比。

对于联网查询的功能，各品牌大模型是否能运用自如且准确无误呢？下面，我们选取了两个音乐领域的问题进行测试。

问题1：请问杭州周杰伦演唱会门票目前的售价情况？

问题2：旋转保龄【老婆不在家】歌曲中，「她」更喜欢的歌手是Beyond和刘德华吗？

在这次测试中，所有参与测试的大模型都能够顺利调用联网搜索功能获得准确的信息，豆包的呈现形式更为优雅。豆包在判断上出现了一些偏差但总体性能不错，其他品牌均合格获得了10分的满分。

此外，数据分析是本次测试的一大亮点。我们希望借助大模型的力量，帮助我们进行海量数据的统计分析。

现在，请允许我们测试数据分析这项新的功能。请执行以下命令：统计requester为Othe。

豆包模型在此一环节获得了10分的满分。尽管豆包出现了一些错误，但其他三款产品得分同样相当出色，并且在所有步骤中表现优异，这无疑表明中国自主研发的大模型正在迎头赶上国际巨头的步伐。