當前位置: 華文世界 > 科技

OpenCompass公布大模型投票周榜,訊飛星火蟬聯三次三甲

2024-08-02科技

從去年的 「百模大戰」到今年的「優勝劣汰」, AI 大模型賽道呈現賽馬機制,不少國產大模型以 GPT-4o 為標桿快速叠代,在核心能力上持續趕超。近期,由國內權威大模型評估平台 OpenCompass (司南)公布的 CompassArena 周榜上,科大訊飛星火大模型連續三周位列前三,兩次摘得第二桂冠。由於榜單采用專業使用者投票方式,結合了使用者對各款大模型的真實體驗,更具客觀性和說服力,含金量十足。

OpenCompass (司南)是由上海人工智能實驗室釋出的開源大模型評測體系,目前已成為業界權威的大模型評估平台,涵蓋學科、語言、知識、理解、推理等評測維度,可全面評估大模型的綜合能力。在最新三期專業使用者投票的周榜評選中,訊飛星火以 Elo-1078 Elo-1081 位居前三,榜單前四強還出現阿裏通義千問和百度文心一言的身影,它們共同組成了國產大模型的第一梯隊,不斷向榜單第一名的 GPT-4o 發起挑戰。

根據 CompassArena 榜單排名規則,平台會利用 Bradley-Terry 模型,基於歷史匿名對戰數據評估大模型競技場 Elo 的等級分數,並使用該分數對大模型進行排名。最終數據可以公正、開放、透明的反映當前各家大模型產品的綜合實力。

作為明確提出對標 OpenAI 的國內大模型公司,科大訊飛在今年 6 27 日釋出的星火 V4.0 版本上,已完成了對 GPT-4 Turbo 的整體超越。根據八個國際主流測試集的橫向評測,訊飛星火 V4.0 排名第一,在文本生成、語言理解、知識問答、邏輯推理、數學能力等方面完成了整體超越。這些測試集既有 HumanEval WinoGrande GPQA 等英文評測,也有 C-Eval CMMLU 等中文評測,充分展現了訊飛星火的全方位實力。

此前,訊飛星火還在國際權威的【麻省理工科技評論】橫評中脫穎而出,憑借領先的語言能力、數學、理綜等多項核心能力,超越了同期的其它國產大模型選手,並以 1013 分的總分斬獲國產主流大模型榜首席位。該機構還認為,訊飛星火在工作提效方面具有明顯優勢,是一款優秀的提效類工具。

目前,訊飛星火憑借領先技術優勢和出色的體驗,持續領跑國內大模型第一梯隊。根據訊飛星火 V4.0 釋出會上公布的數據,其安卓端 APP 的累計下載量已經高達 1.31 億次,位列國內工具類通用大模型 APP 第一。更有大量圍繞日常工作、生活與學習的實用助手 源源不斷 地湧現,持續幫助使用者解放生產力,釋放想象力。

歷經一年多叠代,訊飛星火快速成長為國內領先的大模型,對標 GPT-4o 的下一代版本也在研發中。隨著核心能力的持續升級,訊飛星火不僅將穩居國產大模型第一梯隊,更有機會成為國產大模型的代表去對戰 GPT-4o