当前位置: 华文世界 > 科技

Meta开源Llama 3.1 405B,强调开源才是AI的未来

2024-07-26科技

Meta周二(7/23)开源了Llama 3.1 405B,它具备4,050亿个参数,脉络长度达12.8万个Token,支持8种语言,这是Meta迄今所开发的最大模型,也号称是全球第一个达顶尖水准的开源模型,也是全球最大也最有能力的公开基础模型。Meta创办人暨首席执行官扎克伯格(Mark Zuckerberg)还特别撰文强调开源AI的重要性,认为开源才是AI的未来。

有别于在Llama 3时,Meta仅发布了Llama 3 8B、Llama 3 8B Instruct、Llama 3 70B与Llama 3 70B Instruct,进展到Llama 3.1时,Meta发布了Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B与Llama 3.1 70B Instruct,以及拥有4,050亿个参数的两个大模型Llama 3.1 405B与Llama 3.1 405B Instruct。此外,相较于Llama 3最初只支持8,000个Token的脉络长度,Llama 3.1一下就支持12.8万个Token。目前开发者已可通过llama.meta.com及Hugging Face下载Llama 3.1的各种模型。

身为Meta迄今开发的最大模型,Llama 3.1 405B是在超过15兆个Token上进行训练,为了要在合理的时间内获得结果,Meta优化了整个训练堆栈,使用了超过1.6万个p00 GPU。

既然标榜为具备顶尖实力的开源模型,Meta用来比较Llama 3.1 405B的对象就是现在市场上最顶级的GPT-4、GPT-4o与Claude 3.5 Sonnet等封闭模型,以及Nvidia于日前开源的Nemotron-4 340B,而且使用超过150个涵盖不同语言的基准数据集进行测试。

图片来源/Meta

结果显示Llama 3.1 405B在通用的IFEval、数学上的GSM8K、推论的ARC Challenge、工具使用的Nexus、长脉络的ZeroSCROLLS/QuALITY及InfiniteBench/En.MC及多语言的Multilingual MGSM基准测试上,超越上述所有模型。

Meta也比较了Llama 3.1 8B、Gemma 2 9B IT与Mistral 7B Instruct,以及Llama 3.1 70B、Mixtral 8x22B Instruct与GPT 3.5 Tubo,发现不管是Llama 3.1 8B及Llama 3.1 70B,在许多基准测试上都超越竞争模型。

图片来源/Meta

而在人类专家的评估中,Llama 3.1 405B与GPT-4-0125、Claude 3.5 Sonnet的表现不相上下,但明显不及GPT-4o。

图片来源/Meta

扎克伯格:开源才是AI的未来

扎克伯格认为,AI应该以Unix及Linux的发展作为借鉴。Unix操作系统的封闭政策让基于Unix的开源Linux兴起,尽管Unix如今仍在某些专业领域或高性能环境中保持重要地位,但开源的Linux却开枝散叶,带来多样的发行版本,现在不仅已成为全球服务器的主操作系统,也与时俱进地支持云计算与虚拟化技术,并成为嵌入式系统及物联网设备的首选平台。

扎克伯格相信AI也会以类似的方式发展。指出虽然目前有几家企业开发了领先的封闭模型,但开源模型正在迅速缩小差距。去年的Llama 2仅能与尖端模型的旧版相提并论,今年的Llama 3便能与最新的尖端模型竞争,自明年开始,未来的Llama将成为企业最先进的模型,而在实现该目标之前,Llama已经在开放性、变更能力及成本效益上领先群伦。

相较于封闭性模型,Llama 3.1家族除了具备更好的成本与性能之外,Llama 3.1 405B模型的开放性,也让它成为微调及蒸馏出小模型的最好选择。

Meta的终极目标是让Llama如同Linux一样成为业界标准,因此已与多家企业合作以发展更完善的生态体系,包括Amazon、Databricks、Nvidia与Groq。Databricks已支持开发人员微调及蒸馏自己的模型,Groq则替所有新模型提供低延迟与低成本的推论服务,而各种云计算服务已准备要协助企业采用Llama并使用自家数据训练自定义模型。

开源模型的好处之一是让企业得以根据需求、利用自家敏感数据来构建模型,而不受封闭模型供应商的箝制,其次则是在自家基础设施上以Llama 3.1 405B进行推论,成本只有使用GPT-4o等封闭模型的50%。

扎克伯格强调,出售AI模型的访问权并非Meta的商业模式,因此,将Llama开源不会削弱Meta的营收、可持续性或投资研究的能力,他也相信开源将让AI模型变得更安全,在应对中国威胁时,相较于封闭所带来的限制,最好的策略是创建一个强大的开放生态体系,并让领先企业与政府及盟友密切合作,以确保可利用最新的进步,实现长期且可持续的先发优势。