Meta开源Llama 3.1 405B，强调开源才是AI的未来

2024-07-26科技

Meta周二（7/23）开源了Llama 3.1 405B，它具备4,050亿个参数，脉络长度达12.8万个Token，支持8种语言，这是Meta迄今所开发的最大模型，也号称是全球第一个达顶尖水准的开源模型，也是全球最大也最有能力的公开基础模型。Meta创办人暨首席执行官扎克伯格（Mark Zuckerberg）还特别撰文强调开源AI的重要性，认为开源才是AI的未来。

有别于在Llama 3时，Meta仅发布了Llama 3 8B、Llama 3 8B Instruct、Llama 3 70B与Llama 3 70B Instruct，进展到Llama 3.1时，Meta发布了Llama 3.1 8B、Llama 3.1 8B Instruct、Llama 3.1 70B与Llama 3.1 70B Instruct，以及拥有4,050亿个参数的两个大模型Llama 3.1 405B与Llama 3.1 405B Instruct。此外，相较于Llama 3最初只支持8,000个Token的脉络长度，Llama 3.1一下就支持12.8万个Token。目前开发者已可通过llama.meta.com及Hugging Face下载Llama 3.1的各种模型。

身为Meta迄今开发的最大模型，Llama 3.1 405B是在超过15兆个Token上进行训练，为了要在合理的时间内获得结果，Meta优化了整个训练堆栈，使用了超过1.6万个p00 GPU。

既然标榜为具备顶尖实力的开源模型，Meta用来比较Llama 3.1 405B的对象就是现在市场上最顶级的GPT-4、GPT-4o与Claude 3.5 Sonnet等封闭模型，以及Nvidia于日前开源的Nemotron-4 340B，而且使用超过150个涵盖不同语言的基准数据集进行测试。

图片来源／Meta

结果显示Llama 3.1 405B在通用的IFEval、数学上的GSM8K、推论的ARC Challenge、工具使用的Nexus、长脉络的ZeroSCROLLS/QuALITY及InfiniteBench/En.MC及多语言的Multilingual MGSM基准测试上，超越上述所有模型。

Meta也比较了Llama 3.1 8B、Gemma 2 9B IT与Mistral 7B Instruct，以及Llama 3.1 70B、Mixtral 8x22B Instruct与GPT 3.5 Tubo，发现不管是Llama 3.1 8B及Llama 3.1 70B，在许多基准测试上都超越竞争模型。

图片来源／Meta

而在人类专家的评估中，Llama 3.1 405B与GPT-4-0125、Claude 3.5 Sonnet的表现不相上下，但明显不及GPT-4o。

图片来源／Meta

扎克伯格：开源才是AI的未来

扎克伯格认为，AI应该以Unix及Linux的发展作为借鉴。Unix操作系统的封闭政策让基于Unix的开源Linux兴起，尽管Unix如今仍在某些专业领域或高性能环境中保持重要地位，但开源的Linux却开枝散叶，带来多样的发行版本，现在不仅已成为全球服务器的主操作系统，也与时俱进地支持云计算与虚拟化技术，并成为嵌入式系统及物联网设备的首选平台。

扎克伯格相信AI也会以类似的方式发展。指出虽然目前有几家企业开发了领先的封闭模型，但开源模型正在迅速缩小差距。去年的Llama 2仅能与尖端模型的旧版相提并论，今年的Llama 3便能与最新的尖端模型竞争，自明年开始，未来的Llama将成为企业最先进的模型，而在实现该目标之前，Llama已经在开放性、变更能力及成本效益上领先群伦。

相较于封闭性模型，Llama 3.1家族除了具备更好的成本与性能之外，Llama 3.1 405B模型的开放性，也让它成为微调及蒸馏出小模型的最好选择。

Meta的终极目标是让Llama如同Linux一样成为业界标准，因此已与多家企业合作以发展更完善的生态体系，包括Amazon、Databricks、Nvidia与Groq。Databricks已支持开发人员微调及蒸馏自己的模型，Groq则替所有新模型提供低延迟与低成本的推论服务，而各种云计算服务已准备要协助企业采用Llama并使用自家数据训练自定义模型。

开源模型的好处之一是让企业得以根据需求、利用自家敏感数据来构建模型，而不受封闭模型供应商的箝制，其次则是在自家基础设施上以Llama 3.1 405B进行推论，成本只有使用GPT-4o等封闭模型的50%。

扎克伯格强调，出售AI模型的访问权并非Meta的商业模式，因此，将Llama开源不会削弱Meta的营收、可持续性或投资研究的能力，他也相信开源将让AI模型变得更安全，在应对中国威胁时，相较于封闭所带来的限制，最好的策略是创建一个强大的开放生态体系，并让领先企业与政府及盟友密切合作，以确保可利用最新的进步，实现长期且可持续的先发优势。