当前位置: 华文世界 > 科技

Llama3.1根本卖不动!业内人士:开源模型成本反而更高

2024-08-28科技

Meta的Llama 3免费模型在市场上降温,这进一步加剧了主模型的问题,开源与闭源的争论引起了很多人的关注。

据外媒 The Information 报道,开源模型 Meta Llama 3 很难吸引全球最大云厂商亚马逊 AWS 的关注。 AWS 企业客户喜欢使用 Claude Anthropic 的出色模型。

据微软内部人士透露,Llama并不是微软营销的首选。他们更喜欢将 Llama 外包给拥有数据专业知识的公司,例如拥有内部工程师和数据科学家的公司。

Meta现在面临着挑战,这可能会促使Meta建立一个AI产品的销售团队来满足业务需求。这一系列问题也凸显了大型开源模型商业化过程中的困难。从市场选择的角度来看,开源模式的实际效果和商业回报可能达不到企业客户的期望。

面对「开源还是闭源」的问题,国内主要模型厂商基于各自的技术方向和策略,建立了完全不同的立场。那么,企业应该如何选择主力模式,又如何在两者之间找到最佳平衡点呢?

在此背景下,百度智能云AI与大模型平台总经理周鑫接受了媒体采访,并在公开论坛上详细探讨了基本逻辑、业务策略和未来市场预测。弹簧和闭式弹簧。

周鑫认为,主模型开源和软件开源有很大区别——开源模型不开放训练源代码等影响模型效果的基础信息、预训练和微调数据,因此它们不会是开源软件。 ,依靠社区开发者的参与来提高生产力和效率,而底层模型的训练则掌握在开发者手中。

在谈到「开源模式和封闭模式哪个更贵?」时,周鑫表示,开源模式是免费的,价格低廉,但实施起来却很大。没有单一的技术;一个完整的「技术+服务」解决方案,企业必须算好「总账」。当业务实际落地时,开源模式想要达到与封闭模式相同的效果,需要大量的人员、金钱和时间投入,成本总体会更高。

开源和闭源模型各有什么优势?周鑫认为,开源模式更适合学术研究,但不适合对外提供服务的大型商业项目。在一些投资数百万甚至数千万的严肃项目中,闭源模式仍然是主角。

「开源模型并不容易」

以下是经过编辑的采访全文:

1。在庞大的模型市场中,各个模型厂商的角色是什么?商业模式是什么?

周鑫:在这个模式大聚会中,每个厂商的定位和商业模式都不同,可以分为三类:

第一类角色,对于云厂商来说,商业模式其实,我们仍然出售计算资源。它通过盈利水平降低成本并提高资源弹性。这就是云厂商的可持续发展模式。不管是开源模式还是封闭模式,如果由云厂商托管,云厂商都能赚钱。

第二种角色类型既是云供应商又是模型供应商。他们希望通过模型的使用,把业务带到云端。目前,单纯依靠模型API调用的好处还很低。他们目前希望占据不错的市场份额,并继续在主力车型表中寻找新的扩张机会。

第三种责任,对于商业模型厂商来说,各大云厂商宣布降低模型价格后,其吸引力大打折扣。大模型领域很快就会变成各大云厂商之间的争夺战。大型模式初创公司会专注于特定行业,专注于toB项目,或者转型为toC产品。

2。为什么说「开源模式不易,技术永远会落后」?

周鑫:首先我们来说说技术落后的问题。

首先,主模型的开源并不能提升模型的效果。

相比于开源软件,如Android手机操作系统、MySQL数据库软件,这些开源软件的源代码是开放的,开发者可以参与各个社团的代码开发。这不仅降低了软件开发成本,还加快了软件开发速度,提高了软件安全性。这就是开源软件的价值。

开源模式比较复杂。可能包括开源的模型训练源代码、参数权重、训练数据等。然而,目前模型开发者通常只看重开源代码、训练源代码、训练数据等。不是开源的。这使得开发人员无法改进它并为开源模型的成功做出贡献。

例如,对于 Llama 来说,模型性能的任何改进都是 Meta 本身训练的结果,而不是开发人员输入的结果。 Llama2和Llama3在网络配置方面差别不大。它优化了什么?一方面,训练过程的阶段是结构化的,比如分几个阶段进行训练;另一方面,还有很多数据需要补充。 Llama2 和 Llama3 数据存在数量级差异。更多的数据和训练时间可以带来更好的模型结果。

但这些好的成绩都是Meta完成的,没有办法动用开发者的全部力量,更没有办法像开源软件那样有社区反馈流程。

其次,开源模式永远会落后,因为没有好的商业模式来保证模式可以复制。

模型训练和数据注释非常昂贵。如果没有像Meta这样强大的资源来支撑开源模式的长期发展,如果是一个开源模式的初创公司,就无法打造出一个封闭的公司。与此同时,开发人员无法为你的模型的成功做出贡献,因此初创公司必须在他们做出贡献时继续抵制。从结果来看,最好的模型是Open AI,当前评估列表中排名靠前的模型都是封闭模型。

我们来谈谈为什么开源模型不容易。主要模式应用是「技术+服务」的完整解决方案。实施大规模模型的公司需要「计算总账」。总账是如何计算的?

第一级包括计算设备成本。因为闭源的商业模型会配备相应的工具链,包括训练工具链和推理工具链,这些工具链的执行力比开源的要好。对于客户来说,培训可以节省10~20%的设备成本。 ,想想就省得越多,而且生意越大,省得越多。

第二个层次是看模型的商业效益。对于具有相同参数的模型,闭源的输出更好。有些客户对 90% 或 95% 的准确度不太敏感。但也有一些业务,比如商业广告,CPM和CTR只是其中的一个点。对于一个广告平台来说,一天之内可能会出现数千万的差异。如今,需要更高模型输出的公司愿意去购买效果更好的闭源模型。

第三个层次包括机会成本和劳动力成本。如果您使用闭源业务模型来更快地集成,您可以比竞争对手更快地推出新产品。在封闭的商业模式中,制造商已将模式和设备调整到最佳状态,客户可以模仿认真的体验。但如果使用开源,就得自己去适配,计算和工程成本会更高。

所以我们说业务应用模型需要「计算总账」,计算出来的总账会完全不一样。

3。为什么开源在硬件成本上比闭源贵?周鑫:大多数企业客户会购买两台或更多设备,因为他们要考虑供应链的安全性和灵活性。如果开源模型需要适配每一个设备,成本会非常高。高的。

这代表了封闭式商业模式的优势,因为它可以通过批发来分担软件和硬件适配的成本。另外,多核兼容是一个非常技术性的问题。百度异构计算平台针对异构计算做了很多改进,可以适配多种设备。白鸽本身可以保护硬件层的各种差异。有很多加速库、推理库、训练库。白鸽还提供了主要文心模型的最新改进。

对客户来说的好处是无论使用什么设备都可以快速运行,时间和人工成本非常高。

4。开源和闭源模型可能的场景有哪些?

周鑫:总体思路是:如果你想在各个业务领域进行尝试和验证,可以先以封闭模式运行,可以开箱即用,快速验证;在一些耗资数百万、上千万的项目、元级别的严肃商业项目、以及对规模和精度要求较高的公司中,封闭式商业模式仍然是公司的最佳选择。在某些没有高影响和性能要求,但需要特定且非常敏感的安装的业务情况下,请考虑使用开源模型。

开源对于促进学术和研究具有价值,例如提高推理工程的效率、预训练数据和微调对结果的影响等。如果能够开放更多的资源,比如训练代码的同时也开放训练数据、教学微调数据等,这会给学术研究和技术发展带来更多的价值。虽然模型的价值是开放的,但它为研究人员提供了一个很好的基础模型。

5。一些厂商希望开源和闭源能够并举。即开源模式吸引用户拓展环境,闭源模式负责销售。这个逻辑行得通吗?

心舟:如果你还没有尝试过,那看来是有可能的。但现实是:

在公有云中,各个厂商公布的调用量中,封闭模型的调用量要高于开源模型,这说明开源模型确实如此。公有云环境对用户扩展吸引力不大。结果。另外,对于公有云的微调,可以应用开源或者开源的模型,所以客户会直接选择公有云的最佳模型。

对于独立安装来说,这个逻辑有一定的道理。许多公司开始使用开源模型进行测试。后来他们看到这个产品不错,就想买。他们会选择开源模型来匹配制造商的闭源模型,因为只有这种源模型更适合推文。在这种情况下,这个逻辑是正确的。 。不过,这个值正在逐渐下降。随着每个制造商的模型的能力迅速增强,操纵成本不断降低,慢慢地消除了该模型的遗留问题。

也有厂商发布开源模型来推广该设备。例如,NVIDIA发布了一个开源模型。业务逻辑很简单,需要购买卡才能使用该模型。

6。百度为什么不发布开源模型?

周鑫:从各厂商的分布量可以看出,部署量最大的封闭商业模式是公有云,而开源模式则对公众影响不大。云。

在私募市场,随着客户对主要模式的不断了解,开源和闭源已经不再是主要的了。在与许多大型企业客户互动后,我发现有很多因素决定企业领导者是否应该使用模型。优先顺序通常是:生产力、性能、安全性和价格。该模型是开源还是闭源并不重要。

7。您说企业在选择模式时最看重的是影响力、效率、安全性和成本。百度云推出的「千帆大模一体机」是在尝试一种软硬件融合的新商业模式吗?

周鑫:目前公司大型模型的使用还处于研究阶段,需要低成本、无盒的产品来快速验证情况和效果。在主模型中。 「千帆大型号一体机」非常适合现在的工艺,因为国内有很多私人安装的需求。一机开放,适配多种设备,包括市场上所有常见产品。芯片和模型。百度智能云的所有主要型号千帆机都提供两个能力:

第一,提供软硬件同步的集成平台。该平台拥有文信大模型以及面向行业使用和场景应用的大型开放模型样板间。 。流行的开源模型也得到了修改和改进。用户可以直接在整机上运行,无需调整模型。同时,千帆主力模型一体机可提供从基础管控、AI系统、模型训练、预测推理、场景实现等大模型软硬件解决方案,为客户提供完整的软硬件服务。

其次,大千帆机一体机型号由于端到端的优化以及能够压下所有的显示设备,所以价格非常昂贵。客户可以更快地以更便宜的价格使用它。

总体价格来说,千帆一体机的价格远低于购买服务器、主机型号和独立平台,并且可以开箱即用。

8。如今,很多人觉得用大的基本款还不够。我们还需要构建产业模型,实现主要模型真正的产业应用。如今,一家公司训练工业模型要花多少钱?

忻州:物价很高。首先,这个价格根据要训练的模型参数的大小逐渐增加。其次,取决于数据库的大小。最后,还有上传数据的费用。

如果你想从头开始训练一个70b的模型,你可能需要3000万云弹性资源。如果你想训练更多数量的模型,成本可能是数亿。这应该由有经验的人进行培训。如果没有经验,过程中出现偏差,价格会更高。

9。成本如此之高,企业如何判断是否需要打造产业模式?

周鑫:任何情况下我们都不建议客户从头开始构建行业核心模型。无论有什么好处,成本都一定很高。我们将帮助客户首先考虑他们的需求。

例如,制作一个坐标系。横坐标是工作的敏感度,纵坐标是行业数据的需求。所谓岗位敏感性,是指该行业与工业、商业的相关性是否强。比如在医学领域,这些都是非常专业的问题。纵轴是工业数据的需求。行业越封闭,公共网络中的数据越少,就越需要高级的培训。例如,在医学领域,没有意义的病历信息需要在模型上进行预训练。

通过分析,在这个坐标轴上,左下角没有行业特征或者行业数据,所以可以直接使用通用模型,但是右上角对于这个行业的业务性质比较敏感,需要很多产业。 。数据,现在你需要做一个工业模型。

我们通常建议企业采取三个步骤。

第一步是检查值。预构建建模软件和硬件基础设施并构建大型工业模型。结合相当成熟的生成式AI应用,很快就能看到结果。比如,通过千帆主模型平台的轻量化版本,增加了智能客服、企业知识管理、数字人等严肃的应用。

第二步,深度连接企业的各种应用。大模型基础设施完善升级为千帆大模型终极版。除了与主模型相关的培训和设备外,还有一个用于构建应用程序的平台。百度及其全球合作伙伴深度参与公司内部广泛模型的培训和运营,构建技术环境,培训相关人才,与企业共同解决复杂的业务问题,为业务增加更多价值。

第三步是彻底翻新和独立检查。公司掌握了大规模建模和应用开发相关技术,也拥有相应的人才,可以进一步提高自主可控开发水平,启动全面创新。百度将作为长期的技术支持和顾问,帮助公司开发并持续为公司带来新技术和解决方案。

10。您如何判断明年主力车型市场?

周鑫:我对未来一年的发展趋势有三个判断:

第一,多式联运将成为市场新热点。

其次,基于主模式的应用将会出现大爆发,主攻方向是Agent。如果只有一个主模型执行「输入和输出」中指定的动作,则会限制其价值。它应该更像人类,能够使用工具、一起工作、计划和思考、分析和重复。它需要与各种组件和插件相结合,以满足特定业务领域的需求,因此Agent将成为未来各模型制造商生产的关键。

第三,业务应用的机会将会更多,比如知识库、客户服务、数字人、附加编码等情况。比如,采用大代码编写模式,百度有一款名为「文心快码」的产品,在百度得到了广泛的应用。采用率可达46%,新代码生成比例达到30%,可以帮助企业提高开发效率。与此同时,许多从事人工智能应用开发的公司将会涌现。这些公司可以降低成本并将应用程序复制到较低的级别。只要表现高,就能脱颖而出。