人工智能训练数据枯竭，合成数据引发巨大争议与讨论

2024-08-26科技

AI培训资料日益匮乏，人工生成的资料引起热议

近年来，随着人工智能技术的飞速发展，大量的训练数据已经逐渐被人们所重视，其中，如何快速、低成本地产生大量的数据，是一种极具诱惑力的方法。但是，另一些与会者表示，综合的数据可以通过获取低质量的资料，从而使 AI模式"自我中毒"，从而造成"模型崩溃"。

目前，人工智能产业有一个很大的问题，那就是要用来培养更加智能化的模式所需要的实际数据越来越少。研究显示，人工资料"毒害"了人工智能，而这些资料又是低劣的。

人工智能的发展已经到了丧失其最有价值的资源的地步，这使得业界领袖们对迅速发展起来的替代方案——人造或者"伪造"数据进行了一场热烈的争论。

近年来，包括 OpenAI在内的谷歌（163.95,-1.44,-0.87%）在内的众多企业已经开始通过网络采集海量的海量信息，为它们的人工智能技术提供支持。这些 LLMs负责的文本，视频以及其他的媒介，在过去的几个世纪里，人们创作了大量的文字，视频，以及其他的媒介，不管是研究论文，小说，或者是 Youtube视频片段。

但如今，人工生成的"真实"资料并不多。研究公司 Epoch AI预计，到2028，文字资料将会被消耗殆尽。同时，一些企业为了获得更多的信息，会不惜一切代价地从网络上搜寻有用的培训资料，而这些企业也会因此而受到更多的约束。

对一些人而言，这并不是一个问题。山姆-奥特曼是 OpenAI的 CEO，他曾经指出， AI模式最后应当可以产生高品质的人造资料，以便高效地进行自我培训。这种想法很明显：在人工智能蓬勃发展的今天，培训资料已经是最宝贵的资料，而且这种可以不受限制地产生成本低廉的资料，肯定是非常诱人的。

不过，研究者们对于人工合成的资料究竟是不是万能药仍然持怀疑态度。有人表示，这样的做法有可能造成通过获取低质量的资料而使人工智能模式"自我中毒"，从而使模式"崩溃"。

来自英国牛津与剑桥两所大学的一支科研团队日前发布了一份报告，认为把由人工智能产生的资料导入到一个模式中，最后可能会让这些资料变得毫无价值。笔者认为，由人工智能产生的资料，也不是绝对不可供学习之用，而是应该与实际资料加以均衡利用。

高德纳（Gartner）预计，到2024年，人工智能发展所需的资料将会有60%是人工生成的。

「这是个危机，」纽约大学的一位退休的心理与神经系统科学教授，人工智能分析师加里-马库斯说道。过去，人们幻想着通过不断增加的数据量，可以极大地改善大规模的编程模式的效能，但是目前，他们实际上已将现有的数据全部耗尽。

他还说：「不错，人工数据确实能帮我们处理某些问题，但是更深层的问题在于，我们现在所做的一切都没有计划好。」任何你可以想到的人造资料，都不能解答这一基本的问题。

不断增加的公司产生人工数据

对于"假"的资料的需要依赖于这样一个重要的理念：即真正的资料正在快速短缺。

原因之一是，技术公司都在尽可能快的使用公共信息来培训自己的 AI，从而超过他们的竞争者。而网络用户则对那些可以自由访问他们的信息的公司产生了更多的疑虑。

2020年， OpenAI的研究者披露，他们正在利用来自 Common Crawl公司的自由资料，后者拥有"近万亿字"的网上资料。

七月份，来自「资料来源行动」的一份报告指出，一些主要的网络站点也开始采取一些限制来阻止一些 AI公司对非他们个人信息的利用。报纸和其它流行的站点也逐渐停止了对人工智能公司的免费访问。

为此，像 OpenAI和谷歌这样的公司花了几千万美金从 Reddit以及其他的新闻媒介中获得最新的数据来给我们的模式进行培训。不过，就算是这样，也有它的限制。

"艾伦 AI研究所的研究员内森-兰伯特在五月曾写到："在文字网路中，已没有大量可供捕捉的地方了。

在这里，综合的资料就派上用场了。合成的数据不是从现实生活中提取出来的，它是通过一个基于实际的数据进行训练的，通过一个基于实际的数据集进行训练的智能系统产生的。

6月，英伟达公布了一种人工智能模式，该模式可以产生人造的数据，供培训和校正使用；7月，中国高技术公司腾讯公司发布了一种综合资料产生器，叫做 Persona Hub，它也拥有相似的特性。

像 Gretel和 SynthLabs这样的新兴企业，就是为了产生海量的特殊信息，然后把它们卖给有需求的公司。

合成资料的鼓吹者提出了他们的应用正当性。就像真实的社会，人工产生的资料通常是混乱无序的，研究者们需要经历一系列繁琐的整理和标注才能运用。

合成的资料能够弥补人力资料所不能弥补的不足。比如，7月末， Meta发布了 Llama3.1，一个能够产生综合数据并在培训期间进行"微调"的新型人工智能模式。合成的数据可以帮助你改进你的建模能力，特别是对于一些技巧，比如使用Python, Java, Rust，和一些数学难题。

综合培训对于小规模的人工智能模型尤其适用。微软（Microsoft）在过去一年中（406.81,0.79,0.19%）表示，他们为 OpenAI开发了一系列3到4岁孩子都能识别的词汇，并让它们用来写一些简短的文章。所产生的资料集合是用来建立一组小型但功能很强的语言模式。

另外，人工数据对实际数据造成的偏离也作出了"反校准"。2021年，谷歌研究员蒂姆尼特-格布鲁、玛格丽特-米切尔等人发布了一篇名为【论随机鹦鹉的危险】的文章。

四月份，一个来自谷歌深层挖掘的研究团队发布了一份文章，提倡利用人工数据来处理在训练过程中存在的数据匮乏以及对用户的保护。它们注意到，保证精确而公平地由人工智能产生的资料"依然是一项重大的挑战"。

「哈布斯堡的 AI」。

然而，在挖掘人工数据优势的同时，也存在着一系列亟待解决的问题，比如：人工生成的大样本对 AI的影响。

Meta公司在其对 Llama3.1的报告中表示，其最近型号的自我产生的数据具有4050亿个参数，用于培训是"没有帮助"的，而且还可能"降低性能"。

上月出版于【自然】期刊的一篇文章指出，对模拟实验进行"滥用"可能会造成「无法挽回的误差」。研究者称这是一种"模型崩溃"，并且说，要想让我们从使用网络大数据中获益，我们就应该严肃地看待这个问题。

莫纳什大学的资深学者杰森-萨多斯基给这个概念起了一个名字：「哈布斯堡的 AI」，它的原型是奥地利的哈布斯堡家族，被某些历史学家称为是由于内部通婚导致的。萨多斯基在接受【商业内幕】采访时表示，由于对人工智能产生的最终模式过于依靠人工智能产生的最终模式会引起基因变异，因此他一直认为自己的看法是对的。

萨多斯基表示：「有一个问题一直困扰着研发 AI系统的科研工作者和企业：到底要有多大的数字？」他还表示，要想办法应对 AI体系里的资料匮乏问题，就必须寻找不同的方法，但是他同时也注意到，这些办法也许只能治标不治本，而且最后有害无益。

不过，4月公布的一份研究报告指出，在将"真实"与人工数据结合起来进行培训的模式中，未必出现"崩溃"的情况。如今，有些公司把自己的前途寄托于"混合数据"之上，这种数据是由半实际的数据产生的，这样就可以防止建模失去控制。

Scale AI公司（Scale AI Inc.）称，该公司（Scale AI Inc.）称，其正致力于"混合数据"的开发，甚至包括将复合与不复合的资料结合起来， Scale AI （Scale AI）的 CEO Alexander Wang （Alexander Wang）近期称，"混合型数据才是将来的趋势。

寻求另一种方法

由于仅仅向模型中塞入大量的资料，因此，人工智能也许必须采用一种新的方式来解决问题。

一月份，来自谷歌深层挖掘团队的研究团队展示了另外一种方式的优势。那时，这家公司公布了阿尔法米，一个可以解答奥林匹克级别的几何难题的人工智能系统。

研究者们在一份附加文章中提到，阿尔法ometry使用了"神经符号"方式，它将其它人工智能方式的优点相融合，既有深度学习模式又有依靠大数据的规则推断。IBM (189.48,-1.97,-1.03%）的研究小组认为，这种技术可以成为一种普遍意义上的人工智能（AGI）。

在阿尔法ometry方面，这个系统全部利用人工数据来进行培训。

神经-标记的人工智能研究是一个比较新的研究方向，它是否能够促进 AI的发展仍需拭目以待。

由于像 OpenAI，谷歌，微软这样的公司都承受着把 AI的繁荣转变成盈利的巨大压力，所以可以预料他们将会用不同的方法来处理这场「数据危机」。

加里-马库斯表示：「除非我们有一个崭新的方案，否则，我们将面临很多困难。（商务资料）

文章由乔杜里等人撰写，题目是：【人工智能训练数据日渐枯竭,合成数据引发巨大争议】。