人工智能训练数据渐枯竭，合成数据引发巨大争议

2024-08-24科技

人工智能训练计划数据耗尽，合成数据引发争论

训练数据已成为人工智能热潮中最有价值的资源之一，能够以低成本无限量地生产训练数据的前景无疑很有吸引力。但也有人认为，合成数据会导致人工智能模型在低质量信息的影响下 "自我发展"，最终导致模型 "崩溃"。

人工智能行业有一个大问题：缺乏训练更智能模型所需的真实数据。研究表明，由于数据质量低，合成数据可能成为人工智能的 "毒药"。

人工智能行业最宝贵的资源即将耗尽，行业领袖们正在热烈讨论一种快速增长的替代方法：合成或 "伪造 "数据。

OpenAI 和谷歌 (163.95, -1.44, -0.87%)等公司多年来一直在从互联网上收集数据，用于训练大规模语言模型（LLM），这是人工智能工具和能力的核心。这些 LLM 处理人类数百年来创造的大量文本、视频和其他多媒体内容，包括研究文章、小说、YouTube 视频等。

但 "真正的 "人类生成的数据正在枯竭。研究公司 Epoch AI 预测，文本数据将在 2028 年耗尽。在此期间，那些在互联网各个角落寻找有用的教育数据的公司（有时甚至违反规则）将面临越来越严格的限制。

OpenAI 首席执行官萨姆-奥特曼（Sam Altman）表示，人工智能模型应该能够生成足够高质量的合成数据，以便进行有效训练。训练数据已成为人工智能热潮中最有价值的资源之一，以低成本无休止地生产训练数据的前景无疑很有吸引力。

然而，研究人员仍在争论合成知识是否是万能药。一些人担心，这条路可能会导致人工智能模型被低质量数据 "毒害"，从而导致模型 "崩溃"。

牛津大学和剑桥大学研究人员的最新研究表明，将人工智能生成的数据输入模型可能最终会使结果变得毫无意义。作者认为，人工智能生成的数据并非对学习完全无用，但应与真实世界的数据保持平衡。

2021 分析公司 Gartner 预测，到 2024 年，用于开发人工智能的数据中将有 60% 是人工合成的。

"人工智能分析师、纽约大学心理学和神经科学名誉教授加里-马库斯（Gary Marcus）说："这是一场危机。"我们曾幻想通过使用越来越多的数据，可以无限提高大型语言模型的性能，但现在我们几乎已经使用了所有可用的数据。"

"他说："合成数据可以帮助解决一些问题，但主要问题是这些系统无法进行推理和规划：人们所能想象的所有合成数据都无法解决这一根本问题。

越来越多的公司正在生产合成数据。

之所以需要假数据，是因为真实数据正在迅速枯竭。

这是因为技术公司利用公开数据尽快训练人工智能，并超越竞争对手。另一方面，在线数据所有者对免费获取其数据的公司越来越怀疑。

2020 年，OpenAI 的研究人员报告称，他们使用了来自网络爬虫 Common Crawl 的免费数据，其中包含 "近万亿字 "的网络资源。网络资源。

今年 7 月，"数据源倡议"（Data Source Initiative）发布的一份研究报告显示，各大网站正在施加限制，以防止人工智能公司使用不属于它们的数据。新闻机构和其他热门网站也越来越多地禁止人工智能公司自由使用其数据。

为了解决这个问题，OpenAI 和谷歌等公司花费数千万美元从 Reddit 和新闻机构获取数据，为其学习模型提供新鲜信息。但即便是这种方法也有其局限性。

"艾伦人工智能研究所研究员内森-兰伯特（Nathan Lambert）在今年 5 月写道："文本网络中不再有许多区域等待被抓取。

这就是合成数据的用武之地。合成数据是由人工智能系统根据真实数据（而非真实数据）训练创建的。

例如，今年 6 月，英伟达发布了一个人工智能模型，可创建人工数据集用于训练和校准；7 月，中国科技巨头腾讯的研究人员发布了一个名为 Persona Hub 的合成数据生成器，可提供类似功能。

一些新成立的公司，如 Gretel 或 Synthlab，就是为了生产大量特定类型的数据，并将其出售给有需要的公司。

合成知识的支持者认为，应该合理地使用合成知识。与现实世界一样，人类生成的数据往往杂乱无章，研究人员必须对其进行复杂而艰苦的清理和标记过程，然后才能使用。

合成数据可以填补人工生成数据无法填补的空白。例如，7 月底，Meta 发布了 Llama 3.1，这是一套新的人工智能模型，可以生成合成数据，并利用这些数据对训练进行 "微调"。合成数据可以帮助提高模型的性能，尤其是在某些技能方面，如使用 Python、Java 和 Rust 等语言编程，或解决数学问题。

合成学习对小型人工智能模型尤为有效。去年，微软(406.81, 0.79, 0.19%)报告称，它向OpenAI模型提供了一份典型的三四岁儿童所认识的不同单词列表，并要求模型使用这些单词生成短篇故事。由此产生的数据集被用于创建一套小而强大的语言模型。

合成数据也可用于有效 "重新校准 "真实数据中的偏差。前谷歌研究人员蒂莫西-格布鲁（Timothy Gebru）、玛格丽特-米切尔（Margaret Mitchell）等人在 2021 年发表的论文【随机鹦鹉的危险】（The Dangers of Random Parrots）中指出，根据互联网上的大量文本集训练的大规模语言模型很可能会反映出数据中存在的偏差。

今年 4 月，谷歌 DeepMind 的一组研究人员发表了一篇论文，提倡使用合成数据来解决数据稀缺和隐私问题。他们指出，确保这种人工智能生成的数据准确无误、不偏不倚 "仍然是一个关键挑战"。

"哈布斯堡内战

虽然人工智能行业从合成数据中看到了一些益处，但也存在不容忽视的严峻挑战，例如合成数据可能会损坏人工智能模型的担忧。

在发表于【Llama 3.1】的一篇研究论文中，Mehta 指出，使用最新模型的 450 亿参数版本的自生成数据进行训练 "毫无用处"，甚至可能 "降低性能"。

上个月发表在【自然】杂志上的一项研究发现，"滥用 "合成数据来训练模型会导致 "不可逆转的错误"。研究人员称这种现象为 "模型崩溃"，并表示如果我们要继续从在线收集的大量数据中获益，就必须认真对待这种现象。

莫纳什大学（Monash University）高级研究员杰森-萨多斯基（Jason Sadowski）从奥地利哈布斯堡王朝（Habsburg dynasty）获得灵感，创造了 "哈布斯堡人工智能"（Habsburg AI）一词。萨多斯基告诉【商业内幕】（Business Insider），这一想法得到了越来越多研究的支持，这些研究支持他的观点，即过度依赖人工智能生成的生产模型可能会导致突变。

"萨多斯基说："建立人工智能系统的研究人员和公司尚未解决的问题是大量的合成数据。他补充说，尽管应该探索所有可能的解决方案来解决人工智能系统中的数据稀缺问题，但其中一些可能只是短期解决方案，最终可能弊大于利。

然而，四月份发表的一项研究表明，使用 "真实数据 "和合成数据来训练模型并不一定意味着模型会 "失败"。现在，一些公司正在利用 "混合数据 "对未来进行投资，其中部分真实数据被用来生成合成数据，以保持模型的正常运行。

帮助公司标记和测试数据的 Scale AI 公司表示，它正在探索 "混合数据 "的方向，即合成数据和非合成数据的结合，Scale AI 公司首席执行官亚历山大-王（Alexander Wang）最近表示："混合数据是真正的未来。

探索替代解决方案

简单地将数据添加到模型中可能效果有限，因此人工智能可能需要采取新的方法。

今年 1 月，谷歌 DeepMind 研究团队展示了第二种方法的优势。随后，谷歌宣布推出 AlphaGeometry，这是一个能够解决奥林匹克级几何问题的人工智能系统。

研究人员在随附的一篇论文中指出，alphageometry 使用的是一种 "神经符号 "方法，它结合了其他人工智能方法的优势，介于深度学习模型和基于规则的大数据推理之间。据 IBM 研究小组（189.48, -1.97, -1.03%）称，这可能是通向通用人工智能（AGI）的一种方法。

特别是在字母阶乘方面，只使用合成数据进行了预训练。

神经心理学人工智能领域相对较新，目前尚不清楚它是否能为人工智能做出贡献。

鉴于 OpenAI、谷歌和微软等公司面临着将人工智能热潮转化为利润的压力，可以预见，它们将努力寻找一切可能的解决方案来解决数据危机。

马库斯说："如果我们不采取全新的战略，我们仍然会有麻烦。(商业信息）

本文为【人工智能新智元】撰写，标题为【人工智能训练数据即将耗尽，合成数据引发争论】。