下一代AI：训练时发现互联网数据不够用

2024-04-02科技

OpenAI和Anthropic等公司正在设法寻找足够信息来训练下一代AI模型，数据是供不应求的几种重要AI资源之一

急于开发更强大AI的公司面临一个新问题：开发的功能越强大，需要的信息越多，互联网能提供的数据太少了

在一些数据所有者屏蔽AI公司对自身数据访问的情况下，这种需求导致互联网上可用的优质公共数据池变得紧张

一些企业高管表示，大模型训练对高质量文本数据的需求可能会在两年内超过供应量，从而有可能减缓AI的发展

AI公司正在寻找尚未开发的信息源，并重新思考如何训练这些系统

OpenAI已经讨论将公开的YouTube视频里所说的内容转换成文本，并以此为基础训练该公司的下一个模型GPT-5

一些公司还在尝试使用AI生成的数据作为训练材料，许多研究人员表示，这种方法实际上可能会造成严重的故障

这些做法通常都是秘密，因企业高管认为解决方案也可以是一种竞争优势，数据短缺是一个前沿性的研究问题

数据是供不应求的几种重要AI资源之一，行业领导者担心的还有数据中心和这些中心所需电力的不足

在ChatGPT、谷歌的Gemini和其他AI机器人背后运行的大型语言模型所需的芯片也很稀缺，想买都买不到

一般来说，AI模型训练的数据越多，能力越强。OpenAI对这种方法押下了大注，由此成为世界上最著名的AI公司

AI语言模型是利用从互联网上获取的文本建立的，这些文本包括科学研究、新闻报道和维基百科条目

这些材料被分解成词元(token)，即模型用来学习如何构建类似人类表达的单词和部分单词

Sora是OpenAI新近公布的一个人工智能模型，可以根据文本提示生成逼真的视频

OpenAI首席技术官米拉·穆拉提解释了Sora的工作原理，谈论其完善计划，但回避有关模型训练素材的一些问题

OpenAI没有透露其目前最先进的语言模型GPT-4的详细训练材料，GPT-4已成为高级生成性AI系统的行业标准

AI语言模型是利用从互联网上获取的文本建立的，这些文本包括科学研究、新闻报道和维基百科条目

这些材料被分解成词元(token)，即模型用来学习如何构建类似人类表达的单词和部分单词

但据研究人员的估计，GPT-4的训练素材已经多达12万亿个词元

根据一个名为Chinchilla扩展定律的计算机科学原理，如果想继续遵循当前增长轨迹，像GPT-5这样的AI系统将需要60万亿到100万亿个词元的数据

即使利用所有可用的高质量语言和图像数据之后，仍可能至少存在10万亿个-20万亿个词元的缺口，尚不清楚如何弥补这一数据缺口

企业高管和研究人员表示，高质量数据到2024年中期供不应求的可能性为50%，到2026年供不应求的可能性为90%

可在网上获得的大部分数据对AI训练来说并无用处，因为存在句子残缺等缺陷，或者不能增进模型的知识

分析师估计，互联网上的数据只有一小部分对此类训练有用，这些网络数据集被AI开发者广泛使用

与此同时，社交媒体平台、新闻出版商和其他相关方出于对公平补偿等问题的关切，对获取其数据用于AI训练设限

公众也很少愿意交出私人对话数据（如通过iMessage进行的聊天）来帮助训练这些模型

扎克伯格最近宣扬Meta Platforms在自家平台上获取数据的能力，将其当成该公司发展AI业务的一大优势

Meta可以挖掘旗下各个网络上数以千亿计公开分享的图片和视频，其总量大于多数常用的数据集

数据挑选工具初创企业DatologyAI采用的一种策略被称为课程学习，即按照特定顺序把数据输入语言模型，希望AI能在概念之间形成更好的关联

在2022年的一篇论文中，模型借助半数相关数据就能达到同样的效果，这有可能降低训练和运行大型生成式AI系统所需的巨大成本

迄今为止的其他一些研究暗示课程学习这种办法效果不佳，这是深度学习方面不足为外人道的科研秘密

包括OpenAI的合作伙伴微软在内，一些科技公司正构建体量仅为GPT-4的一小部分，但可以实现特定目标的较小语言模型

OpenAI首席执行官阿尔特曼已表示该公司正在研究训练未来模型的新方法

他在去年的一次会议上说：「认为我们正处于一个时代的末期，这个时代由这些巨型模型组成，我们会用其他方式让它们变得更好。」

OpenAI还讨论过创建一个数据市场，在这个市场上OpenAI可以建立一种方法来确定每个数据点对最终训练模型的价值贡献程度，并向相关内容的提供者支付报酬

谷歌内部也在讨论同样的想法，但研究人员一直在努力构建这样一个系统，目前还不清楚他们能否找到突破口

OpenAI还在努力收集一切已有的有用信息。高管们已经讨论过使用自动语音识别工具Whisper在互联网上转录高质量视频和音频示例

这些人说，其中一些将通过公开的YouTube视频来实现，这些视频中的一部分已经被用来训练GPT-4

OpenAI的一位发言人说：「我们的数据集是独一无二的，我们进行了整理，以帮助我们的模型领悟世界」

她还说，其工具从公开可用的内容中提取信息，并通过合作伙伴关系获取非公开数据

一些公司也在尝试制作自己的数据，输入本身由AI生成的模型文本，被认为是近亲繁殖的计算机科学版本

此类模型往往会出现胡编乱造的现象，一些研究人员称之为「模型崩溃」

OpenAI和Anthropic的研究人员正试图通过创建所谓更高质量的合成数据来规避这些问题

在最近的一次采访中，Anthropic首席科学家Jared Kaplan表示，某些类型的合成数据可能会有所帮助

Anthropic说，正在使用「内部生成的数据」为其最新版本的Claude模型提供信息，OpenAI也在探索合成数据生成

许多研究数据问题的人士对最终找到解决方案持乐观态度。研究人员将其比作「石油峰值」，即担心石油生产可能会触顶并引发一场痛苦的经济崩溃

由于新技术的出现，这种担忧已被证明是不准确的，比如本世纪初的压裂技术

AI世界也有可能出现类似的发展。「最大的不确定性在于你将看到什么样的突破。」