当前位置: 华文世界 > 科技

AI引爆网站数据争夺战:爬虫机器人遭遇封锁潮

2024-09-03科技

在生成式AI技术不断进步的时代背景下,许多人认为这项技术会越来越强大。然而,生成式AI模型的品质取决于其训练数据的庞大规模,而这些数据集并非来自OpenAI或Anthropic等AI公司的专有数据,而是由全球用户在网际网络上创造的公共数据构成的。这些数据包括博客文章、视频、论坛评论等,这些都是训练AI模型的重要资源。

然而,随着越来越多的网站开始封锁网络爬虫(crawler bot),这些AI模型的训练数据可能会面临短缺的风险。一份来自Data Provenance Initiative(数据源倡议)的报告「同意危机:AI数据公有领域的快速衰退」揭示了这一问题。该报告指出,许多感受到生成式AI威胁的组织正在采取措施,将自己的数据封锁起来,这对于依赖网络爬虫获取数据的AI公司来说无疑是一个巨大挑战。

早在1995年,机器可读的「robots.txt」协议就已被引入,用来告知网络爬虫哪些网站内容可以爬取,哪些不能。当时,这项技术主要用于帮助搜索引擎(如Bing或Google)更好地索引网页内容,提升用户的搜索体验。这是一种互利共生的关系,因为搜索引擎的运行依赖于为网站带来流量,而网站则希望通过搜索引擎获得更多访问者。因此,大多数网站都愿意与爬虫「和平共处」。

然而,生成式AI的兴起改变了这一局面。许多大型AI模型依赖于从网际网络上抓取的庞大数据集进行训练,这些数据集中包含了大量高品质的内容,例如新闻网站、学术数据库、社交媒体等。然而,随着越来越多的网站开始使用「robots.txt」封锁爬虫,这些数据的获取变得越来越困难。尤其是那些依赖广告收益或有付费墙的网站,如新闻媒体和艺术家网站,对生成式AI可能侵害其利益的担忧,使得它们采取措施来保护自己的数据。

「robots.txt」协议虽然能够有效地指导爬虫,但它并不具备法律强制力。换句话说,爬虫是否遵守这一协议取决于其设计者的道德自律。然而,许多爬虫,特别是那些来自小型初创公司、学术机构、非营利组织或新闻工作者的爬虫,往往会遵守「robots.txt」,而这些爬虫往往并不是网站希望阻止的对象。

在Data Provenance Initiative的研究中,研究人员分析了三个常用来训练生成式AI系统的数据集,这些数据集都来自过去的网络爬取。他们发现,从2023年至2024年,这些数据集中有大量被爬取的网站域名已经设置了爬虫限制。以C4数据集为例,该数据集于2019年创建,在不到一年的时间里,约有5%的数据已被网站收回。虽然这个比例看似不高,但这5%的数据往往代表着高品质、更新频繁的内容。特别是在该数据集的前2000个网站中,约25%的数据已经被网站撤回,这意味着生成式AI模型的训练数据源正快速从高品质的新闻、学术网站、社交媒体转向更个性化的网站和电子商务平台。

这样的变化对于未来的生成式AI模型来说可能是一个重大挑战。如果AI模型的训练数据主要来自个人博客或购物网站,那么当我们要求它回答复杂问题时,其答案的准确性和可靠性可能会大打折扣。

虽然过去的数据集仍然存在,但仅依赖这些数据进行训练并非长久之计。首先,数据的新鲜度至关重要,因为网际网络上的资讯每天都在不断更新。其次,尽管「robots.txt」协议本身无法追溯适用,但许多出版商可能会主张其内容不应被AI模型继续使用,这也使得AI公司面临潜在的法律风险。

为应对数据源减少的问题,许多大公司开始使用合成数据进行模型训练。虽然合成数据有助于补充训练数据的不足,但其品质和可靠性仍需进一步检验。尤其是低品质或重复的合成数据可能导致模型性能的下降,这一点在研究中已经得到证实。然而,高品质的合成数据仍然具有潜力,尤其是在针对特定领域进行优化时。

随着时间的推移,更多的网站可能会采取措施限制网络爬虫,这将使得生成式AI模型的训练变得更加困难。未来,AI公司可能需要寻求直接与数据源完成许可协议,或者通过技术手段从隐藏或难以提取的数据中挖掘有价值的信息。

Data Provenance Initiative的研究人员希望看到一个新的标准能够诞生,这个标准可以让数据创作者更精细地表达他们对数据使用的偏好。这不仅有助于保护数据创作者的权益,也可以减轻网站管理者的负担。然而,标准的制定者无论是AI公司还是其他组织,都可能带有自身的利益偏见,这使得标准化的实施面临挑战。

总的来说,随着数据战争的加剧,生成式AI的发展可能会受到一定的限制。无论是从法律还是技术的角度,AI行业都需要探索新的方法来确保模型能够持续获得高品质的训练数据,以维持其在信息生成和应用领域的领先地位。