AI引爆網站數據爭奪戰：爬蟲機器人遭遇封鎖潮

2024-09-03科技

在生成式AI技術不斷進步的時代背景下，許多人認為這項技術會越來越強大。然而，生成式AI模型的品質取決於其訓練數據的龐大規模，而這些數據集並非來自OpenAI或Anthropic等AI公司的專有數據，而是由全球使用者在網際網絡上創造的公共數據構成的。這些封包括網誌文章、影片、論壇評論等，這些都是訓練AI模型的重要資源。

然而，隨著越來越多的網站開始封鎖網絡爬蟲（crawler bot），這些AI模型的訓練數據可能會面臨短缺的風險。一份來自Data Provenance Initiative（資料來源倡議）的報告「同意危機：AI數據公有領域的快速衰退」揭示了這一問題。該報告指出，許多感受到生成式AI威脅的組織正在采取措施，將自己的數據封鎖起來，這對於依賴網絡爬蟲獲取數據的AI公司來說無疑是一個巨大挑戰。

早在1995年，機器可讀的「robots.txt」協定就已被引入，用來告知網絡爬蟲哪些網站內容可以爬取，哪些不能。當時，這項技術主要用於幫助搜尋引擎（如Bing或Google）更好地索引網頁內容，提升使用者的搜尋體驗。這是一種互利共生的關系，因為搜尋引擎的執行依賴於為網站帶來流量，而網站則希望透過搜尋引擎獲得更多存取者。因此，大多數網站都願意與爬蟲「和平共處」。

然而，生成式AI的興起改變了這一局面。許多大型AI模型依賴於從網際網絡上抓取的龐大數據集進行訓練，這些數據集中包含了大量高品質的內容，例如新聞網站、學術數據庫、社交媒體等。然而，隨著越來越多的網站開始使用「robots.txt」封鎖爬蟲，這些數據的獲取變得越來越困難。尤其是那些依賴廣告收益或有付費墻的網站，如新聞媒體和藝術家網站，對生成式AI可能侵害其利益的擔憂，使得它們采取措施來保護自己的數據。

「robots.txt」協定雖然能夠有效地指導爬蟲，但它並不具備法律強制力。換句話說，爬蟲是否遵守這一協定取決於其設計者的道德自律。然而，許多爬蟲，特別是那些來自小型初創公司、學術機構、非營利組織或新聞工作者的爬蟲，往往會遵守「robots.txt」，而這些爬蟲往往並不是網站希望阻止的物件。

在Data Provenance Initiative的研究中，研究人員分析了三個常用來訓練生成式AI系統的數據集，這些數據集都來自過去的網絡爬取。他們發現，從2023年至2024年，這些數據集中有大量被爬取的網站網域名稱已經設定了爬蟲限制。以C4數據集為例，該數據集於2019年建立，在不到一年的時間裏，約有5%的數據已被網站收回。雖然這個比例看似不高，但這5%的數據往往代表著高品質、更新頻繁的內容。特別是在該數據集的前2000個網站中，約25%的數據已經被網站撤回，這意味著生成式AI模型的訓練資料來源正快速從高品質的新聞、學術網站、社交媒體轉向更個人化的網站和電子商務平台。

這樣的變化對於未來的生成式AI模型來說可能是一個重大挑戰。如果AI模型的訓練數據主要來自個人網誌或購物網站，那麽當我們要求它回答復雜問題時，其答案的準確性和可靠性可能會大打折扣。

雖然過去的數據集仍然存在，但僅依賴這些數據進行訓練並非長久之計。首先，數據的新鮮度至關重要，因為網際網絡上的資訊每天都在不斷更新。其次，盡管「robots.txt」協定本身無法追溯適用，但許多出版商可能會主張其內容不應被AI模型繼續使用，這也使得AI公司面臨潛在的法律風險。

為應對資料來源減少的問題，許多大公司開始使用合成數據進行模型訓練。雖然合成數據有助於補充訓練數據的不足，但其品質和可靠性仍需進一步檢驗。尤其是低品質或重復的合成數據可能導致模型效能的下降，這一點在研究中已經得到證實。然而，高品質的合成數據仍然具有潛力，尤其是在針對特定領域進行最佳化時。

隨著時間的推移，更多的網站可能會采取措施限制網絡爬蟲，這將使得生成式AI模型的訓練變得更加困難。未來，AI公司可能需要尋求直接與資料來源完成特許協議，或者透過技術手段從隱藏或難以提取的數據中挖掘有價值的資訊。

Data Provenance Initiative的研究人員希望看到一個新的標準能夠誕生，這個標準可以讓數據創作者更精細地表達他們對數據使用的偏好。這不僅有助於保護數據創作者的權益，也可以減輕網站管理者的負擔。然而，標準的制定者無論是AI公司還是其他組織，都可能帶有自身的利益偏見，這使得標準化的實施面臨挑戰。

總的來說，隨著數據戰爭的加劇，生成式AI的發展可能會受到一定的限制。無論是從法律還是技術的角度，AI行業都需要探索新的方法來確保模型能夠持續獲得高品質的訓練數據，以維持其在資訊生成和套用領域的領先地位。