蘋果「自作自受」，海外各大平台紛紛拒絕蘋果AI抓取數據

2024-08-30科技

明明可以悄悄爬，蘋果卻偏偏選擇了公開。

蘋果公司推出了一款工具，允許新聞機構、媒體選擇「結束其人工智能訓練」。不到三個月時間，許多知名的新聞媒體和社交平台已經開始采用這項工具。

據【連線】雜誌訊息，包括 Facebook、Instagram、Craigslist、Tumblr、【紐約時報】、【金融時報】、【大西洋月刊】、Vox Media、【今日美國】網絡以及【連線】雜誌的母公司康泰納仕集團在內的多家機構選擇將自己的數據排除在蘋果的人工智能訓練之外。

這種冷淡的反應反映了人們對於機器人爬蟲的看法和使用發生了重大變化。這些機器人爬蟲已經在網上搜集數據數十年，現在它們在收集人工智能訓練數據方面發揮著核心作用，並成為了關於知識產權和網絡未來發展的重要爭議點。

這款新工具，名為 Applebot-Extended，是對蘋果網頁爬蟲的擴充套件，它特別允許網站所有者告知蘋果不要使用他們的數據進行 AI 訓練。蘋果在其一篇解釋該工具運作方式的網誌文章中稱此為「控制數據使用」。

最初的 Applebot 於 2015 年釋出，最初目的是為了支持蘋果的搜尋產品，如 Siri 和 Spotlight。然而，近年來 Applebot 的用途已經擴大：它收集的數據也可以用來訓練蘋果為其 AI 努力所建立的基礎模型。

蘋果發言人 Nadine Haija 表示，Applebot-Extended 是一種尊重出版商權利的方式。它實際上並沒有阻止原始的 Applebot 抓取網站——這會影響網站內容在蘋果搜尋產品中的展示方式——而是阻止這些數據被用於訓練蘋果的大規模語言模型和其他生成式 AI 專案。本質上，這是一個客製另一個機器人工作的機器人。

出版商可以透過更新其網站上的文字檔案（稱為 Robots Exclusion Protocol 或 robots.txt）來阻止 Applebot-Extended。這個檔已經控制了機器人如何抓取網絡數據數十年之久，現在它已經成為關於 AI 如何訓練的更大爭議的中心。許多出版商已經更新了他們的 robots.txt 檔，以阻止來自 OpenAI、Anthropic 和其他主要 AI 玩家的 AI 機器人。

robots.txt 檔允許網站所有者按具體情況阻止或允許機器人。雖然法律沒有要求機器人遵守該檔中的內容，但遵循這些指示是一種長期存在的規範。不過，有時候這一規範會被忽略：今年早些時候，【連線】雜誌的一項調查發現，人工智能初創公司 Perplexity 忽視了 robots.txt 檔，秘密地抓取網站內容。

Applebot-Extended 作為一項新工具，目前只有相對較少的網站遮蔽了它。加拿大安大略省的 AI 檢測初創公司 Originality AI 分析了 1,000 個高流量網站的樣本，發現大約 7% 的網站（主要是新聞和媒體網站）已經遮蔽了 Applebot-Extended。

本周，AI 代理監管服務 Dark Visitors 對另一組 1,000 個高流量網站的樣本進行了分析，發現大約 6% 的網站已經遮蔽了該機器人。綜合來看，這些努力表明，絕大多數網站所有者要麽不反對蘋果的人工智能訓練做法，要麽根本不知道有遮蔽 Applebot-Extended 的選項。

在本周進行的一項單獨分析中，數據記者 Ben Welsh 發現，在他調查的新聞網站中，剛超過四分之一（1,167 家主要以英語為主的美國出版物中的 294 家）遮蔽了 Applebot-Extended。

相比之下，他發現調查的新聞網站中有 53% 遮蔽了 OpenAI 的機器人。去年 9 月，谷歌推出了自己的 AI 特定機器人 Google-Extended；大約 43% 的網站遮蔽了它，這表明 Applebot-Extended 可能仍未被廣泛發現。不過，正如 Welsh 所說，自他開始調查以來，這個數碼一直在「逐漸上升」。

Welsh 有一個正在進行的專案，監測新聞機構如何對待主要的人工智能代理。「新聞出版商之間出現了一些分歧，他們是否想遮蔽這些機器人，」他說。「我無法確切知道每個新聞機構為何作出這樣的決定。顯然，我們可以讀到許多新聞機構簽訂了特許協議，他們以允許機器人進入而獲得報酬——這可能是一個因素。」

去年，【紐約時報】報道說，蘋果正試圖與出版商達成人工智能協定。自那以後，競爭對手如 OpenAI 和 Perplexity 已經宣布與各種新聞媒體、社交平台和其他熱門網站建立了合作關系。「世界上許多最大的出版商顯然都采取了戰略方針，」Originality AI 創始人 Jon Gillham 說。「我認為在某些情況下，其中涉及一種商業策略——比如，在達成合作協定之前保留數據。」

有一些證據支持 Gillham 的理論。例如，康泰納仕網站曾遮蔽 OpenAI 的網頁爬蟲。在該公司上周宣布與 OpenAI 合作後，它解除了對 OpenAI 機器人的遮蔽（康泰納仕拒絕就此事發表評論）。

與此同時，Buzzfeed 發言人 Juliana Clifton 告訴【連線】雜誌，該公司目前遮蔽了 Applebot-Extended，並將其能辨識出的每個 AI 網頁爬蟲機器人都列入了遮蔽名單，除非其所有者與該公司建立了合作關系（通常是付費的），該公司還擁有【赫芬頓郵報】。