Reddit CEO：微軟等公司必須付費才能抓取數據

2024-08-01科技

IT之家 8 月 1 日訊息，Reddit CEO 史蒂夫霍夫曼近日表示，如果微軟等公司希望繼續抓取該網站的數據，就必須付費。此前，Reddit 已經與谷歌和 OpenAI 達成協定。

圖源 Pexels

霍夫曼指出，如果沒有這些協定，Reddit 無法控制或了解其數據的使用方式，這迫使他們不得不遮蔽那些不願意接受數據使用條件的公司。他特別點名了微軟、Anthropic 和 Perplexity 三家公司，稱他們拒絕談判，並稱封鎖這些公司「非常麻煩」。

近幾個月來，Reddit 一直在加大力度打擊爬蟲。7 月初，Reddit 更新了 robots.txt 檔，遮蔽了未經授權的網絡爬蟲。隨後人們發現，Reddit 的內容只出現在谷歌搜尋結果中，而 Bing 等其他搜尋引擎上則看不到。

霍夫曼指責微軟未經授權利用 Reddit 的數據訓練 AI，並在 Bing 搜尋結果中總結 Reddit 內容，甚至透過 Bing API 將這些數據出售給其他搜尋引擎。他還回應了微軟 AI 負責人穆斯塔法蘇萊曼此前關於互聯網公共數據是「免費軟件」的言論，稱微軟等公司認為互聯網上的所有內容都可以供他們免費使用，這是他們的真實立場。

IT之家註意到，針對 Reddit 搜尋結果從 Bing 消失一事，微軟搜尋主管喬迪裏巴斯在社交媒體上表示，Reddit 遮蔽了 Bing 的爬蟲，偏袒另一家搜尋引擎，影響了 Bing 和基於 Bing 的搜尋引擎的競爭。微軟發言人凱特琳勞爾頓也表示，公司尊重網站不希望其內容被用於生成式 AI 模型的意願。

霍夫曼以 OpenAI 的 SearchGPT 為例，強調了付費協定的重要性。今年早些時候，Reddit 和 OpenAI 達成協定，允許 SearchGPT 顯示 Reddit 內容。Reddit 發言人提姆拉特施密特表示，目前簽訂的所有內容特許協議都不涉及數據獨占使用權。

Reddit 要求付費的做法與傳統媒體出版商類似，他們也希望從允許內容用於生成式 AI 中獲得收益。霍夫曼認為，搜尋引擎的傳統價值交換已經改變，搜尋、摘要和訓練正在融合，單純依靠爬取內容換取流量的模式變得模糊。