當前位置: 華文世界 > 科技

Reddit CEO:微軟等公司必須付費才能抓取數據

2024-08-01科技

IT之家 8 月 1 日訊息,Reddit CEO 史蒂夫霍夫曼近日表示,如果微軟等公司希望繼續抓取該網站的數據,就必須付費。此前,Reddit 已經與谷歌和 OpenAI 達成協定。

圖源 Pexels

霍夫曼指出,如果沒有這些協定,Reddit 無法控制或了解其數據的使用方式,這迫使他們不得不遮蔽那些不願意接受數據使用條件的公司。他特別點名了微軟、Anthropic 和 Perplexity 三家公司,稱他們拒絕談判,並稱封鎖這些公司「非常麻煩」。

近幾個月來,Reddit 一直在加大力度打擊爬蟲。7 月初,Reddit 更新了 robots.txt 檔,遮蔽了未經授權的網絡爬蟲。隨後人們發現,Reddit 的內容只出現在谷歌搜尋結果中,而 Bing 等其他搜尋引擎上則看不到。

霍夫曼指責微軟未經授權利用 Reddit 的數據訓練 AI,並在 Bing 搜尋結果中總結 Reddit 內容,甚至透過 Bing API 將這些數據出售給其他搜尋引擎。他還回應了微軟 AI 負責人穆斯塔法蘇萊曼此前關於互聯網公共數據是「免費軟件」的言論,稱微軟等公司認為互聯網上的所有內容都可以供他們免費使用,這是他們的真實立場。

IT之家註意到,針對 Reddit 搜尋結果從 Bing 消失一事,微軟搜尋主管喬迪裏巴斯在社交媒體上表示,Reddit 遮蔽了 Bing 的爬蟲,偏袒另一家搜尋引擎,影響了 Bing 和基於 Bing 的搜尋引擎的競爭。微軟發言人凱特琳勞爾頓也表示,公司尊重網站不希望其內容被用於生成式 AI 模型的意願。

霍夫曼以 OpenAI 的 SearchGPT 為例,強調了付費協定的重要性。今年早些時候,Reddit 和 OpenAI 達成協定,允許 SearchGPT 顯示 Reddit 內容。Reddit 發言人提姆拉特施密特表示,目前簽訂的所有內容特許協議都不涉及數據獨占使用權。

Reddit 要求付費的做法與傳統媒體出版商類似,他們也希望從允許內容用於生成式 AI 中獲得收益。霍夫曼認為,搜尋引擎的傳統價值交換已經改變,搜尋、摘要和訓練正在融合,單純依靠爬取內容換取流量的模式變得模糊。