第三方抓取數據合法，X的API生意可能要黃了

2024-05-14科技

自從Gemini承認自己是用文心一言來訓練中文語料，到各大機構的預測高品質數據集即將枯竭，大模型在未來數年或面臨「熄火」的危機，就成為了懸在如今整個AI行業頭頂的「達摩克利斯之劍」。為了收集更多的數據或者說語料來澆灌大模型，「買買買」也成為了相關廠商的解決方案，例如谷歌每年花6000萬美元從Reddit手中買數據，OpenAI則滿世界找新聞出版機構簽訂內容授權合約。

一時間，向AI廠商賣數據儼然成為了一眾內容平台賺錢的好方法。比如苦於大量廣告主離開、而陷入虧損的X，去年就靠著API付費墻，向需要X使用者數據的每一個企業級客戶收取了超過超過百萬美元的費用。

然而就在一年之後，X透過API向第三方賣數據這個生意恐怕要黃了。日前，X方面起訴了以色列數據公司Bright Data非法抓取該平台數百萬條記錄一案落下帷幕，美國加利福利亞州聯邦法院駁回了X的所有主張。

去年8月，X公司稱Bright Data公然違反該平台的服務協定，透過技術手段規避平台風控、從而批次非法抓取了X上的回復、點贊、轉發等數據，並認為這些非法行為對X的伺服器造成嚴重影響、還損害了使用者體驗，為此其要求獲得禁令救濟、以阻止Bright Data的這一行為。

對此Bright Data方面則表示，X公司建設了一堵圍墻來拒絕他人存取該平台的公開數據，並將在法庭上捍衛他們的立場，確保所有人都可以公開存取互聯網及相關數據。

使用爬蟲在互聯網上搜集數據，其實在過去二十年間都是一個處於灰色地帶的操作，各家的做法基本上都是「悄悄的進村，開槍的不要」，很少有像Bright Data這種理直氣壯承認自己在這樣做的廠商。更讓人意外的是，法院居然沒有支持作為受害者的X。因此有觀點認為，這一次美國聯邦法院的裁定或將極大影響到互聯網行業的格局。

法院在駁回X相關請求時使用的理由，是社群網路實際上不擁有使用者數據，因為平台不能一方面享受避風港原則帶來的好處，另一方面又強調數據屬於自己。這就等於是否定了社交平台對於使用者數據主權的法理，既然X本身不擁有數據、而是透過其他方式向使用者提供公開的數據，那麽Bright Data抓取公開數據的行為就不屬於違法。

從某種意義上來說，曾經讓大批美國互聯網平台免受法律風波的避風港原則，如今卻成為了他們賣數據的絆腳石。而所謂「避風港原則」，是美國1998年制定的【數位千年版權法案】中提出的一個概念，目的在於在解決互聯網語境下版權保護相關的法律問題，網路服務提供商（ISP）只要能夠證明自己沒有惡意，並及時刪除侵權連結或相關內容的情況下，將不承擔相應的侵權責任。

具體來說，網路服務提供者在接到權利人的通知後，需要及時將相關該通知轉達給使用者，並對侵權資訊根據初步證據和服務型別等，采取刪除、遮蔽或斷開連結等必要措施。只要網路服務提供者履行了上述義務就會進入「避風港」，不承擔侵權責任。「我們不可能即時監控平台上發生的每一件事」，是就是相關互聯網平台在撇清監管責任的常用說辭。

「你通知、我刪除、我免責」，在這樣的避風港原則保護下，互聯網廠商在新世紀初度過了它們的幼年期。然而此一時彼一時，當初弱小的互聯網廠商需要避風港原則來讓現實世界的資訊網路化，並暢通無阻地傳播，可是隨著互聯網經濟的興旺，當初創廠商成長為巨頭後，規避監管責任的避風港原則反過來讓他們們在法律層面也失去了聲明使用者數據歸屬的權利。

既然在避風港原則下，使用者在平台釋出侵權內容後，權利人可以通知平台刪除內容，只要平台及時處理、那麽版權方就不能起訴平台，僅可以起訴釋出侵權的使用者。那麽主張使用者釋出內容不是平台的行為，平台又憑什麽在法律層面擁有使用者的數據呢？以子之矛攻子之盾，這就是X此次要求獲得禁令救濟失敗的關鍵。

無獨有偶，Bright Data不僅在此次與X對弈中獲得了勝利，今年年初美國法院同樣駁回了Meta的類似訴訟主張。短短半年時間，連續兩個同樣的判例對於互聯網平台而言，表明風向確實已經變了。如今擺在X、Meta面前的問題，就是避風港原則和使用者數據要二選一了，而互聯網廠商其實也只有一個選項、那就是繼續堅持避風港原則。因為即便避風港原則越來越不好使，但它的存在還是讓互聯網廠商免除了大部份的監管責任。

換而言之，未來任何人都可以抓取美國社交平台的數據。互聯網廠商賣數據給AI廠商的生意，很有可能剛開了個頭就要面臨終結。畢竟買數據是要花真金白銀的，可如果使用技術手段繞開目標設定的屏障，成本顯然就會低得多。可偏偏互聯網廠商幾乎都不缺乏技術力，所以在大數據時代之後，爬蟲和反爬蟲或將再次成為互聯網廠商的一大課題。

只是對於使用者而言，美國聯邦法院的這一判例可能並不是什麽好事，最起碼大家未來使用相關平台的體驗大機率會變差。通常來說，互聯網廠商的反爬蟲策略都是圍繞判斷使用者是否為人類展開，其中最有效的手段不是JavaScript參數加密、程式碼混淆，而是驗證碼和人機驗證。所以未來各種喪心病狂的驗證碼可能會重出江湖，大家或許又要與奇葩的驗證碼鬥智鬥勇了。