矽谷大廠被曝違規「偷」數據：蘋果Anthropic用YouTube視訊訓練AI

2024-07-18科技

編譯 | ZeR0
編輯 | 漠影

智東西7月17日訊息，Proof News的一項最新調查發現，從超過48,000個頻道竊取的173,536個YouTube視訊的字幕被Anthropic、輝達、蘋果、Salesforce等矽谷巨頭使用。

這些一些全球最有錢的AI公司已經使用成千上萬個YouTube視訊中的素材來訓練人工智慧（AI）。盡管YouTube規定禁止未經授權從該平台獲取素材，但這些公司還是這樣做了。

這個名為YouTube字幕（YouTube Subtitles）的數據集包含了來自可汗學院、麻省理工學院和哈佛大學等教育和線上學習頻道的視訊文本。【華爾街日報】、美國國家公共電台和英國廣播公司的視訊均被用來訓練AI，【史帝芬·科爾伯特深夜秀】、【約翰·奧利弗上周今夜秀】和【吉米·坎莫耳秀】也是如此。

Proof News還發現了來自YouTube巨星的素材，包括MrBeast（2.89億訂閱者，2個視訊被用於訓練）、 Marques Brownlee（1900萬訂閱者，7個視訊被）、 Jacksepticeye（近3100萬訂閱者，377個視訊）和PewDiePie（1.11億訂閱者，337個視訊）。一些用於訓練AI的素材還宣揚了「地平說」等陰謀論。

一、YouTube素材被科技巨頭用於訓練AI，創作者毫不知情

Proof News建立了一個工具來在YouTube AI訓練數據集中搜尋創作者。

「沒有人來找我說‘我們想用這個’。」大衛·帕克曼（David Pakman）說道。【大衛·帕克曼秀】是一個偏左的政治頻道，有200多萬訂閱者和20多億次觀看量。他的近160個視訊被納入YouTube字幕訓練數據集。

帕克曼的企業有4個全職員工，除了制作播客、TikTok視訊和其他平台的素材外，該公司每天還會釋出多個視訊。帕克曼說，如果AI公司獲得報酬，那麽他應該因使用自己的數據而獲得補償。此前一些媒體公司最近簽署了協定，同意因使用他們的工作來訓練AI而獲得報酬。

「這是我的生計，我投入了時間、資源、金錢和員工時間來創作這些內容，」帕克曼說，「真的不缺工作。」

「這是盜竊。」串流媒體服務Nebula的執行長戴夫·威斯庫斯（Dave Wiskus）認為。Nebula的部份股權由其創造者所有，其中一些創造者的作品被從YouTube上盜用，用來訓練AI。

在他看來，未經創作者同意使用他們的作品是「不尊重」的行為，尤其是工作室可能會「使用生成式AI來盡可能多地取代藝術家」。

「這會被用來剝削和傷害藝術家嗎？是的，絕對會的。」威斯庫斯說。

該數據集的建立者EleutherAI的代表沒有回應對Proof調查結果的置評請求，包括對未經授權使用視訊的指控。該公司的網站表示，其總體目標是降低AI開發的門檻，讓那些身處科技巨頭之外的人能夠參與其中，該公司歷來「透過訓練和釋出模型，讓大家接觸到尖端的AI技術」。

YouTube字幕不包含視訊影像，而是由視訊字幕的純文本組成，通常還附帶日語、德語和阿拉伯語等語言的轉譯。

根據EleutherAI發表的研究論文，該數據集是該非營利組織釋出的名為Pile的組譯的一部份。Pile的開發者不僅收集了YouTube的材料，還收集了歐洲議會、英語維基百科以及安然公司員工的大量電子信件，這些電子信件是聯邦政府對該公司進行調查時釋出的。

Pile的大部份數據集都是開放的，任何擁有足夠空間和計算能力的人都可以在互聯網上存取。學術界和大型科技公司以外的其他開發人員利用了該數據集，但他們並不是唯一的利用者。

市值數千億甚至數萬億美元的蘋果、輝達、Salesforce等公司在其研究論文和貼文中描述了如何使用Pile訓練AI。

檔還顯示，蘋果使用Pile訓練OpenELM，這是一個備受矚目的模型，於4月釋出，幾周後該公司宣布將為iPhone和MacBook添加新AI功能。

相關出版物顯示，彭博和Databricks也在Pile上訓練模型。

明星AI大模型獨角獸Anthropic同樣如此，它從亞馬遜獲得了40億美元的投資，並強調其對「AI安全」的關註。

Anthropic發言人Jennifer Martinez在一份聲明中稱：「The Pile只包含一小部份YouTube字幕。」該聲明證實Anthropic的生成式AI助手Claude 使用了Pile，「YouTube的條款涵蓋了其平台的直接使用，這與使用The Pile數據集不同。關於可能違反YouTube服務條款的問題，建議問The Pile的作者。」

Salesforce證實將使用Pile構建AI模型，用於「學術和研究目的」。Salesforce AI研究副總裁Caiming Xiong在一份聲明中強調，該數據集是「公開可用的」。

Salesforce後來在2022年釋出了相同的AI模型供公眾使用，根據其Hugging Face頁面顯示，該模型自釋出以來已被下載至少86,000次。

Salesforce開發人員在他們的研究論文中指出，Pile包含褻瀆性語言以及「對性別和某些宗教群體的偏見」，並警告說這可能會導致「漏洞和安全問題」。Proof News在YouTube字幕中發現了數千個褻瀆性語言的例子，以及種族和性別辱罵的例子。

Salesforce的代表沒有回應有關安全問題。輝達的一位代表拒絕發表評論。蘋果、Databricks、彭博社的代表均未回應置評請求。

二、YouTube數據「金礦」

巴西裏約熱內盧熱圖利奧·巴爾加斯基金會法學院人工智慧政策研究員兼CyberBRICS研究員傑·維普拉（Jai Vipra）認為，AI公司相互競爭，部份原因在於獲取更高品質的數據。這是公司對數據來源保密的原因之一。

今年早些時候，【紐約時報】報道稱，YouTube母公司谷歌利用該平台上的視訊作為文本來訓練其模型。對此一位發言人告訴該報，根據與YouTube創作者的協定，谷歌被允許使用這些文本。

【紐約時報】的調查還發現，OpenAI未經授權使用了YouTube視訊。該公司代表既沒有證實也沒有否認該論文的調查結果。

OpenAI高管曾多次拒絕公開回答有關其是否使用YouTube視訊來訓練其AI產品Sora（該產品可根據文本提示制作視訊）的問題。今年早些時候，【華爾街日報】向OpenAI技術長公尺拉·穆拉蒂提出了這個問題，穆拉蒂回答說：「我實際上並不確定。」

在維普拉看來，YouTube字幕和其他型別的語音轉文本數據可能是一座「金礦」，因為它們可以幫助訓練模型來復制人們說話和交流的方式。

「這仍然是純粹的原理問題。」【戴夫教授講解】的主持人戴夫·法裏納（Dave Farina）說。他的頻道展示化學和其他科學教程，擁有 300萬訂閱者，並有140個視訊被盜用YouTube字幕。

他說：「如果你從我所做的工作（制造產品）中獲利，而這卻會讓我失業或讓我這樣的人失業，那麽就需要就補償或某種監管進行討論。」

YouTube字幕數據集於2020年釋出，其中還收錄了12,000多個視訊的字幕，這些視訊現已從YouTube上刪除。至少有一個案例中，創作者刪除了他們的整個線上資訊，但這項工作已被納入了數量不詳的 AI 模型中。

Proof News嘗試聯系本報道中提到的頻道所有者。許多人沒有回應置評請求。在其采訪的創作者中，沒有人意識到他們的資訊被竊取了，更不用說這些資訊是如何被使用的了。

令人驚訝的是：Crash Course（近1600萬訂閱者，871個視訊）和SciShow（800萬訂閱者，228個視訊）的制作人，它們是漢克和約翰·格林兄弟的教育視訊帝國的支柱。該節目制作公司Complexly的執行長朱莉·沃爾什·史密斯（Julie Walsh Smith）在一份聲明中稱：「我們精心制作的教育內容在未經我們同意的情況下被以這種方式使用，我們對此感到非常沮喪。」

YouTube字幕並不是第一組給創意產業帶來麻煩的AI訓練數據。

Proof News撰稿人亞歷斯·賴斯納（Alex Reisner）獲得了Pile的另一個數據集Books3的副本，並於去年在【大西洋月刊】上發表了一篇文章，報告了他的發現：超過18萬本書被竊取，其中包括瑪格麗特·阿特伍德、麥可·波倫和紮迪·史密斯的作品。

此後，許多作家起訴AI公司未經授權使用他們的作品並涉嫌侵犯版權。類似案件如滾雪球般越滾越大，托管Books3的平台已將其下架。

針對這些訴訟，Meta、OpenAI、彭博社等被告辯稱，他們的行為構成了合理使用。原告主動撤回了針對最初抓取書籍並公開的EleutherAI的訴訟。

其余案件的訴訟仍處於早期階段，授權和付款問題尚未解決。The Pile已從其官方下載網站刪除，但仍可在檔共享服務上獲取。

「科技公司一直粗暴地對待我們。」消費者保護律師、DiCello Levitt律師事務所合夥人艾米·凱勒（Amy Keller）說，她曾代表創意人士提起訴訟，指控他們的作品在未經同意的情況下被AI公司竊取。

「人們擔心自己在這件事上別無選擇，」凱勒談道，「我認為這才是真正的問題所在。」

三、「如麗學舌」

許多創作者對於未來的道路感到迷茫。

全職YouTube博主會巡查其作品是否被未經授權使用，並定期發送刪除通知，有些人擔心，AI生成與他們的作品類似的內容只是時間問題。

【大衛·帕克曼秀】的創作者帕克曼最近在瀏覽TikTok時看到了AI的威力。他偶然發現了一段被標記為塔克·卡爾森剪輯的視訊，但當帕克曼觀看時，他大吃一驚——這段視訊聽起來像卡爾森的，但逐字逐句都和帕克曼在YouTube節目上說的一樣，甚至連節奏都一樣。

同樣讓他感到震驚的是，只有一位視訊評論者似乎意識到這是假的——一個語音複制的卡爾森聲音讀了帕克曼的劇本。

「這會是個問題，」帕克曼在一段有關假貨的YouTube視訊中說，「基本上你可以對任何人這樣做。」

EleutherAI創始人希德·布雷克（Sid Black）在GitHub上寫道，他使用指令碼建立了YouTube字幕。該指令碼從YouTube的API下載字幕，方式與YouTube觀眾在觀看視訊時瀏覽器下載字幕的方式相同。

根據GitHub上的文件，布雷克使用了495個搜尋詞來篩選視訊，包括「搞笑視訊博主」、「愛因史坦」、「黑人新教徒」、「保護性社會服務」、「資訊戰爭」、「量子色動力學」、「賓·夏皮羅」、「維吾爾族」、「果食主義者」、「蛋糕食譜」、「納斯卡線條」和「地球是平的」。

盡管YouTube的服務條款禁止透過「自動方式」存取其視訊，但超過2000名GitHub使用者已收藏或認可該程式碼。

機器學習工程師喬納斯·德泊伊克斯（Jonas Depoix）在GitHub上的討論中寫道：「如果YouTube想要阻止該模組執行，他們有很多方法可以做到。」他在GitHub上釋出了布雷克用來存取YouTube字幕的程式碼，「到目前為止，這種情況還沒有發生。」

在給Proof News的一封電子信件中，德泊伊克斯稱，自從幾年前他在大學期間為一個計畫編寫了這段程式碼後，他就再也沒有使用過它，他很驚訝人們竟然覺得它很有用。他拒絕回答有關YouTube規則的問題。

谷歌發言人傑克·馬龍（Jack Malon）在回復置評請求的電子信件中表示，該公司「多年來一直采取行動，防止未經授權的濫用數據抓取行為」。他沒有回答有關其他公司使用這些材料作為訓練數據的問題。

AI公司使用的視訊中，有146個來自「愛因史坦如麗」頻道，該頻道擁有近15萬訂閱者。非洲灰如麗的飼養員瑪西婭不願透露自己的姓氏，因為擔心會危及這只著名鳥類的安全。她說，起初她覺得AI模型竟然能記住一只模仿如麗的話語很有趣。

「誰會想用如麗的聲音？」瑪西婭說，「但我知道他說得很好。他用我的聲音說話。所以他在模仿我，然後AI在模仿如麗。」

一旦被AI吸收，數據就無法被遺忘。瑪西婭擔心她的如麗資訊可能會被以各種未知方式利用，包括建立一只數位復制如麗，她擔心的是，這只如麗可能會罵人。

「我們正在踏入未知領域。」瑪西婭說道。

來源：Proof