科技巨頭被曝未經授權用 YouTube 內容訓練 AI，蘋果、輝達在列

2024-07-16科技

IT之家 7 月 16 日訊息，據 Wired 報道，包括蘋果在內的一些科技巨頭未經 YouTube 影片創作者同意，就使用了他們影片的字幕檔來訓練人工智能模型。

IT之家註意到，此次事件影響到的創作者包括知名科技博主 MKBHD (Marques Brownlee)、MrBeast、PewDiePie、以及脫口秀主持人史帝芬科爾伯特、約翰奧利弗和吉米坎摩爾等。這些被用於訓練 AI 的字幕檔相當於影片的文本轉錄內容。

調查記者披露，一些世界上最富有的科技公司一直在利用來自成千上萬個 YouTube 影片的素材來訓練 AI，而這違反了 YouTube 禁止從平台上未經特許抓取內容的規定。據悉，超過 17.3 萬個來自 4.8 萬個頻道的 YouTube 影片字幕檔被用來訓練人工智能模型，其中就包括蘋果、輝達、Salesforce 等矽谷巨頭。

據報道，下載這些字幕檔的是一個名為 EleutherAI 的非盈利組織，他們聲稱其目的是幫助開發者訓練 AI 模型。雖然 EleutherAI 的初衷可能是為小型開發者和學術研究者提供訓練材料，但該數據集也被蘋果等科技巨頭使用。

根據 EleutherAI 釋出的一篇研究論文，這份數據集是他們釋出的名為「The Pile」的大型數據集的一部份。「The Pile」中的大部份數據集都是公開的，任何擁有足夠儲存空間和計算能力的人都可以存取。除了科技巨頭之外，一些學者和開發者也使用了該數據集。然而，蘋果、輝達和 Salesforce 等市值數百億甚至數千億美元的公司也在他們的研究論文和貼文中提到了他們如何使用該數據集來訓練 AI 模型。

有檔顯示，蘋果在 4 月份釋出了備受關註的 OpenELM 模型幾周之前，就使用了「The Pile」進行訓練。而 OpenELM 模型的釋出恰逢蘋果宣布將在 iPhone 和 Macbook 中加入新的 AI 功能。

需要註意的是，蘋果自己並沒有下載這些數據，而是由 EleutherAI 完成的。因此，從技術層面來說，是 EleutherAI 違反了 YouTube 的使用條款。

盡管蘋果和其他公司可能使用了公開的數據集，但此事件凸顯了從網絡上抓取數據來訓練 AI 系統所帶來的法律風險。此前就曾出現過 AI 系統在回答小眾話題時抄襲整段文本的案例，當公司使用第三方編譯的數據集時，只會增加未經特許使用素材的風險。