美AI巨頭頻陷非法數據收集爭議

2024-03-22科學

本報駐美國、德國特約記者馮亞仁昭東本報記者王冬 ●甄翔
「有許多專家相信，Open AI公司在使用公共視訊網站的數據訓練其大模型。」美國「商業內幕」網站18日刊文稱，這家業界領先的人工智慧（AI）初創企業獲取數據的方式正在引發爭議。不只是Open AI，近期美國多個頭部科技企業遭遇類似爭議。訓練人工智慧大模型的數據來源是否合法？如何界定企業使用公眾數據的邊界？都成為未來各國完善人工智慧法規需要認真考慮的問題。
Open AI遭遇質疑
「商業內幕」網的文章以Open AI公司旗下大火的人工智慧視訊創作工具Sora為例稱，Sora的訓練依賴海量數據，這些數據很可能搜刮自谷歌旗下的YouTube視訊網站，而這已經幾乎是公開的秘密。事實上，YouTube官方一直禁止使用自動化工具批次下載網站視訊的做法，也禁止下載YouTube視訊用於商業目的，並采取限流等措施應對工具刮削。文章稱，目前尚不清楚Open AI是用了什麽樣的技術手段繞過YouTube的攔截。
美國【華爾街日報】近期采訪Open AI技術長公尺拉·穆拉蒂，在被問及公司使用什麽數據訓練Sora時，她回應稱「使用的是公開和被授權數據」。但被問及其中是否包括YouTube視訊內容時，她表示「對此並不確定」。
中關村資訊消費聯盟理事長項立剛20日告訴【環球時報】記者，人工智慧大模型分為通用大模型和垂直（行業）大模型。Open AI做的是通用大模型，會在YouTube等公共平台上爬取數據。圖片和視訊的版權往往較文字更為明確，更容易引發爭議。「比如，我拍的視訊、圖片就是我所創作的內容，但被整合到人工智慧大模型裏後，就成為後者的內容。這裏面有很多法律問題是需要解決的。」
當前，人工智慧賽道在全球持續火熱，眾多初創公司爭先恐後地收集高品質的數據訓練人工智慧大模型。「商業內幕」網援引熟悉Open AI營運的人士的話稱，該公司指派了一個「秘密團隊」來獲取訓練數據，公司內部也不會深究數據來源。互聯網界的各大玩家似乎達成某種「共識」——只要自身能抓取到別人的數據，也就默許其他玩家采取相同的做法。
在一些人看來，這樣的「共識」是狂飆突進中的人工智慧產業需要留意的一大隱患。「商業內幕」網的報道認為，生成式人工智慧的快速興起掀起了一場世界範圍內的技術競賽，在這個新領域中，什麽是合法的，什麽是合乎道德的，目前尚缺乏明確而成熟的規則。
「混亂」中推動監管措施變革
「商業內幕」網稱，人們對復雜的生成式人工智慧系統給公眾帶來的潛在危害有很多擔憂，公眾對這些人工智慧大模型從何處獲取數據、如何使用數據以及在涉及敏感資訊時是否采取保護措施知之甚少，科技公司不僅沒有告訴公眾太多資訊，甚至連自身都無法將這一過程徹底解釋清楚。
一段時間以來，美國多家業內頭部企業因人工智慧訓練數據來源而陷入侵權糾紛，甚至吃到官司。本月初，3名作家在美國加州對輝達公司發起集體訴訟，指控該公司的NeMo AI平台使用盜版文學網站素材訓練人工智慧的自然語言撰寫技能。早前，包括【冰與火之歌】作者在內的18名作家起訴Open AI侵權；【紐約時報】起訴Open AI和微軟非法使用其內容；在2023年，就有許多設計師起訴人工智慧繪畫軟體Midjourney和Stability AI未經授權使用其版權作品訓練人工智慧繪圖工具。美國娛樂遊戲網站IGN評價上述官司稱，這些案例或成為推動監管措施變革的關鍵。
面對外界越來越頻繁的質疑，一些巨頭對訓練人工智慧所用的海量數據來源諱莫如深。去年年底，兩名美國議員提出一項【人工智慧基礎模型透明法案】，要求所有人工智慧基礎模型都必須披露訓練數據來源、獲取數據的方式以及使用的演算法等。但這項法案何時能成為正式立法不得而知。
多國法規有待檢驗
中國經濟學者盤和林告訴【環球時報】記者，對於獲取訓練人工智慧大模型的數據，各國法規尚有分歧，甚至是一片空白。有些國家的法規更加傾向於資訊公開，有些國家的法規更加傾向於資訊保安。共識在於，選取數據不能涉及個人私密數據。如果企業爬取公共數據，需對數據進行處理以達到脫敏脫密。
項立剛告訴記者，中國去年在人工智慧大模型的管理方面出台了相關的條例。至於涉及智慧財產權的管理，需要在未來隨著人工智慧產品的完善和技術的發展進一步制定相關的法律和法規。
在管理人工智慧訓練數據來源方面，歐洲步子邁得較大。瑞士【一瞥報】19日稱，人們已經意識到，會有犯罪者透過網路數據進行非法AI創作，甚至還會出現勒索事件。歐洲議會13日以壓倒性票數透過【人工智慧法案】。該法案為人工智慧技術設定嚴格的規則，旨在確保人工智慧的使用不會侵犯人的基本權利，如私密、數據保護和非歧視等。歐盟官員將其稱為「世界上第一部針對可信人工智慧的全面、具有約束力的法規」。
盤和林表示，與美國不同，中國主流人工智慧大模型多基於企業內部數據進行訓練。美國是判例法國家，經紀商可能從數據平台購買數據，更多的則是從互聯網公開數據中爬取有用數據。包括社交媒體的所有資料。繼而對數據進行預標註和加工處理。「商業內幕」網認為，谷歌、Open AI和一些科技公司認為，在當前的「共識」下，即使使用受版權保護的內容進行人工智慧模型訓練是合法的，但這樣的訴求也有待得到監管機構或法庭的檢驗。▲