當前位置: 華文世界 > 科技

為了給大模型找語料,有人開始進行「互聯網考古」

2024-04-30科技

過去一年,AI大模型無疑是科技行業中最亮眼的主角,從FAAMG到BAT、再到一眾初創企業,無數優秀的大腦、海量的資源都投入到了這個有望解放人類生產力的賽道中。圍繞構建更強大的AI大模型,科技巨頭、AI獨角獸更是展開了一輪又一輪的廝殺,對於演算法、數據、算力的爭奪如今也已達到了白熱化狀態,其中特別是數據資源更是成為了重中之重,畢竟沒有它來作為燃料,不光無法訓練更強的大模型、現有的大模型也可能會「熄火」。

為了收集更多的數據、或者說是語料來澆灌大模型,「買買買」就成為了一眾AI廠商的解決方案,例如谷歌每年花6000萬美元從Reddit手中買數據,OpenAI更是付費購買了施普林格出版集團旗下出版物的內容。眼見財大氣粗的AI廠商揮舞鈔票,越來越多的人也開始意識到了語料的價值。

日前照片分享社區EyeEm突然變更了服務條款,宣布將預設使用平台上的照片來訓練AI大模型。

據悉,EyeEm方面透過郵件通知使用者,該公司在其條款和條件中添加了一項新的條款,授予其"復制、分發、公開展示、轉換、改編、制作衍生作品、向公眾傳播和/或推廣"使用者內容的權利,包括用於培訓、開發和改進軟件、演算法和機器學習模型,使用者有30天的時間可選擇結束,否則就預設為同意這一用途,未來使用者想要從EyeEm及其合作夥伴平台上刪除內容可能需要長達180天。

一石激起千層浪,EyeEm此舉幾乎是將覬覦使用者照片的想法擺在了台面上。要知道,在當下這個使用者普遍重視個人私密的時代,用突然更改使用者協定的方式來表示自己準備將收集的使用者數據作為AI訓練的語料,就等於是直接與使用者交惡。

那麽問題就來了,為什麽EyeEm會搞出這種幾乎屬於自絕於使用者的操作呢?當然是因為身不由已。

成立於2010年的EyeEm,曾被視為全球知名圖片社交平台Instagram在歐洲市場的競爭對手,前者在最鼎盛時期曾擁有超過2000萬名活躍的優秀視覺創作者。並且與Instagram不同的是,EyeEm非常受攝影師的青睞,因為其推出了極具商業價值的Mission功能,可以讓品牌向EyeEm社區眾包照片,幫助平台上的攝影師賺到錢。

然而遺憾的是,EyeEm這樣一個將商業化與社區建設恰如其分融合到一起的廠商,最終還是被Instagram碾壓了。在Instagram被Meta收購後,前者借助Meta的社交網絡成功席卷全球,但與之相對應的是,2018年之後EyeEm就開始走下坡路,到了2021年,這家公司被瑞士社交網站Talenthouse以4000萬美元的價格收購。只可惜在Talenthouse手中的EyeEm也沒能起死回生,因為普通使用者並不需要兩個圖片分享社區。

到了2022年年中,EyeEm已經無法按時向攝影師支付報酬。隨後在2023年4月,EyeEm正式申請破產保護。同年10月,這家僅剩3名員工的公司,被西班牙線上平面設計資源網站Freepik收購。

顯而易見,在申請破產保護之後,EyeEm就已經只是一個空殼了,使用者規模也萎縮至15萬人。對於一個非技術導向、或者說產品導向的互聯網公司來說,從2000萬使用者衰退到15萬,也就意味著EyeEm已經無法說服使用者繼續使用他們的產品了。

Freepik之所以收購EyeEm,就是為了後者所擁有的1.6億張影像資源 。Freepik已然成為一個數據掮客,為了向AI大模型廠商出售語料資源,而買下了已經失去經營價值的EyeEm。從某種意義上來說,Freepik也算是獨具慧眼,發現了EyeEm這樣一家註定玩完的互聯網公司的剩余價值。

要知道自從進入新世紀以來,嘗試在互聯網行業進行創業的團隊不知幾凡,但畢竟Meta、X、Reddit這樣的成功者只是少數,更多的初創公司最終都成為了「炮灰」。只不過在這一眾失敗者裏,有不少是曾經煊赫一時的存在,但他們最終因為種種原因陷入了沈寂。而在AI大模型爆發以前,類似EyeEm這樣的失敗者其實是毫無價值的,因為它們的商業模式失敗了,競爭對手脫穎而出。

然而當下最火熱的AI大模型需要海量的數據來澆灌,在同等條件下,預訓練時投餵的數據越多,AI大模型的效能就越強,這已經是業界的共識。只是優質數據總歸是稀缺資源,根據人工智能研究機構epoch的預測,語言數據可能在2030至2040年耗盡,其中能訓練出更優效能的高質素語言數據甚至可能在2026年就被耗盡。在這種情況下,EyeEm這類沈澱了數據資源的失敗者,突然就變得有了價值。

因此有了Freepik的珠玉在前,未來可能會有越來越多公司去嘗試從互聯網創業的失敗者身上挖掘可能存在的數據資源,進而讓互聯網考古不再是部份網民的興趣,更有可能真正變成一門生意。