當前位置: 華文世界 > 科技

到處都能刷到的 AI 影片,真沒你想的那麽簡單

2024-10-18科技

「 疑似使用了AI 生成技術,請謹慎甄別 」

大家有沒有發現,這行小字有點像 「 廣告僅供參考, 請以實物為準 」 ,已經幾乎在生活中越來越常見了。

特別是現在的短影片平台。

刷到個小貓影片,口型是 AI 合成的。

刷個西遊記,也能看到 AI 妖精真身。

甚至看一個動畫片,畫面還總是 AI 合成的。

AI 影片越來越多了。

雖然掀起 AI 影片浪潮的 Sora 還在難產,但 AI 影片時代或許已經悄然而至。

東吳證券的一份研報裏就預測,中國 AI 影片生成的潛在行業空間,可能擁有超過 5800 億元的市場。

但隨著市場不斷火熱,行業的一些問題也逐漸暴露到公眾視野:

影片化和 AI 確實都是未來,但像是成本問題、質素問題、協同問題和效能問題,都縈繞在所有初創企業,大廠們的心頭。

就拿成本問題和質素問題為例。

大家都知道,目前的生成式大模型特別是影片,就是一個力大飛磚的過程,需要用海量數據進行訓練。

而超大規模影片訓練數據,又會對計算和處理數據、以及數據本身有著天量需求,隨之而來的成本增加是一個天文數碼。

GPT-4o 作為一個老款 AI ,開發成本 「 僅 」 為 1 億美元,訓練成本大概在 7800 萬美元左右。

而影片模型的訓練成本就更高了,以年初推出的影片模型 Sora 為例,其訓練和推理所需的算力需求,分別就達到了GPT-4 的 4.5 倍和近 400 倍。。。

除了天價訓練成本外,大模型訓練樣本質素、處理鏈路復雜,涉及多個環節,需要多團隊協作;自研 / 第三方, GPU 、 CPU 、 ARM 等多種異構算力資源,又需要靈活排程部署。。。

所以,對不少準備擁抱 AI 影片的公司們來說,當務之急就是想盡辦法,解決這些問題,才能更快地前進演化。

要論玩影片的高手,抖音和火山引擎可就有話說了。

上個月底字節推出的爆火的 PixelDance ,效果那是杠杠的。

我們當時還寫了篇文章專門給大家嘮了遍,就看我們簡單試用生成的影片效果,就知道還真有點東西喔。

而在 15 號結束的火山引擎影片雲技術大會上,開場用了客製數碼人 譚待 來和大家溝通。

結果效果好到,現場參會者們,不少都以為這是影片摳圖。

而這些高質素 AI 產出背後,其實離不開一個叫 BMF 的智能框架。

火山引擎透過和自家大模型團隊在內部合作,一起把海量的影片數據進行預處理。

最後基於火山引擎音影片處理平台和 BMF 框架,在短時間內生產了足夠多高質素的影片素材,用於模型的訓練,才有了 PixelDance 。

功臣之一的 BMF ,為什麽能夠做到這些呢?

我們用個生活中常見的例子來解釋:

一個公司開發大模型就好比你家做年夜飯。

為了吃上一頓豐盛的年夜飯,你爸爸負責買菜、媽媽燒飯、奶奶包餃子、你搬桌椅板凳。。。

所有人都得有分工,從頭忙到尾,可能還得時不時打個電話發個微信互幫互助,最後一算,好家夥,原來吃頓年夜飯還得花這麽多錢。

而 BMF 就是火山引擎推出的一個 「 年夜飯一鍵全流程套餐 」 ,它提供了一系列的工具和服務,幫你輕松、快捷地準備好年夜飯。

這個套餐重點針對性地解決了我們前面說到的 4 個行業痛點,進行了相應的調整。

比如為了解決影片訓練數據質素問題,他們掏出了多種演算法對影片進行多維度的分析和篩選,做到了充分精細化的過濾;

應對效能難題,他們又利用 BMF 框架的靈活排程,提前調配好了效能。

這就相當於準備年夜飯一早就做好了攻略,買菜交給了多多買菜送貨上門、燒飯找了五星級大廚專門掌勺、桌椅板凳安排了專門的小工打雜。。。

反正就是用了 BMF 這套框架,又便捷又省心又省錢。

搞定了企業這邊的需求,火山引擎也沒忘了大家夥。

如今,大家器材的算力不斷上漲,與之而來的就是對影片畫質提升的強烈需求。

火山引擎透過得天獨厚的優勢,每天在抖音 / 西瓜等 app ,面對上億使用者,處理海量影片圖片。

獲得了這麽豐富的經驗之後,火山引擎在 BMF 基礎上,沈澱出了一個更適合普通使用者體質的 「BMF lite」 ,實作了更輕量、更高效、更通用的前進演化。

比如相較於雲端,在使用者端側,對於功耗,記憶體非常敏感,而場景又涉及 Android 、 ios 、 PC 等多平台。

於是 BMF-Lite 就重點建設基於跨平台,資源復用的演算法包的框架設計。

簡單說就是統一了各個平台的介面形式,方便整合部署。

再用演算法控制器來復用相同的演算法例項,在抖音播放場景,點播跟直播播放大部份都是只會生效一個,可以最大程度地復用資源。

而除了 BMF 為代表的智能框架,火山引擎還提出了智能算力和智能編解碼。

火山引擎直接在去年掏出了一款自研影片轉碼芯片,將自研的影片編解碼技術融入到了裏面。

好處就是,針對影片點播、直播等特定場景,這款轉碼芯片有著更高的計算密度。

就這麽說吧,一套影片編解碼芯片伺服器的轉碼能力,相當於上百台 CPU 伺服器。

今天影片轉碼芯片上線抖音後,透過實踐數據表明, 在同等影片壓縮效率下,成本能節省 95% 以上。

而針對編解碼層,火山引擎推出了基於自研影片轉碼芯片構建的 「BVE1.2 編碼器 」 。

這個編碼器大膽融合了深度學習技術,推出了革命性的智能混合編解碼解決方案,將傳統壓縮技術與深度學習壓縮技術有機融合成為一個整體,極大地提升了編解碼的效率,提升了編碼效能。

在前不久結束的的第六屆深度學習影像壓縮挑戰賽( CLIC 大賽 )中, 「BVE1.2 編碼器 」 拿到兩個冠軍足以說明實力。

這一套小組合拳下來,感覺有興趣的廠商們,估計滿腦子都是 「 付款碼掃哪兒 」 ?

你還別說,火山引擎也的確沒打算藏著掖著。

像前面說的 BMF 框架,早在去年就已經開源了,更新完的 BMF lite ,也是直接開源。

總的來說,目前,大模型的前進演化還在持續,影片 AI 公司之間的競爭也只會日益激烈。

但如果大家只是閉門造車,互相拿成果比拼,用產品說話,可能會顯得競爭有余、合作不足。

而作為可能是全中國短影片玩得最熟練的字節跳動,他們旗下的火山引擎一次次地將內部技術、框架開源。

特別帶來的 BMF 框架以及它和智能算力和智能編解碼組成的一整套智能底座,的確能夠幫助企業們節約了大量時間和成本,更好地幫助 AI 專案落地發展。

這種競爭和合作共存的態度,才是中國 AI 最樂意見到的場面。

一枝獨秀難成林,萬紫千紅才是春。