哥幾個,國內的視訊生成套用,又上新了。。
就在今天,大家可能還沈浸可靈無法自拔的時候,國內的智譜 AI 上線了一個叫 清影 的 AI 生成視訊產品。
跟 Sora 類似的 DiT 架構,支持文生視訊和圖生視訊,生成一個 6s 的視訊大概需要 30s。別的不說,這生成速度放現在一眾視訊生成套用裏,確實拿得出手。
看官方給的 demo,這解析度,還有這水花和波紋,如果不仔細看可能真就讓AI給忽悠過去了。
不過這個嗎嘍打工,就差點意思了。手指敲鍵盤部份還有背景基本上都是變形的,但 這埋頭苦幹的樣子還挺符合打工人的形象。
主要這玩意兒現在是 免費 的,上線之後世超第一時間就測評了一波。另外,我們也有幸跟智譜CEO張鵬聊了聊,談了談他對於視訊生成套用和大模型的一些看法。
首先,咱還是先來看清影到底啥水平?
先是比較考驗提示詞能力的文生視訊,按照鏡頭語言+主體細節+光影的公式,世超隨意發揮了一把。
提示詞:
電影風格,從側面拍攝,鏡頭聚焦在面部,寫實描繪,夜晚,一個長發女人坐在公交車靠窗的位置,眼睛望向窗外不斷變化的模組屋,忽明忽暗的光線打在她的臉上,畫面彌漫著孤獨感
別的不說,清影的 提示詞中文友好 ,大概 20s 的時間就結束了,在生成時長上幾乎可以完勝大部份現役視訊生成套用。( 作為對比,可靈生成一個5s左右的視訊需要幾分鐘甚至更長 )
效果上,面部光影在隨著模組屋發生變換,還有過程中眨眼睛的細節,也很自然。特別是人物面部的一致性,6s 的視訊,幾乎沒有看到有變形的地方。
除了窗外的模組屋要扣分以外,已經算得上是一個 合格 的 AI 視訊作品了。
還有這頭獅子。
提示詞:
寫實描繪,近景特寫鏡頭,獅子盯著不遠處的羚羊,身體微微起伏,伺機而動
風吹著旁邊的狗尾巴草,身體上的起伏的確是有的,左上角已經出鏡的動物,非要說是羚羊也能圓過去。只不過這獅子的狀態不太像是要捕獵,更像午覺剛睡醒。
既然日常的場景還算得心應手,我們再換個天馬行空的試試:一條在隧道中自主飛舞的反光織物。
隧道、反光織物、自主飛舞,包括隧道裏的燈還有盡頭應該有的光,提示詞裏的要點清影基本都 get 到了,而且 生成的效果也十分絲滑 ,看上去真有點奇異博士懸浮鬥篷的意思。
繼續讓 AI 發揮想象力,看看什麽叫做「 五彩斑斕的黑 」。
測試到這, 清影文生視訊在生成速度上沒得說,對提示詞的抓取也基本上沒有出現遺漏, 但生成效果包括很多細節仍然有處理得不到位的地方。
就比如視訊中文字的生成不夠準確,把 「 SWEET 」 變成了一串亂碼。
提示詞:
The camera zooms in, and the background is pure yellow. An artistic billboard with the word "SWEET" written on it is wrapped in brown chocolate sauce, and the chocolate sauce slowly flows downwards.
理解不了物理世界規律 的毛病,也是屢教不改。最經典的,籃球在這位老哥手上,基本就是隔空在閃,看不出有一點彈力,不是我說,當年的【 籃球火 】就應該讓AI來拍。
提示詞:
鏡頭不動,傍晚,一個男人在球場拍打著籃球
當然,這些也都是目前視訊大模型的通病了,即便是 Sora 來 ,也難免會犯錯。
另外,圖生視訊這邊,我們同樣簡單測試了幾個。
像幼苗向上生長,打眼一看還挺符合植物生長規律。
世超還請 公司頂流火鍋 出來亮相了一波。前 3 秒的效果還湊合,就是這站起來之後,都快給咱鍋哥整出影分身了。
火鍋:溜了溜了
反正測試下來,世超對清影最大的感受,就是 生成速度對得起官方的宣傳。
至於生成效果,一些特定場景下確實讓人眼前一亮,但依舊無法完全解決,諸如理解不了物理規律等業內視訊大模型的通病。
智譜技術人員告訴我們, 他們的技術路線其實是循序漸進的。 大概意思是,從自然語言理解和生成指令遵循的抽象能力開始,再逐步將這種能力具體套用到圖片、視訊、聲音等不同模態上。
只不過這條技術路線,同樣也會受限於很多東西, 比如算力,還有數據。
一個是相比於大語言模型的文本數據,視訊需要的數據可能從這兩三年才開始收集、做標註, 能用的數據少之又少。
另外, 視訊數據的品質也不夠高。
高品質的文本封包括了文本的完整性、內容之間的邏輯性、用詞的規範性還有內容的知識性等等。換到視訊數據也一樣,甚至視訊數據裏包含的細節要復雜得多,像什麽視訊內容的豐富性,是不是高畫質,運鏡分鏡又是怎麽處理的。。。
簡而言之,視訊模型所需的數據數量少,獲取成本也更高。
由於底層的算力、數據,導致的視訊內容可控性、畫面閃爍和幀率等等一系列技術問題,即使是智譜,也認為 現在談視訊大模型的商業化,還為時尚早。
但話又說回來,今年視訊生成套用的接連湧現,也說明了一個問題:視訊生成的方向是可行的,現在大家勁兒往一處使,剩下只是時間問題。
而除了對視訊生成套用的探討以外,被稱為大模型四小龍之一的智譜,不光是在視訊生成上有所布局,如果熟悉國內 AI 圈的人可能聽說過,智譜幾乎是 全線在對標 OpenAI。
我們這次也跟智譜 CEO 張鵬聊了聊,他對於大模型行業的一些見解。
可能大家也知道,今年上半年技術派的 楊植麟 和市場派的 朱嘯虎 ,針對大模型行業發表了不同的觀點。楊植麟認為短期目標應該服務長期的 AGI 願景,而朱嘯虎則覺得目前 AI 行業的商業化和盈利更重要,這在當時還引發了不小的討論。
還有前陣子, 百度 CEO 李彥宏 提出「開源大模型將越來越落後」的觀點,也引發了熱議。
針對這些熱議話題,我們試著詢問了 CEO 張鵬 的看法。
從人工智慧這個學科產生到現在已經過去了將近七十年的時間,早期發展的速度可能會相對慢一些,最近幾年突飛猛進,相信大家已經感受到了。
當然很多人也預測人工智慧可能會就此緩下來,或者像技術成熟度曲線一樣,到達一個頂峰之後進入破滅期。但我們切身在研究這項技術的人會發現,其實目前仍然有很多的問題值得去探索。
有一些趨勢是很明確的,比如超級認知智慧、超級對齊、原生多模態技術等等。它們的泛化能力、對世界的理解,包括物理規律的理解等都有望達到更高的層次。
另外,智譜也在進行一些前沿探索,包括基於超級認知和超級對齊技術,多模態混合訓練的大模型( GLM-4.5 及後續升級模型 );人類的「無意識」學習機制,這項技術名為 GLM-zero,研究將進一步拓展人類對意識、知識、學習行為的理解。
「 我們的目標定在 AGI,這裏面每一個問題的突破都有可能帶來飛躍式的發展。」
看得出來,張鵬總雖然沒有直接對爭議發表觀點,但 AGI 的目標,毋庸置疑。
另外,在百模、千模大戰的背景下,大模型公司們究竟還應不應該一股腦地卷底層大模型?從智譜本身出發,張鵬總也發表了一些對於大模型同質化的觀點。
對於 「 百模大戰 」,在商業化方面,還是要打造分層生態圈,聯手踏實落地,避免 「 重復造輪子 」 的內耗。
如今,中國大模型賽道正在從擁擠走向分層。大部份技術進步大抵如此:新技術產生,大家一擁而上;當技術發展到一定程度,自然而然地會分層——有些人解決底層的問題,有些人解決中間的問題,有些人解決上層的問題,相對穩固而不是混亂的生態,大家互相促進。
我們希望做的,就是用通用智慧水平比較高的模型給大家賦能,智譜AI負責模型推理訓練、算力、適配等高復雜事項,行業和企業端則可以無壓力地部署套用,期待大模型的成果能夠更廣泛地套用於各個行業。
還有,就是所有大模型企業都無法繞過的一個問題, 商業化 。
短短兩年的時間,大模型就已經走到了價格戰的階段,但大模型落地究竟該做 To C 還是 To B,現在是否是大模型落地的最好時機,很多問題都等待著大模型公司們來回答。
2024年大模型套用將進入落地期,一方面垂直領域大模型的商業化套用正在加速,另一方面多模態大模型湧現,套用場景也將更加豐富。
智譜希望做的,就是能用通用智慧水平比較高的基座模型去賦能大家,讓大家去做行業套用。我們做好 L0 的層面,賦能夥伴和客戶做好 L1 和 L2。
真正能夠提供商業化服務的公司還是比較少的。從一個模型概念到一個能運作的模型,再到一個能商業化的方案,中間每一步都是巨大的跨越。
最後,世超想借用采訪中 張鵬總 的一句話來結束這篇文章: 「 至少我們現在還沒有看到技術的天花板 」。
撰文 :西西
編輯 :江江 & 大餅
美編 :煥妍