智譜AI版Sora來了！人人免費不限次，有手機就能玩，API也開放了

2024-07-26科技

金磊發自凹非寺量子位 | 公眾號 QbitAI

就在剛剛，智譜AI 版的Sora橫空出世，名曰清影。

話不多說，直接來看一下透過清影生成的一部短片。

00:56

在文生視訊方面，例如給清影一段Prompt，可以挑戰一下它的想象力：

在霓虹燈閃爍的賽博龐克風格城市夜景中，手持跟拍的鏡頭緩緩推近，一個機械風格的小猴子正在用高科技工具維修，周圍是閃爍的電子裝置和未來主義的裝修材料。賽博龐克風格，氣氛神秘，4K高畫質。

00:06

賽博龐克、未來感味道十足，是比較貼近我們腦海中想象的那種畫面了。

而除了文生視訊之外，清影這次把圖生視訊的能力也一道釋出了出來。

現在，讓我們一同來比較一下你的想象力，和清影的創造力，到底誰更勝一籌。

請看第一張圖——洞穴文明：

然後下面這段視訊便是清影用AI Power創造並配樂的版本：

00:06

視訊的最後，清影竟然還學會了在關鍵幀處晃動下鏡頭，讓視訊更具神秘的味道。

接下來，我們再來Round 2，依舊是先一起來看圖——火龍吐息：

清影根據這張圖所制作視訊的開啟方式是這樣的：

00:06

是能想象到這條龍準備噴火，但是卻沒想到是燒了地上的村莊，不過也是合情合理的那種。

但縱觀智譜AI的整活釋出活動，高畫質、畫面一致性的效果還僅僅是亮點中的一隅，更重要的是它把福利值給拉滿了！

全民免費，不用排隊，不限次數！

而且效果上，更是直接把自家視訊生成大模型CogVideo 的能力馬力全開，不搞饑餓行銷。

據智譜AI介紹，僅需30s的時間，就能生成出6s的1440x960視訊，模型推理的速度足足提高了6倍之多。

不僅如此，現在在智譜輕言的PC版和APP 上，文生視訊/圖生視訊的功能都已經開放；小程式方面，目前則是暫時只支持圖生視訊。

對開發者來說也有個利好的訊息，這次視訊生成大模型的API 也已經全面開放了，是國內第一個哦！

不得不說，便捷和高效這塊，智譜AI這次也是拿捏到位了。

那麽接下來，是時候用智譜AI的視訊生成功能來搞事情實測一波了。

實測智譜AI版Sora

我們先來測一波文生視訊的效果。

開啟智譜輕言APP或PC版，文生視訊的入口就在主對話裏了。

以APP為例，界面是這樣的：

然後萬事俱備，只差輸入Prompt了。

但需要註意的是，這卻是決定視訊生成效果成敗關鍵中的關鍵。

一個最重要的原則就是：結！構！性！公式如下：

簡單公式：[攝影機移動]+[建立場景]+[更多細節] 復雜公式：[鏡頭語言] + [光影] + [主體 (主體描述)] + [主體運動] +[場景 (場景描述)] +[情緒/氛圍/風格] 那麽效果會差多少呢？

例如如果只輸入：小男孩喝咖啡，生成的結果是這樣的：

中規中矩，但卻是一眼AI的感覺。

但如果把提示詞按照公式豐富一下，那麽開啟方式就截然不同了：

攝影機平移，一個小男孩坐在公園的長椅上，手裏拿著一杯熱氣騰騰的咖啡。他穿著一件藍色的襯衫，看起來很愉快，背景是綠樹成蔭的公園，陽光透過樹葉灑在男孩身上。

視訊連結：https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

這不，電影感一下子就出來了。

但除了剛才的公式，還有幾個重要的原則也可以參考一下。

首先，重復就是力量。

在Prompt的不同部份重復或強化關鍵詞有助於提高輸出的一致性。例如，攝影機以超高速鏡頭快速飛過場景（其中的「超高速」、「快速」就是重復詞）。

其次，盡量讓你的Prompt集中在場景中應該出現的內容上。例如，你應該提示晴朗的天空，而不是沒有雲的天空。

有了這些公式和原則之後，我們就可以大展拳腳地嘗試一番了。

小王子和狐貍在月球一起看星空，狐貍時不時看向小王子。

視訊連結：https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

寫實描繪，近距離，獵豹臥在地上睡覺，身體微微起伏。

視訊連結：https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

除此之外，根據智譜AI的介紹，多試幾次，說不定會出現意想不到的效果（反正是免費的）。

在文生視訊之後，我們就再來測試一波圖生視訊。

這裏也有兩個比較關鍵的技巧。

首先就是上傳的圖片要盡量清晰，比例最好是3:2，格式方面則是jpg或png。

其次依舊是Prompt，一定要有主體，然後可以根據「[主體]+[主體運動]+[背景]+[背景運動]」這樣的公式來撰寫Prompt。

當然如果沒有Prompt也是可以的，但AI就會根據自己的想法天馬行空地生成視訊了。

例如我們「餵」一張唐僧的照片：

然後根據剛才給的公式技巧，Prompt如下：

唐僧伸出手，戴上墨鏡。

00:04

由此，玩法（搞事情）就變得多起來了。

例如讓甄嬛和沈眉莊「破壁」相擁：

甄嬛眉莊跨屏擁抱。

視訊連結：https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

老照片復活也不在話下：

胡適，轉身離開。

視訊連結：https://mp.weixin.qq.com/s/XmXR-XZtMvhZHtLTCxU4ZQ

從種種效果來看，智譜AI的清影，是一個可以拿來直接上手用的那種類Sora了。

那麽接下來的一個問題是：

怎麽做到的？

在視訊生成這個領域中，輸出內容的一致性和連貫性，是決定最終效果的關鍵因素。

為此，據智譜AI所述，團隊自研了一個高效的三維變分自編碼器結構（3D VAE），將原視訊空間壓縮至2%大小，大大減少了視訊擴散生成模型的訓練成本及訓練難度。

在模型結構方面，智譜團隊則是采用因果三維摺積（Causal 3D convolution）為主要模型元件，移除了自編碼器中常用的註意力模組，使得模型具備不同分辨率遷移使用的能力。

與此同時，在時間維度上因果摺積的形式也使得模型具備視訊編解碼具備從前向後的序列獨立性，這麽做的目的是方便透過微調的方式向更高幀率與更長時間泛化。

從工程部署的角度，智譜AI是基於時間維度上的序列並列（Temporal Sequential Parallel）對變分自編碼器進行微調及部署，使其具備支持在更小的視訊記憶體占用下支持極高幀數視訊的編解碼的能力。

但除了內容的一致性和連貫性之外，視訊生成還存在的一個問題是——現在的視訊數據大多缺乏對應的描述性文本或者描述品質低下。

為此，智譜AI自研了一個端到端的視訊理解模型，用於為海量的視訊數據生成詳細的、貼合內容的描述。

如此一來便可以增強模型的文本理解和指令遵循能力，讓生成的視訊更符合使用者的輸入，能夠理解超長復雜Prompt指令。

最後，智譜AI還自研的一個將文本、時間、空間三個維度全部融合起來的Transformer架構。

它摒棄了傳統的cross attention模組，而是在輸入階段就將文本embedding和視訊embedding concat起來，以便更充分地進行兩種模態的互動。

然而兩種模態的特征空間有很大差異，團隊透過expert adaptive layernorm對文本和視訊兩個模態分別進行處理來彌補這一差異，這樣可以更有效地利用擴散模型中的時間步資訊，使得模型能夠高效利用參數來更好地將視覺資訊與語意資訊對齊。

其中註意力模組采用了3D全註意力機制，先前的研究通常使用分離的空間和時間註意力或者分塊時空註意力，它們需要大量隱式傳遞視覺資訊，大大增加了建模難度，同時它們無法與現有的高效訓練框架適配。

位置編碼模組設計了3D RoPE，更有利於在時間維度上捕捉幀間關系，建立起視訊中的長程依賴。

以上便是智譜是如何煉成清影背後的關鍵技術實力了。

One More Thing

除了這次免費版之外，智譜AI還推出了付費版本，價格是這樣的：

5元：解鎖24小時的高速權益 199元：解鎖一年的高速權益年費換算一下，也就是每天僅5毛4 。

嗯，著實有點香。

體驗連結放下面了，感興趣的小夥伴可以去試試嘍~

https://chatglm.cn/video