Stability.ai團隊訪談：如何用SVD探索物理世界，激發創造

2024-02-16科技

今天，我將解讀 a16z的對Stability.ai的研究員Andreas Blattman和Robin Rombach的訪談「文生影片：人工智能生成的下一個飛躍」 。

Stable Diffusion（SD）與Stable Video Diffusion（SVD）技術簡介

Stable Diffusion是一種文本到影像的生成模型，允許使用者輸入文本提示，模型依據此生成相應影像。 這一技術基於擴散模型，影像生成領域取得巨大成功，其技術開發始於大學時期的一個團隊研究。Stability.ai作為一個多模態公司，專註於為各種模態（不僅限於影像和影片）提供基礎模型和模型權重，以促進進一步研究。

Stable Video Diffusion是SD在影片領域的延伸，公司首次嘗試將影像轉換為短影片片段。 擴散模型與其他生成模型不同，它們不將數據表示為序列化的標記，而是優先處理對人類感知重要的細節，這對影像和影片的生成尤為有利。 擴散模型近期的一個突破是能夠在采樣時使用更少的步驟，甚至降至單步采樣，大大提高了模型的效率和輸出質素。

自釋出以來，SD在效能、文本理解能力及空間構成方面取得了巨大進步。 僅透過輸入單一文本提示，這些模型便能精細描述並生成高度詳細的視覺例項，並且處理速度也大幅最佳化。 最近的DALL-E 3模型還進一步提升了這些方面。這些進步部份得益於模型的開源，促進了大量研究。

Stable Video Diffusion（SVD）模型：探索物理世界

SVD的研究和開發揭示了對物理世界深層次理解的追求。與影像模型相比，影片生成的挑戰在於模型需要學習和理解物理世界的基礎內容，如三維場景的構建、物體運動的連貫性，以及視角變化下的物體表現。影片模型加入了時間維度，極大增加了計算需求，但同時也為模型提供了學習世界物理規律的機會。

物理和機械工程的研究者們發現，透過影片生成模型，可以進一步探索和模擬物理世界的復雜性。這不僅是技術上的挑戰，也是對於 如何透過人工智能理解和預測現實世界 的深入探討。例如，影片模型能否推匯出物理定律，或者透過影像序列預測接下來的事件，都是研究的一部份。此外，將影片模型與語言等其他模態結合，可能為模型提供更加貼近物理世界的理解能力。

開發SVD模型的過程中，遇到的主要挑戰包括數據集的擴充套件、高效的數據載入等，尤其是在處理大規模高分辨率影片數據時的計算和儲存需求。

影像與影片模型研究的關鍵差異

影片模型研究相較於影像模型，面臨著由影片數據的高維度特性帶來的顯著挑戰。這一 額外的時間維度不僅增加了GPU或記憶體的消耗，也提升了對高通量的需求 。隨著GPU數量的增加，擴充套件和訓練的復雜性也隨之提升，包括訓練過程中的冗余管理以及硬件故障的概率增加。

在數據處理方面， 數據集的篩選和準備成為了一大挑戰 。為了訓練SVD，要先從已有的影像模型中 繼承空間理解能力 ，然後再透過訓練大量影片數據來學習時間維度上的知識，這包括 對運動和相機移動的理解 。為了細化模型效能，研究團隊在初步的大規模數據訓練之後，又對一個經過嚴格篩選的高質素小數據集進行了訓練，以進一步提升模型的輸出質素。

為了保持生成影片中三維物件的結構一致性，研究中強調了 多視角數據的重要性 。透過預訓練的影片模型，團隊能夠利用影片中包含的隱式三維知識，進而將模型微調為多視角合成模型，有效地利用了影片數據中的豐富資訊來解決之前依賴單一影像模型所難以克服的問題。

LoRA技術簡介

LoRA是一種輕量級介面卡，透過微調現有基礎模型的註意力層，實作對模型效能的細致調整。 這使得在專門的小數據集上，如只包含縮放或左右平移的影片，能以最小的代價調整模型以生成特定類別的相機動作。LoRA的套用展示了一種高效的方法，用於細化和增強基礎模型，如SD影片模型，使其能夠產生具有特定動作的影片內容，為影像和影片模型提供了豐富的創意可能性和動作控制的新途徑。

創造者如何利用新工具

對於創造者而言，新推出的SVD模型不僅僅是將靜態影像動畫化的工具，它開辟了 透過文字提示、LoRA介面卡或空間運動指導等方式精確控制影片內容創作的可能性 。這種控制力的提升意味著創造者能夠更個人化、更具創意地生成影片內容，實作快速合成，為使用者帶來類似即時反饋的體驗。模型的開源性質鼓勵社區成員積極探索和實驗，從而發現模型在處理運動表現、三維推理等方面的潛力。

創造者們被鼓勵嘗試將著名藝術作品「動起來」，比如讓梵高的【星夜】中的星星閃爍，或是將經典的靜態模因轉化為動態影片，這些為創造者提供了前所未有的創作工具和靈感來源，也極大豐富了內容的表現形式和觀眾的體驗。

未來的探索方向包括延長影片生成的長度，提升內容的連貫性，增加不同類別的運動表現，以及提高模型的處理速度以促進更廣泛的實驗。 此外，將多模態元素，如與影片動作同步的音軌，加入到生成的影片中，也是值得探索的領域。

行業基礎設施改進的願景

在人工智能領域，面對數據載入和處理的挑戰，更多的GPU和CPU資源可以在一定程度上緩解問題，但終極解決方案不僅僅在於硬件的增加。隨著技術的進步，尤其是在GPU的效能大幅提升後，數據處理和模型訓練的瓶頸逐漸顯現，這 促使研究人員尋找演算法上的創新來克服這些限制 。許多研究者和學生受到了SD模型等工作的啟發，看到即便在計算資源受限的情況下也能進行重要的研究。

面對資金和資源更豐富的實驗室的競爭，維持研究的優先級和時序成為挑戰。然而，這種 競爭環境也被視為推動AI領域發展的積極因素 。團隊精神和共同目標的追求幫助小型實驗室在這場競爭中保持活力，並對社區作出了有意義的貢獻。

Stability.ai團隊所倡導的開放合作精神，透過公開釋出研究成果，不僅促進了行業內的互助，也為全球的實驗室和研究人員提供了寶貴資源。 這種開放和共享的態度不僅是對行業的貢獻，也是激勵整個AI領域持續進步和創新的關鍵因素。

如果你覺得這篇文章對你有所幫助，歡迎點贊、收藏以及轉發分享。同時，請關註我，以獲取更多關於人工智能的最新資訊和見解！