Stability AI釋出新一代影像生成模型：Stable Cascade

2024-02-17科技

近日，全球領先的AI研究實驗室Stability AI震撼釋出了一款名為「Stable Cascade」的全新一代文本生成影像模型。

這款基於創新Würstchen架構研發的模型，以其卓越效能與極致效率顛覆了現有文生圖技術的認知邊界，引發了業界廣泛關註。

在官方釋出的新聞通稿中，Stability AI明確指出，Stable Cascade旨在將高端影像生成能力引入消費級硬件平台，允許使用者在常規器材上進行便捷的訓練與微調操作。

相較於當前市場上的主力產品SDXL，Stable Cascade在整體效能和生成圖片內容質素方面均實作了顯著提升。

據了解，Stable Cascade的獨特之處在於其新穎的數據處理流程。

當接收到使用者輸入的文字描述時，該模型會將其轉化為一組24x24像素的小型數據集合，隨後透過解碼這些微小影像單元進而生成高分辨率的最終影像。

這種模組化設計使得模型能夠在每個步驟獨立運作，並能夠針對特定環節進行靈活而細致的最佳化訓練。

更值得關註的是，Stable Cascade因其「模組化」設計理念，在保持輸出質素的同時，大大降低了對視訊記憶體資源的需求。

官方宣稱，即便僅配備20GB視訊記憶體，此模型也能流暢執行，從而為更多開發者和普通使用者提供更為親民的使用環境。

Stability AI進一步對比展示了Stable Cascade與其他業內主流競品如Playground v2、SDXL、SDXL Turbo以及Würstchen v2的效能差異。

據稱，無論是在提示詞對齊精度還是生成圖片細節豐富度上，Stable Cascade的表現幾乎獨占鰲頭。

原圖

重建影像

尤其引人註目的是，盡管Stable Cascade的最大模型參數量較Stable Diffusion XL增加了14億之多，但推理速度仍展現出令人驚嘆的優勢，實作實質性的突破。

綜合以上比較，Stability AI堅信Stable Cascade在架構設計層面已經達到了一個嶄新的高度。

它不僅保持了高質素影像生成的標準，還在此基礎上成功地提升了推理效率，為文生圖技術領域樹立了新的裏程碑。

隨著Stable Cascade相關數據及程式碼已在GitHub上公開（僅供非商業用途），這一革命性的技術創新勢必將引領新一輪的文生圖套用熱潮，並激發全球範圍內的AI研究者們繼續探索這一領域的無限潛力。