當前位置: 華文世界 > 科技

Stability AI釋出新一代影像生成模型:Stable Cascade

2024-02-17科技

近日,全球領先的AI研究實驗室Stability AI震撼釋出了一款名為「Stable Cascade」的全新一代文本生成影像模型。

這款基於創新Würstchen架構研發的模型,以其卓越效能與極致效率顛覆了現有文生圖技術的認知邊界,引發了業界廣泛關註。

在官方釋出的新聞通稿中,Stability AI明確指出,Stable Cascade旨在將高端影像生成能力引入消費級硬件平台,允許使用者在常規器材上進行便捷的訓練與微調操作。

相較於當前市場上的主力產品SDXL,Stable Cascade在整體效能和生成圖片內容質素方面均實作了顯著提升。

據了解,Stable Cascade的獨特之處在於其新穎的數據處理流程。

當接收到使用者輸入的文字描述時,該模型會將其轉化為一組24x24像素的小型數據集合,隨後透過解碼這些微小影像單元進而生成高分辨率的最終影像。

這種模組化設計使得模型能夠在每個步驟獨立運作,並能夠針對特定環節進行靈活而細致的最佳化訓練。

更值得關註的是,Stable Cascade因其「模組化」設計理念,在保持輸出質素的同時,大大降低了對視訊記憶體資源的需求。

官方宣稱,即便僅配備20GB視訊記憶體,此模型也能流暢執行,從而為更多開發者和普通使用者提供更為親民的使用環境。

Stability AI進一步對比展示了Stable Cascade與其他業內主流競品如Playground v2、SDXL、SDXL Turbo以及Würstchen v2的效能差異。

據稱,無論是在提示詞對齊精度還是生成圖片細節豐富度上,Stable Cascade的表現幾乎獨占鰲頭。

原圖

重建影像

尤其引人註目的是,盡管Stable Cascade的最大模型參數量較Stable Diffusion XL增加了14億之多,但推理速度仍展現出令人驚嘆的優勢,實作實質性的突破。

綜合以上比較,Stability AI堅信Stable Cascade在架構設計層面已經達到了一個嶄新的高度。

它不僅保持了高質素影像生成的標準,還在此基礎上成功地提升了推理效率,為文生圖技術領域樹立了新的裏程碑。

隨著Stable Cascade相關數據及程式碼已在GitHub上公開(僅供非商業用途),這一革命性的技術創新勢必將引領新一輪的文生圖套用熱潮,並激發全球範圍內的AI研究者們繼續探索這一領域的無限潛力。