當前位置: 華文世界 > 科技

快手接棒Stability AI,Kolors領跑開源生態

2024-07-20科技

快手接棒Stability AI,Kolors領跑開源生態

它很有可能是在美國本土的玩家可以直觀地感受到的最大的文森特卡型號。

由快手旗下的一款名為「神畫」的遊戲,最近官方釋出了一個開放源碼的訊息,很快就掀起了一股熱潮。這個有才能的"藝術家"不但能作畫,而且對中國文化的精華也很有研究,不但能"畫",而且能"寫",所以他能很輕松地寫出漢字來。無論是影片還是教程,又或者是社交平台上的評論,在 Kotou上形成了一股熱議。

眾所周知, Kolors在產生效應上超過現存的諸如SD3之類的開放源碼模式,可以和商用封閉原始碼的Midjourney-v6相提並論。科樂思(Kolors)在處理復雜的文本時表現出了極強的視覺效果,其圖片紋理呈現出照片級別的紋理,並且能夠自動產生中文和英文的漢字。這樣一個功能強大且開放源碼的模式怎能不讓人激動呢?

在這一波 AI浪潮中,快手會采取一種審慎而又實用的方式。在不久前召開的國際人工智能會議上,拉瑟的巨型機器人系列第一個登場,並且公布了 Kolors作為一個開放源碼的程式,引發了相當大的反響。

這個 Kolors開放源碼的軟體包含模式權重,完整程式碼,以及科技報表。這是一款綜合性很強的軟件,可以透過 Huggingface平台以及 GitHub獲得。獨立開發人員可以自由地或經登記後用於商業用途。

Kolors的開源軟件在 Github上已經得到超過2,000個星星的支持。

同時,【Kolors】在 Huggingface網站的「模型潮流」榜單中排名第一,到發行前已經有上萬的下載量。

Kolors在開放源碼社區中引起的反響就是一個很好的例證。很多開發者在親身經歷過 Kolors的產生過程之後,對其進行了高度評價。

在 X平台上,由 Stability AI和 Huggingface這樣的公司的開發者領導著測試,宣傳和批準了 Kolors。

同時,該網站也獲得了大量的職業使用者,這些人都把推廣和改善 Kolors作為自己的使命。

Kolors的開放源碼版本由於它的卓越效能而受到了廣泛的註意。在 FlagEval圖表模式的第三方打分中,考爾斯的主觀得分為75.23,排在封閉來源模式DALL-E3之後,位列世界第2。其中, Kolors在圖片的主觀品質上尤其出色,獲得了1個點,遠遠超過了其它開放源碼和非開放源碼軟件。

Kolors在50名人臉影像專業人士的評測中也獲得了相當好的評價,它比許多開放源碼軟件都要好,可以和Midjourney-v6媲美,而且在視覺效果上也處於領先地位。

Kolors采用了隱蔽的傳播模式,並采用了一種全新的大語種模式來展示文字。這樣,考爾斯就可以看懂那些很長很復雜的文字了。同時,它也提供了中文和英文兩種不同的語言環境。另外, Kolors采取了兩級遞進的教學方法(觀念學習與審美提升),使其在視覺美感與視覺品質上居於世界前列。

1

對復雜文字有很強的理解

Kolors采用大規模語意建模方法對文字進行特征表達,構建了一個高質素的圖文描述庫,有望在對復雜文字的理解上有所突破。以下圖片顯示,從一件黑色的皮衣到一副時髦的太陽鏡,再到一條鮮艷的紅色裙子,再到鮮艷的口紅,柯爾斯都能準確地描繪出一名中國婦女的每一個要素。考爾斯在處理文森特模型上的顏色混亂方面也做得很好。該方法可以在多人、色彩的情況下,精確地描繪出該模型,並將文本的說明轉換成可視表達。

一名中國時尚女士漫步在上海大街上,身著黑色皮夾克,紅色長裙,挎著黑色雙肩包,墨鏡,塗著紅色口紅,顯得很是瀟灑。那孩子帶著深綠色的帽子,穿著一件藍運動衫和一件黑大衣

柯羅是萬森納公司自己設計的一款大型號,在對中國特有的要素的把握與刻畫方面,有著卓越的造詣。在北京奧林匹克地標"鳥巢"、上海當代都市風景"外灘"、中華文化"天壇"、"長城"這些具有代表性的文化符號,柯洛先生都能很好地詮釋並描繪出中國的文化,見下表。長城,這是中國文化的標誌,畫的很精確,也很詳細。

1

對中文文字的創造提供了支助

其中一個主要的功能就是它對漢字自動產生的能力。第三代和第三代都提供了英文文字的產生,而柯羅也是首款具有中文文字自動產生功能的影像模式。

經過對「可托」公司的實測,「可托」中文字型的表現,已是令人驚嘆不已。它不但可以精確地畫出一些比較少見的漢字(例如: silent),而且也可以實作中文和英文的同步渲染,並且具有較強的貼合力。

柯羅可以應付復雜的SD3提示。它可以精確地提取並重現線索的具體數目、確切位置、豐富顏色、英文漢字、中文漢字及數碼等多個方面的復雜性特征。

借助大規模的語言模式,科爾斯看來有一顆"大腦",它可以對人類的言語進行深度的剖析,從而可以迅速地了解和精確地完成各類復雜的視覺化編寫命令。這證明 Kolors有很強的理解復雜的語意。

1

相片品質影像材質

在海量的訓練樣本和最佳的學習方法下,柯羅可以產生高品質的圖片。

考爾斯的訓練包括兩個部份:觀念的學習與品質的調整。首先,柯羅透過大量的圖片文字對來學習不同的技巧。之後,研究小組利用高品質且美觀的資料來調整該模式,改善影像的品質與美感。此外, Kolors還提出了一種新的雜訊加入方法,以改善對高分辨影像的辨識能力。這一系列的改進極大地改善了利用此方法所產生的影像品質與視覺上的影響,使得柯羅影像呈現出照相水準的紋理。

1

深度商業情景

Kolors以其開源的優秀模型而受到世界各地的重視。Kolors的文字轉影像的能力已經被 Racer旗下許多商業單位所采納。

比如,「虛擬知識產權圖片客製」,可以讓使用者按照特定的需求,生成一個既能滿足使用者需求,又能滿足使用者需求的、個人化的、最優的虛擬圖片。這款軟件不但提升了創作的速度與品質,也為創造商標與個性創造出新的可能。

Kolors在創造圖片的時候,可以保留使用者唯一的臉部特性,並且可以使用人像 ID儲存功能來創造各種不同的人像。在遊戲中,使用者可以在各種類別的人物之間隨意轉換,如卡通、油畫、賽博龐克式等等。這既可以滿足玩家多元化、個人化的表現需要,又可以進行多種風格合成、個人化誇張的面部表情以及個人化畫像等多種玩法。

有了 Kolors,使用者就能在一個虛擬的場景裏嘗試不同的服飾及配件,並且能即時地檢視試穿結果。這項特性不但可以提升消費者的消費經驗,而且可以提升品牌的影響力與魅力。商家能夠按照使用者的個人化要求,自動生成各類商品影像及展示資料,使得市場推廣更為精確,從而達到「千人千面」的商品素材生成。

1

在 SD以後, Kolors獲得了開源的遺產

在開放源碼社群中, Stability AI近來發生了巨大的變化。埃馬德-莫斯塔克(Sturance)的創立者及 CEO在三月宣布辭職,隨後公司高層及主要技術人員相繼離開,並有傳聞說公司打算"出售",人們開始擔憂它是否會成為穩固 AI系統的最後一支舞蹈。Stability AI的謝幕雖然在開放源碼社區受到沈重打擊時,作為一個開放源碼的解決方案, Kolors仍然是一個新的熱門話題。

開源 Kolors不但在效能上超過了開放源碼的 Stable Diffusion 3,還同時提供了中、英、漢兩種語言的自動繪制功能,其圖形品質已達世界先進水準,完全可以與市面上的封閉原始碼相比。此外, Racer還表示,公司致力於開放源碼,並將逐漸開放 Kolors的相關軟件,如 ControlNet, LORA, IP介面卡等,拓展其開放源碼生態。

另外,我們很開心的發現很多開發商都在使用 Kolors開發的軟件。我們有信心透過開放源碼社區的合作,使 Kolors的開放源碼環境變得更加完美。

總體而言, Kolor的開放源碼顯示出快手所持的開放姿態以及對人工智能科技的科技力量。我們期望透過開放源碼,推動萬森納大型模型研究領域的快速發展,並為企業及開發者們提供強有力的軟件和軟件。在將來,更多的企業和開發商開始采用 Kolors,我們可以預見,在 WyntMap的大型模型領域,會有一個新的增長機會。

如今,隨著人工智能的興起,尖端科技的光芒越來越耀眼,越來越多的科研院所對此充滿了熱情和迫切。不管是大語種模型也好,產生型人工智能也好,都是科技的終極目標。唯有能站在行業前沿,把精力放在真正的問題上,這樣的企業,才會在未來的歲月裏繁榮起來。

拉澤公司在大規模的 AI建模方面一直保持著低調,高標準,以及開放的態度。他們沒有做過任何的買賣,也沒有做過任何的小動作。像 Kolors這樣的模式實際地解決了使用者與企業的需要,並且透過開放源碼回報社區。

縱觀整個網絡產業的發展歷程,每次科技創新都離不開其內容形式。由於產生型人工智能和推薦演算法之間的關系日益密切,因此,將大數據模式與短影片平台相結合是未來兩種技術發展的必然趨勢。Kolors的開放源碼以及在市場上的套用為我們提供了一個良好的開端,現在是時候看看 Shutterstock是否能夠把握這個機會,帶來一次變革。

1

再來點別的。

現在,「大樣版」的所有功能都被整合進了「科靈」,一般的使用者都可以在「科靈」的官方網站以及「科靈」公眾號的微信公眾號上,都是免費的。