當前位置: 華文世界 > 科技

Midjourney地位不穩?AI繪圖又一黑馬出現,附4款產品一手實測

2024-08-25科技
一水 發自 凹非寺量子位 | 公眾號 QbitAI
AI圈,再次開卷影像生成。
一連串進展紮堆:
8月21日,Ideogram正式推出2.0版本,聲稱文本渲染能力更強。
沒錯,就是那個成立於去年8月,由谷歌AI繪畫4大牛集體離職創業的專案,曾獲得過一眾AI大佬投資。
此番Ideogram還公開叫板Flux,官方自信表示其人類評估明顯優於Flux Pro。
要知道,Flux由Stable Diffusion原班人馬打造,最近正在因生成以假亂真的TED演講「照片」而走紅各大網絡。
除此之外,一周前,谷歌正式放出了Imagen 3,在官方評估中,號稱表現優於DALL-E 3、Midjourney v6、Stable Diffusion 3等一眾繪圖模型。
或許是受刺激了(doge),Midjourney竟然也轉性了,在8月22日直接向所有使用者推出了免費網頁版。
這下有好戲看了!
既然大家都宣稱自己很強,那我們不妨把大家拉到一桌,來搞個面對面PK。
誰是最強繪圖AI?
先請出咱們的4位元參賽選手(全部使用網頁版):
1號選手:Ideogram 2.0。每天免費有10積分,1積分可以生成4張圖,每天最多生成40張圖; 2號選手:Flux.1。黑森林官方在Hugging Chat提供了免費demo(選FLUX.1 Schnell版本); 3號選手:Imagen 3。在Image FX上可以免費無限次使用; 4號選手:Midjourney。免費試用期一共只有生成25張圖的機會; 下面正式進入比賽環節。
黑猴子全翻車了
一上來,為了檢驗這些國外AI是否理解中文提示詞,咱們也來蹭一波當今頂流黑猴子的熱度。
prompt:遊戲角色,一只猴子,身披盔甲,頭戴鳳羽金冠,手上拿著一根金箍棒,站在一座懸崖之上。
不出意外,意外發生了……
相信大家一眼都被3號的大紅叉給吸引了。沒錯,同一提示詞下,只有3號Imagen 3拒絕了生成請求。
看到這兒,第一反應是我們的提示詞是不是觸發了版權保護。於是先刪掉了提示詞中的「遊戲角色」,結果還是提醒無法生成。
難道是谷歌Imagen 3不支持中文?於是又隨機換了一個更簡單的提示詞,這下倒是有圖了。
只不過結果一整個大錯誤,而且換了多個中文提示詞,最終都是一些毫不相關的紋路圖。
看來谷歌Imagen 3確實對中文提示詞不ok。
3號落榜之後,再看其他幾位,也只有1號Ideogram 2.0表現最佳。
2號倒還能看出國漫的影子,4號Midjourney則完全放飛自我了~(主打一個毫不相幹)
最後還是要表揚下Ideogram 2.0,精準命中了所有關鍵元素。
雖然不是本人心中想要的東西(想要黑神話),但提示詞還原度確實沒毛病。
是真人還是AI?傻傻分不清楚
接下來進入各位選手的舒適區——人像生成。
遙想當年,Midjourney以一張天台情侶合照火爆網絡;眼下,Flux更是以一組TED演講圖風靡全網……
究竟誰更勝一籌?答案馬上揭曉。
prompt:A young man with auburn hair, wearing a checkered shirt in teal and cream, captured with a 50mm lens for a vintage look. Rich colors, sharp focus, and a touch of retro charm.一位紅褐色頭發的年輕男性,身著藍綠色鮮奶油色方格襯衫,用50mm鏡頭捕捉復古風格。色彩豐富,焦點清晰,帶有一絲復古魅力。
先單看2號和4號,很明顯,Midjourney贏了!
從細節上看,2號Flux.1稍有偏差,衣服顏色多了兩種,這在一水的藍綠格子襯衫中尤為突出。
另外,一上來我們還發現了Imagen 3獨有的一個小亮點:在生成開始前圈出關鍵詞。
借著它完成的工作,我們正好可以檢驗幾位選手對關鍵元素(藍綠色方格襯衫、50mm鏡頭等)的還原程度。
可以看到,整體上幾位選手表現都不錯(除了2號),還原度較高且都看向了鏡頭。
而且,要不是這些都是本人親自用AI生成的,還真無法一下子辨認與真人的區別。(汗顏)
最後悄咪咪說一句,4號選手Midjourney顏值最高。
老大難:圖片顯示文字
成功騙過了所有人之後,是時候讓AI吃點苦頭了——
給圖片加文字。
這事兒一直都是個老大難,也成了檢驗AI生圖水平的標準之一。
話不多說,直接讓幾位選手制作一塊精美的廣告牌。請各位看官老爺自行帶入甲方爸爸角色。
prompt:A horizontal brass sign reading ‘Festive Season’ in a stylish script, encircled by pine and holly on a dark wood backdrop, with a close-up focus on the golden lettering.一塊水平黃銅標牌,上面以時尚手寫體寫著’Festive Season’,周圍環繞著松枝和冬青,背景是深色木材,特寫鏡頭聚焦於金色字型。
一眼掃過,是不是都還不錯,好像都高度還原了提示詞?
但是,一旦拿出甲方爸爸的犀利眼神,這2號可就藏不住了。
註意看,2號Flux.1偷工減料了,單詞「Season」少了一個字母「S」。
不過除了2號,其他幾位還是不錯滴,看來各家AI在文字渲染功能上都下功夫了。
所以接下來就是,蘿蔔青菜各有所愛,大家憑個人喜好做選擇。(私心投給了Midjourney)
對了,1號Ideogram這次型號升級還特意拿「文字渲染」功能做宣傳了,大家不妨多試試。
參考麥當勞,整點AI廣告
最近,麥當勞請了11個AI美女為薯條瘋狂打call,狠狠火了一把~
其實原理也比較簡單,無非是用AI生成不同角色宣傳薯條的圖片,再拼接成一個影片。
沒想到效果驚人,僅在推特一個平台,相關影片就獲得了近千萬瀏覽量。
掌握財富密碼後,咱們正式開幹,身為中國人,AI助農高低得走起~
prompt:Against the backdrop of a cyberpunk- style metropolis, a girl is promoting organic agricultural products in her hands.在賽博龐克風格的都市背景下,一位女孩正宣傳著手中的有機農產品。
很好,3號選手再次「擺爛了」。不過這波著實令人費解,提示詞既不是中文,也沒有明顯違禁的地方……
淘汰3號後,1號選手Ideogram 2.0帶貨種類最為豐富,大白菜、西紅柿、紫甘藍等應有盡有。
而且它是唯一一個打出文字招牌來宣傳有機食品的,看得出來相當賣力了~
另外,細看還能發現只有1號在盡力模仿真人,而2號和4號則完全走上了二刺猿。
u1s1,如果參考麥麥的廣告風格,這一次的短暫生成確實沒有達到理想效果。(希望更貼近真實一點)
但是,好在這幾個AI工具目前都可以免費用,多來幾次也不是不行,重點還是方法論。[doge]
別急著走,其實還有一個更靠譜的搞錢方法——
用AI輕松拿捏棚拍商業宣傳海報,省下請攝影師、場地和後期的錢不香嘛。
A sleek lipstick tube gleams against a backdrop of sophistication, highlighting the rich pigment and smooth glide. Evoke luxury with sharp focus and a hint of shimmer.一支光滑的口紅管在精致的背景前閃耀,突顯出濃郁的色澤和順滑的塗抹感。以銳利的焦點和一抹微光喚起奢華感。
考考大家,假如你要給身邊某位女性挑一只口紅,你會選哪只?(死亡考驗來了)
嘿嘿,所以有人選4號了嗎?
雖然4號Midjourney看起來灰常高級,但這個黑色可能有點小眾了。(慎選)
除了它,接下來表現最好的是3號Imagen 3,底下絲絨布料襯托出奢華感,且最重要的是,口紅質地很真實。
對比之下,1號和2號都顯得有點假,「塑膠感」撲面而來。
因此這一局,整體來說3號選手獲勝。
小結一下,整體而言4位元選手表現都非常不錯。中文提示詞下,黑馬選手Ideogram 2.0表現最好。
誰是Ideogram?
今年2月,Ideogram推出了1.0版本,短短半年時間,它再次前進演化上線了2.0版本。
事實上,Ideogram與谷歌可謂「沾親帶故」。
成立於去年8月,創始團隊中前4人都是谷歌文生圖研究Imagen論文作者。
CEO Mohammad Norouzi,論文共同一作,他在多倫多大學電腦科學博士就讀期間拿到了谷歌ML博士獎學金。
畢業後他加入谷歌大腦工作了7年,職位也一路升至高級研究科學家,主要研究的就是生成模型。
此外,他也是谷歌神經機器轉譯團隊的原始成員,Hinton團隊自監督對比學習框架SimCLR的合著者。
CTO William Chan(陳俊樂),論文共同一作,他先後就讀於加拿大滑鐵盧大學、卡內基梅隆大學。
他2012年加入谷歌時先做的機器學習廣告工程,後轉到谷歌大腦作NLP研究。
聯合創始人 Jonathan Ho,博士畢業於UC柏克萊,曾在OpenAI工作一年,後加入谷歌。
他除了是Imagen論文的核心貢獻者,還是去噪擴散模型奠基之作【Denoising Diffusion Probabilistic Models】的一作,這篇論文合著者中的Pieter Abbeel也是Ideogram AI的投資人。
聯合創始人 Chitwan Saharia,論文共同一作,本科畢業於孟買理工學院,2019年加入谷歌,在谷歌主要負責領導image-to-image擴散模型的工作。
創始團隊中的另外三人,Shayaan Abdullah曾是Twitter的機器學習工程師,於去年4月離職,後加入Ideogram AI。
Jacob Lu為軟件工程師,加入Ideogram之前曾在亞馬遜等公司任職;Jenny Lei是軟件工程實習生,加入Ideogram AI之前曾在谷歌實習。
可以看出,Ideogram由頂級擴散模型研究團隊組成,自成立之初便獲得了資本青睞。
Ideogram種子輪融資由a16z和Index Ventures領投,金額1650萬美元 (當時約1.2億人民幣)。
個人投資者中也不乏Andrej Karpathy、強化學習大牛Pieter Abbeel,GitHub聯合創始人Tom Preston-Werner等。
另外,今年2月,多方訊息傳出Ideogram進行了新一輪融資。
據稱成功籌集了8000萬美元(約57億人民幣)A輪融資,領投方為Andreessen Horowitz,其他參與投資者包括Index Ventures、Redpoint Ventures、Pear VC和SV Angel。
看來有錢、有技術的Ideogram無疑又是AI生圖領域的一匹黑馬。
卷,繼續卷。
Ideogram 2.0連結:https://ideogram.ai/t/explore
Midjourney連結:https://www.midjourney.com/home
Flux連結:https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
Imagen3連結:https://aitestkitchen.withgoogle.com/tools/image-fx
參考連結:[1]https://x.com/ideogram_ai/status/1826277550798278804[2]https://ideogram.ai/launch[3]https://x.com/AIandDesign/status/1826277963681370213— 完 —