2024年2月,Sora的橫空出世,讓許多大模型公司的春節都沒能過好。
「春晚還在重播,我們就在緊急拉群討論」,一家AI頭部公司員工對「市界」急切地說。看到Sora絲滑的體驗,連賣課博主都蜂擁而動,趕著上線教程,大賺一把。
誰能最快時間「復制」出國內版的Sora,更多人將目光放在了阿裏、百度、「大模型五虎」身上。但無人想到,拔得頭籌的會是技術表現相對「佛系」的快手。
6月7日,快手突然上線了文生視訊模型「可靈」(Kling),並可支持長達2分鐘的視訊生成。此外,與Sora至今仍在「期貨」階段相比,可靈一經公布便開放了測試,生成效果亦可圈可點。
「可靈是最近圈內,被討論最多的物件」,一位風投行業人士對「市界」說。據官方數據顯示:可靈上線一個月有超50萬人申請,已開放給超30萬使用者使用,生成了超700萬條短視訊。
可靈的意外火爆,不免讓字節有些尷尬。今年5月,字節也開放了文生視訊模型「即夢」測試,但效果在目前火爆的文生視訊賽道中,尚不具明顯優勢。
突然被曾經「忽視」的對手甩開身位,字節需要埋頭追趕。據鈦媒體報道,近期,字節跳動將AI大模型設為集團「P0最高級別」的方向。抖音、剪映等多個團隊也在抓緊研發AI視訊模型套用,預計將在近期公布。
1、做可靈,快、糙、猛多位開發者對「市界」表示,可靈的上線與亮眼表現,在行業內也算是個意外。
近日,「市界」以一段「黑貓」為關鍵詞,在可靈、即夢,以及智譜AI剛剛上線的「清影」中分別輸入了相同的提示:「下雨天的城市街道上空無一人,一只可愛的黑貓奔跑而過。它的眼珠是綠色,脖子上帶有黃色的項圈和鈴鐺,全身長著黑亮的長毛。視訊用攝影機的視角拍攝,地面的積水反射出黑貓的身影。」
在生成的三段視訊裏,可靈版雖然未能實作快速奔跑的效果,但視訊大致符合客觀規律。
與之對比,「即夢」版地面沒有積水,黑貓也沒有向前走動。「清影」版雖有積水,黑貓行走時,步態古怪,尾巴也出現了丟幀。
▲(圖片依次為可靈、即夢、清影)
據「矽星人」報道,可靈是快手花了3個月的時間打造的;團隊規模很小,僅有20余人,牽頭人是現快手視覺生成與互動中心負責人萬鵬飛,其大部份的研究方向為影像/視訊訊號處理、計算攝影和電腦視覺、減少Loss函式、視覺生成等。
可靈的前身,來自快手在2023年10月重新開機的一個不起眼的計畫「噗嘰」,這是一款將靜態圖片透過AI生成2s Gif表情包的工具軟體。今年3月初,快手內部開了一個小會,萬鵬飛的想法得到了快手高級副總裁蓋坤(於越)的肯定,迅速確定了將噗嘰作為預調研的產品。
據「矽星人」了解,「做可靈的時候,執行層面有個共識,就是快、糙、猛。」
可靈計畫開始不到一個月,就獲得了快手創始人程一笑的支持,將其視為公司戰略級計畫。蓋坤也常說:公司的卡都給你們用,公司全力支持。
數位人賽道創業者柯燃對「市界」分析道:「可靈的成功,很大程度上要歸功於快手積累的視訊數據素材。放眼國內,這方面可以與之一戰的也只有抖音。」
可靈風光的同時,字節顯得有些落寞。
雖然「即夢」5月9日便官宣上線;6月17日,即夢也作為首席AI技術支持方,在AIGC短劇集【三星堆:未來啟示錄】中亮相。但無論是在C端的表現,或是相較於快手7月13日上線的AIGC短劇【山海奇鏡】,即夢的聲量均不甚響亮。
7月17日,市場曾傳出訊息稱,字節將公布類Sora的文生視訊技術進展。外界也將其解讀為,字節要奮起直追,與可靈正面迎戰了。
但字節方面隨後向「市界」表示,該訊息並不準確。7月17日當日,「市界」註意到,活動更類似一場技術分享會。會議主要由豆包大模型視覺基礎研究團隊負責人馮佳時主持,並由字節研究科學家、機構學者等,做了整場的英語技術分享。
看起來,字節的「大招」或許還需要等些時日。
2、字節還沒回過神那麽,在最近如火如荼的文生視訊賽道裏,字節為何錯過盛宴;最近字節又在忙些什麽?
某種程度上,或許因為比起快手押註「可靈」,可以「一力降十會」。字節的大模型布局要更為復雜——而今年上半年,字節更重要的對手放在了騰訊與阿裏。
面對大模型,字節的步調已不可謂不「激進」。畢竟2個多月前,率先在行業內發起大模型價格戰的,正是字節。
5月15日,在字節跳動「FORCE原動力大會」上,字節推出了基於其自研豆包大模型的API服務。同時,火山引擎總裁譚待一步到位,亮出了「豆包」的最新價格:0.0008元/千Tokens,宣布這是低於行業99.3%的「地板價」。
彼時,字節的「發難」曾先聲奪人。據「市界」從多方了解,頭部玩家對字節的出擊缺少準備;各方雖感無奈,也只能被動追隨。
接下來幾天,阿裏雲、百度文心大模型、騰訊雲先後宣布,將旗下大模型推理輸入token以及API大幅降價。在此影響下,如今頭部大模型的C端呼叫,已幾乎悉數免費,行業也開始朝著下一個生態量級「卷」去。
據一家法律AI套用企業創始人向「市界」透露,API服務開放後幾乎沒有時間差,火山引擎的銷售人員就開始積極接觸客戶、推介產品。這也側面印證了,市場流傳的字節已將大模型標記為最高級別戰略的猜測。
▲(譚待於2024「FOECE大會」。圖源/火山引擎)
而最近,字節的「當家產品」豆包,增長得較為明顯。
據Questmobile數據顯示,截至2024年6月,在國內AIGC App中,豆包、天工、Kimi智慧助手、貓箱增長亮眼——其中豆包流量排名第一。
▲(圖源/QuestMobile)
與快手相比,字節如今更在意的,或許是從基礎大模型、到AI套用層的全生態競爭。此外,考慮到2021年才正式做雲的火山引擎,在巨頭雲廠商裏是「最年輕」的一朵。三年多來,火山雲也一直被視為雲市場的挑戰者角色。字節如何將基礎大模型、套用層、雲市場協同起來,更是一項綜合命題。
近日,據「光子星球」報道,字節「扣子」平台的大量使用者,正尋求如何將建立的智慧體、bot接入微信公號或小程式,討論十分活躍。
去年12月,字節在海外推出了AI套用開發平台「coze」。今年2月,國內版「扣子」上線。大量抖音體系商家,也希望從中迅速掘一桶金。
考慮到騰訊在今年5月才姍姍來遲,釋出了AI智慧體創作與分發平台「騰訊元器」。彼時,扣子的存取量已達到了233萬次。而截至目前,騰訊元器尚未打通小程式、公眾號、客服訂閱號微信系列生態。
畢竟當下,AI發展仍在早期階段。字節與騰訊一樣,都還需要花費大量時間教育使用者。爭奪AI時代的分發權,先聲奪人,或許是字節為了瞄準騰訊要做的更大功課。
3、後發制人,尚有時間站在行業層面,在當今互聯網中,最不缺內容流量、電商流量,以及資金彈藥的字節,即便短期在文生視訊中「落後」一步,從長期來看,仍具備後發制人的潛力。
用積極的市場策略追平落後身位、大力出奇跡,同樣也是字節的拿手好戲。
最近,瞄準阿裏,字節也在做整合大模型的工作。在剛剛過去的6月26日釘釘生態大會上,總裁葉軍宣布除了阿裏自家的通義外,還將把其余6家的第三方大模型裝入釘釘中。其中包含MiniMax、月之暗面、智譜AI、獵戶星空、零一萬物和百川智慧,涵蓋了國內幾乎所有知名的大模型創企,要「構建中國最開放的AI生態」不言自明。
而與釘釘玩法類似,字節旗下扣子平台除了支持自家的「豆包」外,還接入了通義千問、月之暗面、MiniMax等各大外部模型。6月14日,扣子還上線了「模型廣場」功能,支持使用者選擇匿名的兩個模型,根據生成內容的表現來為其打分PK。
此外,字節近期被曝光,對「AI+硬體」的探索正在加快,並不惜透過收購延攬人才。
據「Tech星球」報道,字節旗下的PICO從去年下半年開始在研發多個穿戴裝置,包括耳機和音響,這些裝置也將搭載AI。字節豆包團隊也有基於大模型軟硬體結合的探索,大模型軟硬體結合已經逐步在學習機、機器狗、機器人等硬體裝置上有所套用。
另據36氪報道,字節AI硬體「D線」負責人為李浩乾。後者為字節在今年3月份收購的OWS(Open Wearable Stereo,開放式可穿戴立體聲耳機)耳機品牌Oladance的創始人。另一條AI硬體條線「O線」的負責人也是字節曾收購公司的創始人,其向字節跳動技術副總裁洪定坤匯報。
而在文生視訊方向,面對賽道剛剛的火爆,包括字節在內的追趕者們,大家都還有時間。
近日,一位開發者告訴「市界」:「現在就是用可靈構構圖、減負工作流程,還不到完全用它創作的程度,所以也還沒有什麽依賴性。」
而在另一位開發者、短視訊AIGC博主的眼中,可靈還有不少最佳化空間:「靠可靈文生視訊不能保證虛擬人IP的一貫性。我一般都是用可靈圖生視訊的功能,相當於給可靈‘墊’一張圖,讓他在這個基礎上生成不同視角動態視訊,再拼接到一起,模擬運鏡的效果,實際上還是人操作的比重更大。」
國內某AI模擬交友產品的研發成員則講道:「現在的大模型套用市場,大家都在摸著石頭過河。怎樣商業化是一個太遙遠、太模糊的問題。但可以肯定的是,越多人用起來、玩起來,越能保證產品的最佳化叠代。」
(柯燃為化名)