猛攻AI，字節還有幾張牌？

2024-10-09科技

來源：伯虎財經V

來源 | 伯虎財經（bohuFN）

作者 | 楷楷

近日，大模型行業再掀「價格戰」，阿裏雲宣布旗下通義千，問的多款商業化再次大幅降價，早在今年5月，大模型行業已經進行了一輪降幅接近90%的價格戰。「百模大戰」行至此處，大家都清楚最終能夠留下來的通用大模型或不超過5個。

對於字節跳動（以下簡稱「字節」）這一「新晉」互聯網大廠而言，其在大模型領域的布局並不算早，其他大廠的大模型紛紛面世，字節的AI智慧助手「豆包」才姍姍來遲，但憑著「大力出奇跡」的拼勁，「豆包」已經成為了國內使用者最多的原生 AI 套用。

近日，字節再帶來了兩大新動作，一則，其在近日的AI創新巡展中一口氣釋出了視訊生成模型、音樂模型和同聲傳譯模型，全面覆蓋語言、語音、影像、視訊等全模態；另外，字節正在探索自己開發 AI 硬體，首款產品或是智慧耳機。

從大模型B端的價格戰，到大模型C端的套用創新，再到大模型生態的流量戰，字節在大模型行業不曾錯過任何一個「可能」，在大模型卷向下半場之際，字節手裏還有哪些「好牌」？

01 視訊生成賽道，字節後發而至

今年6月，快手自研的視訊生成大模型「可靈」正式上線；8月，字節旗下文生視訊套用「即夢」也後發而至。

9 月，字節旗下火山引擎更一舉釋出了豆包視訊生成-PixelDance、豆包視訊生成-Seaweed 兩款大模型，這兩款模型目前已在即夢 AI 內測版小範圍測試。

不過，從目前的輿論偏向來看，「即夢」生成的內容在某些特定的底圖和描述詞之下表現更佳，但更多時候，「可靈」視訊中的物體動態和光影會更自然。另外，二者生成的AI視訊風格顯然有著差別，「即夢」更擅長動畫風，而「可靈」則更影像風。

兩種風格孰優孰劣目前還不好說，但造成這種差異背後，並不只是大模型的技術原因，還跟字節與快手平台的布局有關。

一方面，快手在視訊生成模型有先發優勢。雖然「可靈」、「即夢」都是受到了SORA的啟發而「匆忙」面世，推出時間也相差不遠，但兩者在集團中的地位卻並不相同。

「可靈」源於快手於2023年10月就籌備的靜態圖片生成Gif表情包的工具，而快手董事長程一笑也將其上升為集團戰略計畫，並給予了最大支持。相較之下，在快手推出「可靈」時，字節還在忙著進行大模型價格戰，彼時其最重要的對手是阿裏、騰訊、百度。

今年5月，字節率先宣布旗下豆包通用模型的輸入價格降至最低為0.0008元/千tokens，並聲稱已經擊穿了大模型行業的最低價，隨後，阿裏、百度、騰訊紛紛跟隨，帶動大模型行業卷向「價格戰」。

幾家大廠官宣「降價」幾乎沒有太多時間差，【市界】曾透露，率先降價後火山引擎的銷售人員便開始積極接觸客戶、推介產品，由此可以推測，爭奪B端市場才是字節彼時的最高級別戰略。

而且，彼時豆包的勢頭也很好。根據QuestMobile數據，2024年6月在中國大語言模型套用中，豆包APP月活使用者達到2,750萬，排名第一，相較之下，字節套用層的其他AI套用如貓箱、星繪等均存在感不高，誰是戰略重點也一目了然。

另一方面，兩者對視訊生成模型的布局有所不同。字節將「即夢」作為一個單獨的行動應用，獨立於視訊編輯工具剪影之外；而快手則選擇直接將「可靈」搭載於其視訊剪輯平台快影上，兩者使用的便捷程度有所不同，在使用者積累、生成視訊數量上自然也有差異。

據快手高級副總裁蓋坤披露，目前已有超過 260 萬人使用過快手的視訊生成大模型可靈 AI，並累計生成超 2700 萬個視訊。

而字節「即夢」目前尚未公布相關的使用者數據，不過在蘋果App Store的「攝影與錄像」下載量排行榜中，「即夢」排在第33，「快影」則排在第11。從生成視訊品質來看，根據博主闌夕的分享，在Meta的AI視訊論文裏，快手的可靈在主流競品的雙盲測試對比中基本是表現最好的那個，甚至好過了還沒公開的Sora。

但字節看起來似乎不算太著急，「可靈」在3個月內已經進行了9次叠代，而字節旗下火山引擎現在才帶來了兩款全新的視訊生產模型。

字節的「淡定」，或是因為按目前科技公司本身的算力儲備與資金實力來看，釋出一個大模型的難度並沒有想象中那麽高，關鍵是能否擁有高品質數據場景，以及能否擁有足夠的差異化。

從這點來看，快手與字節同為短視訊平台，兩者在文生視訊賽道都有著相同的視訊數據優勢。此外，字節還具有更龐大的短視訊使用者規模以及更多待挖掘的套用場景，因此，推動AI生態構建與擴容才是字節的當務之急。

02 AI+硬體，字節布局流量通道

近日，字節的另一新動作便是探索AI硬體。據【晚點LatePost】報道，字節正在探索將大模型與硬體結合，第一款產品或為智慧耳機。

早在今年5月，【36氪】曾報道稱字節正在加速AI硬體方向的探索，其中一條產品線為智慧耳機，在此之前，字節已經收購了耳機品牌Oladance。

字節在硬體方面的探索已是駕輕就熟。早在2018年，字節便收購了錘子科技堅果手機團隊和部份專利使用權，並釋出了堅果手機、TNT顯視器以及音箱等周邊產品。

不過，辦公硬體市場強敵環伺，於是字節從2020年開始聚焦教育硬體賽道，啟動了動「大力教育」品牌，並釋出了智慧學習燈、教育平板、詞典筆等多款產品。

只是，即便字節曾計劃以每年百億元的規模投資教育行業，但盲目跟風再加上「雙減」政策的影響，這次字節依然沒能「大力出奇跡」，目前大力教育官網也僅剩智慧學習燈一款產品的身影。

2021年，字節斥資90億元收購國內VR出貨量第一的廠商PICO，並在研發、行銷、營運等方面投入數百億元，但字節的「硬體野望」再一次破滅，去年PICO多次裁員，目前僅保留少部份硬體團隊。

但即便如此，字節還是「屢敗屢戰」，旗下豆包大模型目前已經與眾多硬體廠商展開合作，在5月的2024春季火山引擎 FORCE 原動力大會上，其展示了機器狗、學習機、學習機器人三款與 AI 硬體合作的產品。

在智慧終端方面，榮耀、OPPO等均宣布與豆包大模型達成合作；在智慧汽車聯盟方面，豆包大模型也先後與吉利、長城、蔚來、廣汽等多家車企達成深度合作。

事實上，「軟硬體協同」已在互聯網行業開發中經歷過數次輪回，比如PC電腦、智慧型手機、智慧穿戴、智慧家居等。在萬物互聯的趨勢下，硬體是軟體落地的載體，也是使用者流量通向生態的通道，而AI硬體的發展路徑，也不過是軟體側的平移。

因此，相中AI硬體的大廠也並不只有字節。據悉，美團正在研發一款名為「俏魚」的AI業務，並和兒童穿戴裝置廠商「小天才」達成合作；科大訊飛釋出了三款AI耳機，加碼AI辦公；百度、華為等在智慧終端早有布局的大廠，也在積極構建自己的AI硬體生態。

目前來看，各大模型廠商在AI硬體的布局還是略有雷同，教育、辦公、生活依然是AI硬體落地的主要場景。但對於大廠們來說，有了連線物理世界的入口，才能形成從內容到流量，到套用和硬體的閉環，這也是AI生態發展的基礎。

只不過，這一發展路徑也並非「萬試萬靈」，字節此前多次在硬體層面折戟，意味著硬體雖然是個「筐」，但不能什麽都往裏裝。

一方面，硬體的發展往往有自己的節奏，更容易受到市場成熟度的挑戰，單純透過軟體業務恐怕難以在短期內催熟硬體產品。以PICO為例，AR頭顯固然有足夠噱頭，但在穿戴不便、不適的問題難以解決之前，還是很難做到大量普及。

另一方面，硬體是服務於功能的，但在當前大模型套用拉不開差距的前提下，即便大量補貼硬體，使用者也不見得願意只為「某個軟體」付費，這也意味著大模型企業必須要把套用打磨得足夠差異化，才能跑通AI+硬體的模式。

所以，硬體雖然是流量的載體，但也不僅只是「載體」，硬體要能夠為大模型提供更便捷的呼叫觸點，給使用者帶來更便捷的呼叫形式，這才是「軟硬融合」的契合點。

03 虎口奪食，字節也在整合生態

當然，字節能否在AI硬體領域上再進一步，目前仍有待市場測試，但可以肯定的是，字節的野心並不只在此處，目前，其也試圖與阿裏、百度等大廠短兵相接，搶奪AI生態話語權。

除了進一步提升大模型能力、打磨AI套用，以及推出AI硬體之外，字節還推出了智慧體開發平台「扣子」以及 AI 編程助手「豆包MarsCode」。

在B端市場，火山引擎總裁譚待表示，豆包大模型已經在其內部的50多個業務中進行了真實的實踐驗證，同時還在30多個行業外部企業實作深度共創，自今年7月釋出以來，平均每家企業客戶日均Tokens使用量呈22倍的速度增長

雖然，字節並非傳統的「BAT」巨頭，甚至旗下豆包大模型還比其他大廠的模型晚到了幾個月，但如今字節也在按照自己的節奏布局AI生態，其也有自己的牌面。

首先，得益於字節豐富的業務場景積累，其能夠更好打磨大模型套用。目前，字節的業務場景涵蓋了短視訊、社交媒體、線上教育、電商等眾多領域，這些多元化的業務場景為豆包大模型的研發和訓練提供了海量的數據和豐富的套用場景。

事實上，字節在大模型領域的打法策略也與其他大廠略有不同，其更看重C端的體驗，更傾向先打磨C端產品，等到模型能力具備有利競爭後再拓展B端市場。

這或許也跟字節在C端場景的布局有關，畢竟旗下的大模型乃至AI產品，終究要優先服務於旗下的抖音、今日頭條等流量型APP，但這也讓字節在多模態大模型領域走得更快。

其次，流量也是字節的優勢。如果說AI生態的構建需要創作者和使用者雙方流量的共同註入，那麽字節的AI生態在使用場景和流量引入方面顯然也更具優勢。

據Unique Capital報告顯示，今年7月，字節旗下CapCut和Doubao在全球人工智慧套用下載超越了OpenAI的ChatGPT，斬獲全球第一。

字節旗下抖音、今日頭條等明星產品已經成為流量的重要入口，透過龐大的使用者規模和精準的數據分析能力，字節也能進一步提升大模型的使用體驗，並進一步發展多模態大模型。

近日，字節旗下火山引擎除了釋出了視訊生成模型、音樂模型、同聲傳譯模型三款新模型外，還對通用語言模型、文生圖模型、語音模型進行了全面升級。

不過，字節充沛流量支持背後，其也要付出不少代價。有業內人士透露，豆包大模型僅在6月上旬，就投放了超過一億元的廣告，而且在大模型的廣告戰中，抖音完全傾向了自家大模型，這意味著字節也在用抖音的廣告收入來換取豆包的使用者增長。

「流量」固然是字節獨有的「好牌」，但「燒錢換增長」這樣的套路卻難以持續，字節在跑馬圈地後如何快速轉化並找到能落地的商業模式，將會成為字節AI生態發展的關鍵。因此，火山引起釋出兩款豆包視訊生成模型時，譚待才會表示「從一落地就開始考慮商業化」。

最後，則是在「雲服務」市場的加速發力。對於深入B端服務市場的企業而言，雲服務無疑是互聯網行業最為重要的賽道之一。據Canalys預計，2026年中國的雲基礎設施市場規模將達到850億美元，五年復合年增長率為25%。

但在B端市場，字節要面對的則是阿裏雲、騰訊雲、華為雲等主流雲廠商，僅這三大雲服務商所占的市場份額就已經過半。

而且，阿裏、騰訊、華為等早已經找到各自擅長的細分市場，比如阿裏的零售行業；騰訊的文娛、金融行業，字節想在其中占據一席之地並不容易。

所以，字節當前「C端強，B端弱」的現狀，也會成為其在AI生態中快速落子的障礙，相較於阿裏、騰訊等大廠，字節很難依托現有業務領域在商用領域形成大模型套用的規模效應。

或是因為如此，字節才會在近年透過硬體拓展教育、辦公的不同垂直賽道，希望能夠找到新的突破點。

但如果字節想要繼續「大力出奇跡」，打破業界及客戶對於大廠生態的固有認知，光成為「實用主義者」還不夠，字節還需要找到屬於自己的套用賽道，拿出具有競爭力的優勢，成為更專業的大模型方案解決者，方能實作彎道超車。

在當下的大模型市場，無論是B端還是C端，每一條賽道都擠滿了競爭對手，「流量」這一招雖然厲害，但也不是無所不能，回歸到產品套用和生態建設之上，能否讓垂直行業開發者和套用者以更低成本、更低門檻獲得更接地氣的產品和服務，才是關鍵。