猛攻AI，字节还有几张牌？

2024-10-09科技

来源：伯虎财经V

来源 | 伯虎财经（bohuFN）

作者 | 楷楷

近日，大模型行业再掀「价格战」，阿里云宣布旗下通义千，问的多款商业化再次大幅降价，早在今年5月，大模型行业已经进行了一轮降幅接近90%的价格战。「百模大战」行至此处，大家都清楚最终能够留下来的通用大模型或不超过5个。

对于字节跳动（以下简称「字节」）这一「新晋」互联网大厂而言，其在大模型领域的布局并不算早，其他大厂的大模型纷纷面世，字节的AI智能助手「豆包」才姗姗来迟，但凭着「大力出奇迹」的拼劲，「豆包」已经成为了国内用户最多的原生 AI 应用。

近日，字节再带来了两大新动作，一则，其在近日的AI创新巡展中一口气发布了视频生成模型、音乐模型和同声传译模型，全面覆盖语言、语音、图像、视频等全模态；另外，字节正在探索自己开发 AI 硬件，首款产品或是智能耳机。

从大模型B端的价格战，到大模型C端的应用创新，再到大模型生态的流量战，字节在大模型行业不曾错过任何一个「可能」，在大模型卷向下半场之际，字节手里还有哪些「好牌」？

01 视频生成赛道，字节后发而至

今年6月，快手自研的视频生成大模型「可灵」正式上线；8月，字节旗下文生视频应用「即梦」也后发而至。

9 月，字节旗下火山引擎更一举发布了豆包视频生成-PixelDance、豆包视频生成-Seaweed 两款大模型，这两款模型目前已在即梦 AI 内测版小范围测试。

不过，从目前的舆论偏向来看，「即梦」生成的内容在某些特定的底图和描述词之下表现更佳，但更多时候，「可灵」视频中的物体动态和光影会更自然。另外，二者生成的AI视频风格显然有着差别，「即梦」更擅长动画风，而「可灵」则更影像风。

两种风格孰优孰劣目前还不好说，但造成这种差异背后，并不只是大模型的技术原因，还跟字节与快手平台的布局有关。

一方面，快手在视频生成模型有先发优势。虽然「可灵」、「即梦」都是受到了SORA的启发而「匆忙」面世，推出时间也相差不远，但两者在集团中的地位却并不相同。

「可灵」源于快手于2023年10月就筹备的静态图片生成Gif表情包的工具，而快手董事长程一笑也将其上升为集团战略项目，并给予了最大支持。相较之下，在快手推出「可灵」时，字节还在忙着进行大模型价格战，彼时其最重要的对手是阿里、腾讯、百度。

今年5月，字节率先宣布旗下豆包通用模型的输入价格降至最低为0.0008元/千tokens，并声称已经击穿了大模型行业的最低价，随后，阿里、百度、腾讯纷纷跟随，带动大模型行业卷向「价格战」。

几家大厂官宣「降价」几乎没有太多时间差，【市界】曾透露，率先降价后火山引擎的销售人员便开始积极接触客户、推介产品，由此可以推测，争夺B端市场才是字节彼时的最高级别战略。

而且，彼时豆包的势头也很好。根据QuestMobile数据，2024年6月在中国大语言模型应用中，豆包APP月活用户达到2,750万，排名第一，相较之下，字节应用层的其他AI应用如猫箱、星绘等均存在感不高，谁是战略重点也一目了然。

另一方面，两者对视频生成模型的布局有所不同。字节将「即梦」作为一个单独的移动应用，独立于视频编辑工具剪影之外；而快手则选择直接将「可灵」搭载于其视频剪辑平台快影上，两者使用的便捷程度有所不同，在用户积累、生成视频数量上自然也有差异。

据快手高级副总裁盖坤披露，目前已有超过 260 万人使用过快手的视频生成大模型可灵 AI，并累计生成超 2700 万个视频。

而字节「即梦」目前尚未公布相关的用户数据，不过在苹果App Store的「摄影与录像」下载量排行榜中，「即梦」排在第33，「快影」则排在第11。从生成视频质量来看，根据博主阑夕的分享，在Meta的AI视频论文里，快手的可灵在主流竞品的双盲测试对比中基本是表现最好的那个，甚至好过了还没公开的Sora。

但字节看起来似乎不算太着急，「可灵」在3个月内已经进行了9次迭代，而字节旗下火山引擎现在才带来了两款全新的视频生产模型。

字节的「淡定」，或是因为按目前科技公司本身的算力储备与资金实力来看，发布一个大模型的难度并没有想象中那么高，关键是能否拥有高质量数据场景，以及能否拥有足够的差异化。

从这点来看，快手与字节同为短视频平台，两者在文生视频赛道都有着相同的视频数据优势。此外，字节还具有更庞大的短视频用户规模以及更多待挖掘的应用场景，因此，推动AI生态构建与扩容才是字节的当务之急。

02 AI+硬件，字节布局流量通道

近日，字节的另一新动作便是探索AI硬件。据【晚点LatePost】报道，字节正在探索将大模型与硬件结合，第一款产品或为智能耳机。

早在今年5月，【36氪】曾报道称字节正在加速AI硬件方向的探索，其中一条产品线为智能耳机，在此之前，字节已经收购了耳机品牌Oladance。

字节在硬件方面的探索已是驾轻就熟。早在2018年，字节便收购了锤子科技坚果手机团队和部分专利使用权，并发布了坚果手机、TNT显示器以及音箱等周边产品。

不过，办公硬件市场强敌环伺，于是字节从2020年开始聚焦教育硬件赛道，启动了动「大力教育」品牌，并发布了智能学习灯、教育平板、词典笔等多款产品。

只是，即便字节曾计划以每年百亿元的规模投资教育行业，但盲目跟风再加上「双减」政策的影响，这次字节依然没能「大力出奇迹」，目前大力教育官网也仅剩智能学习灯一款产品的身影。

2021年，字节斥资90亿元收购国内VR出货量第一的厂商PICO，并在研发、营销、运营等方面投入数百亿元，但字节的「硬件野望」再一次破灭，去年PICO多次裁员，目前仅保留少部分硬件团队。

但即便如此，字节还是「屡败屡战」，旗下豆包大模型目前已经与众多硬件厂商展开合作，在5月的2024春季火山引擎 FORCE 原动力大会上，其展示了机器狗、学习机、学习机器人三款与 AI 硬件合作的产品。

在智能终端方面，荣耀、OPPO等均宣布与豆包大模型达成合作；在智能汽车联盟方面，豆包大模型也先后与吉利、长城、蔚来、广汽等多家车企达成深度合作。

事实上，「软硬件协同」已在互联网行业发展中经历过数次轮回，比如PC电脑、智能手机、智能穿戴、智能家居等。在万物互联的趋势下，硬件是软件落地的载体，也是用户流量通向生态的通道，而AI硬件的发展路径，也不过是软件侧的平移。

因此，相中AI硬件的大厂也并不只有字节。据悉，美团正在研发一款名为「俏鱼」的AI业务，并和儿童穿戴设备厂商「小天才」达成合作；科大讯飞发布了三款AI耳机，加码AI办公；百度、华为等在智能终端早有布局的大厂，也在积极构建自己的AI硬件生态。

目前来看，各大模型厂商在AI硬件的布局还是略有雷同，教育、办公、生活依然是AI硬件落地的主要场景。但对于大厂们来说，有了连接物理世界的入口，才能形成从内容到流量，到应用和硬件的闭环，这也是AI生态发展的基础。

只不过，这一发展路径也并非「万试万灵」，字节此前多次在硬件层面折戟，意味着硬件虽然是个「筐」，但不能什么都往里装。

一方面，硬件的发展往往有自己的节奏，更容易受到市场成熟度的挑战，单纯通过软件业务恐怕难以在短期内催熟硬件产品。以PICO为例，AR头显固然有足够噱头，但在穿戴不便、不适的问题难以解决之前，还是很难做到大量普及。

另一方面，硬件是服务于功能的，但在当前大模型应用拉不开差距的前提下，即便大量补贴硬件，用户也不见得愿意只为「某个软件」付费，这也意味着大模型企业必须要把应用打磨得足够差异化，才能跑通AI+硬件的模式。

所以，硬件虽然是流量的载体，但也不仅只是「载体」，硬件要能够为大模型提供更便捷的调用触点，给用户带来更便捷的调用形式，这才是「软硬融合」的契合点。

03 虎口夺食，字节也在整合生态

当然，字节能否在AI硬件领域上再进一步，目前仍有待市场测试，但可以肯定的是，字节的野心并不只在此处，目前，其也试图与阿里、百度等大厂短兵相接，抢夺AI生态话语权。

除了进一步提升大模型能力、打磨AI应用，以及推出AI硬件之外，字节还推出了智能体开发平台「扣子」以及 AI 编程助手「豆包MarsCode」。

在B端市场，火山引擎总裁谭待表示，豆包大模型已经在其内部的50多个业务中进行了真实的实践验证，同时还在30多个行业外部企业实现深度共创，自今年7月发布以来，平均每家企业客户日均Tokens使用量呈22倍的速度增长

虽然，字节并非传统的「BAT」巨头，甚至旗下豆包大模型还比其他大厂的模型晚到了几个月，但如今字节也在按照自己的节奏布局AI生态，其也有自己的牌面。

首先，得益于字节丰富的业务场景积累，其能够更好打磨大模型应用。目前，字节的业务场景涵盖了短视频、社交媒体、在线教育、电商等众多领域，这些多元化的业务场景为豆包大模型的研发和训练提供了海量的数据和丰富的应用场景。

事实上，字节在大模型领域的打法策略也与其他大厂略有不同，其更看重C端的体验，更倾向先打磨C端产品，等到模型能力具备竞争优势后再拓展B端市场。

这或许也跟字节在C端场景的布局有关，毕竟旗下的大模型乃至AI产品，终究要优先服务于旗下的抖音、今日头条等流量型APP，但这也让字节在多模态大模型领域走得更快。

其次，流量也是字节的优势。如果说AI生态的构建需要创作者和使用者双方流量的共同注入，那么字节的AI生态在使用场景和流量引入方面显然也更具优势。

据Unique Capital报告显示，今年7月，字节旗下CapCut和Doubao在全球人工智能应用下载超越了OpenAI的ChatGPT，斩获全球第一。

字节旗下抖音、今日头条等明星产品已经成为流量的重要入口，通过庞大的用户规模和精准的数据分析能力，字节也能进一步提升大模型的使用体验，并进一步发展多模态大模型。

近日，字节旗下火山引擎除了发布了视频生成模型、音乐模型、同声传译模型三款新模型外，还对通用语言模型、文生图模型、语音模型进行了全面升级。

不过，字节充沛流量支持背后，其也要付出不少代价。有业内人士透露，豆包大模型仅在6月上旬，就投放了超过一亿元的广告，而且在大模型的广告战中，抖音完全倾向了自家大模型，这意味着字节也在用抖音的广告收入来换取豆包的用户增长。

「流量」固然是字节独有的「好牌」，但「烧钱换增长」这样的套路却难以持续，字节在跑马圈地后如何快速转化并找到能落地的商业模式，将会成为字节AI生态发展的关键。因此，火山引起发布两款豆包视频生成模型时，谭待才会表示「从一落地就开始考虑商业化」。

最后，则是在「云服务」市场的加速发力。对于深入B端服务市场的企业而言，云服务无疑是互联网行业最为重要的赛道之一。据Canalys预计，2026年中国的云基础设施市场规模将达到850亿美元，五年复合年增长率为25%。

但在B端市场，字节要面对的则是阿里云、腾讯云、华为云等主流云厂商，仅这三大云服务商所占的市场份额就已经过半。

而且，阿里、腾讯、华为等早已经找到各自擅长的细分市场，比如阿里的零售行业；腾讯的文娱、金融行业，字节想在其中占据一席之地并不容易。

所以，字节当前「C端强，B端弱」的现状，也会成为其在AI生态中快速落子的障碍，相较于阿里、腾讯等大厂，字节很难依托现有业务领域在商用领域形成大模型应用的规模效应。

或是因为如此，字节才会在近年通过硬件拓展教育、办公的不同垂直赛道，希望能够找到新的突破点。

但如果字节想要继续「大力出奇迹」，打破业界及客户对于大厂生态的固有认知，光成为「实用主义者」还不够，字节还需要找到属于自己的应用赛道，拿出具有竞争力的优势，成为更专业的大模型方案解决者，方能实现弯道超车。

在当下的大模型市场，无论是B端还是C端，每一条赛道都挤满了竞争对手，「流量」这一招虽然厉害，但也不是无所不能，回归到产品应用和生态建设之上，能否让垂直行业开发者和应用者以更低成本、更低门槛获得更接地气的产品和服务，才是关键。