文丨胡璞心
编辑丨张睿
【亿邦原创】2024年,大模型行业开始大起大落。
模型层突破迟迟未至——GPT-5难产,Sora现货变期货,技术曲线放缓,开路者优势岌岌可危。
应用层陷入价格战,大厂争相降价 ,百万Token收费从2元、1元、0.8元、0.5元一路跌到免费;明星创业公司艰难突围,套壳抢跑公司则批量倒下。
视频模型成为难得亮点,快手可灵AI在全球范围内一骑绝尘,美图、智谱AI、阿里云、MiniMax、生数科技等视频模型,均在运动控制、镜头控制、人物一致性方面取得长足进展。九月底,火山引擎DiT架构视频模型发布,头号玩家终于入场。
机器人被热捧——在所有科技展会上,机器人、机器狗、灵巧手都是最吸睛的展品。有人认为这又是一个超级大风口,有人则认为该泡沫将在一年之内破裂,就像过去两年的元宇宙、AR/VR。
在Q3即将结束的时候,Open AI终于向市场扔出「深水炸弹」。9月13日发布的OpenAI o1,号称首个具有「推理」能力的大模型,能通过推理过程逐步分析问题,直至得出正确结论。至此,大模型领域再次一扫颓势,继续创世野心。
本文将梳理2024年到目前为止AI大模型领域最值得关注的五大看点,共同期待接下来的新产品和新应用。
01
最期待:Open AI新模型炸场,万众一心为Scaling Law续命
今年模型层的入场券已经从万卡集群向着十万卡集群演进,但迭代速度依然不如人意,GPT-4发布一年多,GPT-5迟迟不能面世,Sora从现货变成期货,应用落地仅能稍稍提效,远达不到重塑商业模式的效果。
从年初开始,对大模型的唱衰之声不绝于耳,OpenAIo1的发布无疑有「挽狂澜于既倾」的效果。
o1 就是此前OpenAI一直在宣传的「草莓大模型」,它拥有真正的通用推理能力,不用专门训练就能直接拿到数学奥赛金牌,甚至能在博士级别的科学问答环节上超越人类专家。
奥特曼表示,虽然 o1 的表现仍然存在缺陷,不过你在第一次使用它的时候仍然会感到震撼。
不少人实测中发现,o1 上线之后,ChatGPT在回答问题前会花更多时间进行思考而非直接回应,具有改善和调整策略的能力。这是因为OpenAI o1在模型推理侧同样满足scaling law,即模型推理时间越久模型处理复杂问题能力愈强,通过不断的思维树检索和反复自我博弈,o1呈现出类人的逻辑思维潜力。
强化学习指的是,智能体在与环境的反复交互过程中持续学习,不断最大化其奖励。
「强化学习是过程监督而不是结果监督,每一步的思考过程都需要被标注,这类数据的获取非常困难,需要专业人士生成高价值的数据。」生数科技首席科学家朱军指出,「但效果也十分明显,这是时隔多年,大模型再次有算法层面的巨大更新。GPT是predict next token,从2018年GPT-1出来一直到GPT-4,除了加了一个MoE(混合专家模型)以外,没有什么太多的很新的东西。」
「决定这一代AI技术的上限很核心还是文本模型的能力上限,如果文本模型能持续提升智商,就是能做越来越复杂的任务。」月之暗面CEO杨植麟则认为。他指出,有了强化学习, 新的PMF(产品市场匹配)机会可能会出现。o1可以分拆人物、自我回溯,做出高质量输出,在更高价值的场景,特别是生产力场景中,会率先出现应用场景。
更重要的是,o1成功给Scaling Law续命。「我预计未来18个月里,智能体的进展将非常令人兴奋。比如世界模型的创建和生成、虚实融合,尤其是在特定场景下决策能力的提升。它会利用推理、感知等能力来取得突破。」朱军补充。
02
最精彩:视频模型大混战,快手拔得头筹
自从2月Sora炸场,视频生成模型就成了AI的主战场。这一年Sora迟迟不见踪影,而冲击Sora的视频模型则如雨后春笋。
值得注意的不是模型数量的多少,而是视频模型的能力升级——经过半年迭代,视频模型从曾经的PPT动画,到如今可以基于提示词,生成4s-16s连贯视频,生成过程中可以保持人物一致性、场景一致性、风格一致性,可以进行镜头控制、运动控制。
视频能力的增强让创作者仅需三张定妆照完成一部短片;基于一张商品图,做一支广告片。视频可控性的增强则让视频模型广泛应用于电商、短剧、电影等行业。
生数科技CEO唐家渝告诉亿邦动力,视频模型改变了传统视频制作的步骤。比如,Vidu可以摒弃了传统的分镜头画面生成步骤,通过「上传主体图+输入场景描述词」的方式,直接生成视频素材。
图片来源:生数科技
7月,抖音和快手各自上线纯AI生成的短剧【三星堆:未来启示录】与【山海奇镜之劈波斩浪】,完成视频模型在短剧领域的首秀。青年导演李宁正在打造中国首部AIGC院线电影【玄宇】,他利用Vidu预创作了一段男主的视频片段,其中所有人物画面仅通过男主近景、中景、远景三张定妆照生成。
来源:【三星堆:未来启示录】
可控性的增强也在商业广告片方向展现了强大的潜力。
广告片的一大关键在于要保证多个镜头、不同场景下品牌物形象的一致性。而主体一致性功能能够很好的实现,仅通过一张商品图,便生成所有视频画面,无论是不同角度、背景,还是动态表现,跑步鞋的形象在整个视频中都保持了高度一致。
从更长远的视角来看,一旦实现了全面的可控性,视频创作行业将经历一场颠覆性的变革。当然,视频模型的生产力才初见端。
03
最激烈:价格战打到负毛利,大厂还不收手
大模型最激进的战场,当属价格战。
从4月各个云厂商的春季峰会开始,字节高调「起头」,阿里「击穿底价」,百度直接「掀桌子」……不到一周时间,大模型厂商针尖对麦芒,每百万token的输入价格,先后从2元、1元、0.8元、0.5元跌到免费。Token降价潮就将所有参与者卷了进来。
经过半年价格战,大厂把Token价格打到负毛利仍然没有收手,以9月份的云栖大会为起点,大厂又开始新一轮降价。
【财经】披露,今年5月以前,国内大模型推理算力毛利率高于60%,和国际同行基本一致。今年5月各大厂接连降价后,推理算力毛利率跌至负数。
这场价格战主要集中在大厂之间,尤其是有云业务的大厂,大模型创业公司并未跟进。
最激进的当属阿里云。据悉,阿里云内部将2024的AI类比为2012年的移动支付和2017年的短视频——2012年到2013年,3G过渡到4G过程当中,中国的移动支付两年增长了 800%;2017年到2018年,短视频增长爆发,整个短视频行业呈现8.5倍的增长。
降价的效果也立竿见影。今年8月,百度二季度财报电话会披露,百度文心大模型5月API日均调用次数是2亿,8月增长到了到6亿次;5月日均Token消耗量是2500亿,8月增长到了1万亿。
火山引擎披露,截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时猛增十倍,多模态数据处理量也分别达到每天5000万张图片和85万小时语音。随着AI渗透率提升,预期2027年豆包每天Token消耗量会超过100万亿,是现在的100倍以上。
更大的算力支出,更低的模型价格,更高的技术门槛,大模型的竞争尽管还没来得及取得太多商业化成绩,但已经开始进入淘汰赛。
吴泳铭在云栖大会提到,全世界先进模型竞争的投入门槛,将达到数十亿、数百亿美元的级别。过去一年,阿里云投资新建了大量的AI算力,但还是远远不能满足客户的旺盛需求。
从以CPU为核心,到以GPU为主的计算范式和市场需求的转变,成为云厂商以前所未有的强度投入升级AI大基建的主要原因。而云厂商为此要保持每年百亿元级别的算力资本支出。
怪不得王小川认为创业公司要活在大厂的射程之外,「我也是看热闹,和大家的心态一样。」
04
最有钱:百度、科大讯飞、智谱AI领跑行业
随着诸多大模型获得备案许可,围绕大模型的商业化进程需要进一步提速。
C端商业化目前处于探索阶段,不管是聊天、配音、视频还是数字人,大都提供免费服务,厂商看中的是MAU与留存数据。
B端是大模型商业化的重心,教科、金融、能源、政务成为重点领域,采购方主要为央国企、政府部门和科研院所,以项目招标为主。
据智能超参数统计,截止8月底,大模型相关中标项目551个,其中Q1有50个,Q2有187个,7月112个,8月127个,数量显著增长。同时上半年统计中标项目披露金额9.39亿元。
大模型公司在部分标杆项目的争夺中「短兵相接」。
在岚图汽车科技有限公司的AI大模型应用项目中,智谱AI报价约为348.81万元,腾讯云报价1334.10万元,科大讯飞报价758.96万元,智谱AI中标。
在中广核海上风电机组辅助诊断AI大模型研究采购项目中,智谱AI、科大讯飞、拓尔思直接竞标,智谱AI中标,报价比其他两家低200多万元。
在上海人工智能创新中心的项目中,更是出现0元中标情况。
在所有厂商中,百度、科大讯飞、智谱AI的中标数量领跑行业。
其中百度延续了在AI领域的先发优势,无论在云计算还是大模型,百度的早期AI布局都在本轮换挡期抢到先手;科大讯飞深耕政企领域多年,竞争力强;智谱AI商业化迅猛,技术强认可度高,中标项目多,但中标行业较为分散,有价格让利。
据了解,目前围绕大模型相关的招投标项目,大致可分为4 个大类:算力、数据、模型、应用。其中应用类占比超70%,算力类项目紧随其后,智能客服助手、辅助编程、数据分析类是需求最多的应用场景。
05
最五花八门:机器人花式整活儿
今年最热闹的大模型应用,当属具身智能。
在7月5日的2024年世界人工智能大会,一进世博展览馆的正门,18款列队站好的人形机器人向游客招手。p会场内,蹦跶着各种尺寸各种形态的机器人,宇树科技的机器狗翻着跟头到处卖萌,逐际动力双足机器人摇头晃脑到处溜达,达闼的美人鱼机器人翩翩起舞,穹彻智能的机械臂在叠衣服、削黄瓜。
在8月21日的世界机器人大会,人形机器人毫无意外地成为全场焦点,不仅会摆摊磨咖啡、摊煎饼果子、打冰激凌,还会多才多艺写毛笔字。
几乎所有人都对人形机器人发展抱有热切期待。
中国科学院院士毛明表示,人形机器人正在迅速成为智能制造、医疗、家庭服务等行业的变革力量。全球市场年增长率超 20%,预计 2025 年达数百亿规模。
宇树科技CEO王兴兴认为,最迟明年年底之前,全球范围内一定会出现比人跑得快的人形机器人,「比如说100米跑进10秒,在体育项目和文艺演出上,人形机器人比做家务应该更得心应手。」
不过人形机器人热度虽高,落地依然困难。多位参展的人形机器人厂商表示,人形机器人目前主要出口欧美,使用场景为科研场景。开普勒机器人则计划今年下半年量产先行者K1人形机器人,预计售价在3万美元左右,用于科研。
由于特斯拉的示范性作用,也有厂商将汽车主机厂当作主要落地场景。
王兴兴也认为,人形机器人距离真正大规模应用的主要限制在于机器人人工智能方面尚未突破临界点,随着近年来在人工智能取得快速进步,可能在1-2年内会有一些小突破,3-5年内,有足够潜力实现实质性突破。