當前位置: 華文世界 > 科技

「閃電模型」接棒「耐力賽」 李開復:零一萬物絕不會放棄預訓練模型工作

2024-10-17科技

釋出千億參數模型Yi-Large 5個月後,零一萬物創始人兼CEO李開復再次帶著新產品公開亮相。

10月16日,零一萬物正式釋出了新的預訓練模型Yi-Lightning(直譯為閃電模型)。選擇在此時釋出新產品,或許是為了用實際行動回應市場猜測。前段時間,國內大模型創業公司「六小虎」(智譜AI、百川智慧、零一萬物、月之暗面、Minimax、階躍星辰)均受到不同程度的質疑,零一萬物更是被直指放棄了預訓練。

對此,零一萬物創始人兼CEO李開復在新品釋出後接受包括【每日經濟新聞】記者在內的媒體采訪時表示,零一萬物絕不會放棄預訓練模型工作。值得一提的是,在To B(企業端)戰略下,零一萬物首次釋出了針對零售和電商等場景的行業套用產品AI 2.0數位人,並已在彈幕互動、商品資訊提取、即時話術生成等環節接入了Yi-Lightning。

進入2024年,中國大模型行業從狂奔進入到了「長跑階段」。從技術側和產業側都引發了行業的進一步思考,頭部企業也開始探索更多商業化方向。今年8月,月之暗面創始人楊植麟開始將一部份精力放到B端業務上,他們正式釋出了Kimi企業級API,以探索在B端的商業模式。百川智慧則與國家兒童醫學中心北京兒童醫院簽署戰略合作協定,雙方計劃共同推出「一大四小」五款AI醫療產品。

李開復表示,中國大模型產業進入到了「耐力賽」階段,如何讓大模型賦能千行百業,提升企業新質生產力是一個重要的命題。這不僅將牽涉到「大模型+行業」的未來發展方向,甚至會影響世界的創新版圖。

預訓練成本一次三四百萬美金 「但零一萬物絕不會放棄」

據李開復分享,在LMSYS盲測競技場總榜(使用者對一組大模型回答進行盲投的榜單)上,零一萬物最新釋出的Yi-Lightning位列第六,僅次於OpenAI的GPT-4o、o1系列,以及Google的Gemini 1.5 pro系列,並且與馬斯克xAI旗下Grok-2打平。這是中國大模型廠商目前在該榜單上取得的最好成績。

而這個新預訓練模型的釋出,也是李開復對於「零一萬物放棄預訓練」市場傳言的回擊。

他表示,GPT新釋出o1之後,給零一萬物團隊帶來了新靈感,「一年半以前大家覺得大模型最厲害的地方就是預訓練,一年以後發現Post train(後訓練)也是同樣重要,感謝OpenAI點醒我們這一點。」不過,李開復提到,後訓練的重要性變高,不代表要徹底放棄預訓練。

根據公開資訊,大模型預訓練是在大規模數據集上進行的初步訓練,旨在讓模型學習通用的語言知識和模式。而後訓練則是在預訓練的基礎上,針對特定任務進行的進一步最佳化和調整,以使模型在該任務上表現更加出色。

李開復表示,他認為做好預訓練模型是一個技術活,而且是要非常多有才華的人在一起工作,慢工出細活,需要有懂芯片的人,懂推理的人,懂基礎架構的人,懂模型的人,有很好的演算法同學,一起做出來。不過他也坦言,不是每家公司都可以做這件事情,做這件事情的成本也比較高,以後可能會越來越少的大模型公司做預訓練。他明確表態,零一萬物絕不放棄預訓練。

【每日經濟新聞】記者也發現,今年以來,有一批大模型公司停下了研發的腳步。據經濟觀察網統計,截至2024年10月9日,在188個透過網信辦生成式人工智慧備案的大模型中,超過三成的大模型在透過備案後未進一步公開其進展情況,僅有約一成的大模型仍在加速訓練,接近一半的大模型轉向了AI套用的開發。

據李開復透露,做預訓練的Production Run(投產執行)的訓練成本是一次三四百萬美金。「‘六小虎’的融資額度都是夠的,這個錢也是頭部公司都付得起。我覺得中國的六家大模型公司只要有夠好的人才,如果有想做預訓練的決心,資金和芯片算力都不是問題。」李開復表示。

將在國內尋找ToB商業空間 在海外側重C端產品

值得一提的是,創業一年,李開復也帶領零一萬物也開始加速探索商業化落地和更多賺錢的機會。

圖片來源:直播截圖

曾公開宣布不打價格戰的李開復將Yi-Lightning定價在0.99元/百萬tokens,對此,李開復表示,這並不是一個虧本的價格,公司仍有相對理想的利潤空間。除此之外,零一萬物也首次對外釋出其To B(企業端)戰略下的先發行業套用產品AI 2.0數位人,聚焦零售和電商等場景,將最新版旗艦模型Yi Lightning實踐於具體行業解決方案。

圖片來源:受訪企業供圖

據零一萬物透露,目前零一萬物數位人的合作案例包括全國某著名餐飲連鎖、某頭部酒旅類客戶、全國某知名水果連鎖店等,均取得了顯著的GMV提升。其中某頭部酒旅企業在接入Yi-Lightning全新加持的數位人直播後,GMV( 商品交易總額 )較此前上升170%。

除直播外,零一萬物也為數位人客戶準備了AI 2.0門店短視訊解決方案。客戶可透過極簡流程,隨時生成、超低成本和高品質行銷視訊,解決了傳統真人短視訊的成本和制作周期問題。短視訊與直播內容相互配合,為商品提供持續曝光,提升轉化率。

這也意味著,在通用大模型產品叠代之外,零一萬物也在探索更多的商業化落地方向。【每日經濟新聞】記者了解到,零一萬物今年下半年開始在To B解決方案上加速布局,6月以來,零一萬物相繼宣布與阿裏雲、360、順豐科技、飛書、釘釘、鈦動科技等頭部企業達成合作。

實際上,不僅是零一萬物,經過一年多的「百模大戰」,大部份大模型公司都從技術浪漫走到落地求生的階段。【每日經濟新聞】記者根據公開資訊發現,今年以來,月之暗面、百川智慧、智譜AI等大模型公司都在探索商業化和B端運用場景。

李開復感嘆,一個大模型公司同時做To B和To C(使用者端)是很辛苦的,需要多元化的管理方式,因為兩個團隊的基因不一樣,做事的方法和衡量KPI(關鍵績效指標)的方法都不太一樣,不過零一萬物則根據不同的市場特性進行海內外市場的商業化布局。

具體來說,零一萬物將C端產品商業化重心放在海外市場,因為「國內流量越來越貴,而國外的C端產品,獲客成本和變現能力能算得過帳」。在國內,零一萬物優先尋找B端機會,李開復表示,零一萬物已經找到了破局的空間,就是用數位人做零售和餐飲等領域的直播和短視訊,做完整的解決方案。

李開復重申了此前「不做賠錢的To B」這一觀點,他稱零一萬物大模型To B的打法,首要任務是要尋找少數能夠按使用情況收費的方法,拿到高利潤率的訂單,而不是計畫客製的方法。他同時透露,除了已經釋出的AI 2.0數位人、API之外,零一萬物目前還有AI Infra解決方案、私有化客製模型等其他To B業務,會在近期正式對外釋出。

不用執著於縮短與美國頂尖大模型時間差

提到國內大模型有一個永遠繞不開的問題,就是中國與美國頂尖大模型技術的差距有多大,經過過去一年的百花齊放,中美大模型差距是否縮小?如何追趕國外頂尖大模型?

對此,李開復給出一個具體數位:GPT-4o在5月13日釋出,Yi-Lightening在10月把它打敗,零一萬物和美國頂尖模型之間的差距是5個月,而在5個月前釋出千億參數Yi-Large閉源模型時,李開復的答案是6個月,在他看來,這已經是全體國內創業者努力的最好結果。

當被問及中國大模型如何繼續和美國大模型縮短時間差時,李開復坦言,繼續縮短時間差非常困難,「我不預測我們可以縮短這個時間差」。

「因為畢竟人家是用十萬張GPU(圖形處理器)訓練出來,我們用的是兩千張GPU訓練出來,我們時間差能縮小到5個月是因為我們模型、AI infra(人工智慧基礎設施)等團隊都熱心聰明,去使用和理解對方做出來的東西,再加上我們自己每家的研發有特色,比如數據處理、訓推最佳化等。」李開復表示。

據他透露,零一萬物目前的成熟方法論就是,透過創新加上自己的特長,關註OpenAI和其他公司釋出的新技術,盡快了解這些技術的核心重要性,然後把它的能力在自己的產品裏面發揮出來。

「我覺得用這套方法將中美大模型差距保持在六個月左右,而且國內不僅是零一萬物,也有其他公司做得差不多,已經是很好的結果了,很多中美公司都在往GPT-o1的方向狂奔。」李開復表示。

每日經濟新聞