「已經有三個人跟我說要做中國版Sora」

2024-02-21科技

先講兩個非常「中國特色」的荒誕段子：

小紅書上，一位投資領域的博主稱，一天內已經有三個專案方找過來說要做中國版Sora，但聽起來，心態都是「看看能不能騙點錢」；

另有一圖，昨日廣為流傳，圖上標「中美兩大AI巨頭」。美方代表是OpenAI的CEO柯曼，中方代表則是賣AI課賺了上億的博主李一舟。

怎麽說呢，前者未經證實，但代表了一部份人對AI創業者，乃至整個創業者群體的「刻板」印象；到了李一舟這，這種「刻板印象」終於有了明確的指摘物件，沒辦法，誰讓人家賺錢了呢。不過到底是虛晃一槍，瞧不上的是中國AI。（具體參見【「李一舟何許人也」｜底片】）

調侃歸調侃，當我拿這訊息問幾位投資人朋友時，反饋是，還沒人碰到過打著中國版Sora旗號的離譜專案。我想，這可能是因為，大家還處在震驚之中，需要一點反應的時間。也可能因為，和去年ChatGPT攪動的熱潮相比，今年的情況相似又不同。

對世界喪失掌控感的心態大體是相似的，不同在於，經歷過去一年的洗禮，到今年，不論是創業者還是投資人都成熟了。一部份人清醒地意識到，熱鬧歸熱鬧，但熱鬧大都是OpenAI的。

「霸權創業」

「我們之後大概率不會投文生影片類專案了，因為OpenAI太強了。」一家主流投資機構的朋友這樣回復我。

很難說這種心態是悲觀，還是認清現實後的冷靜。如果回溯，類似的言論最早從去年3月GPT4釋出外掛程式便開始了。

在【第一批投AIGC的VC開始後悔了】一文中，我寫過當時典型的擔憂是：是不是所有垂類的套用公司都會被基於GPT4外掛程式的生態取代？之前投的專案會不會黃了？今後還要不要看？

別怪寫稿的人絮叨，因為類似的事情總在不斷發生。去年年底，柯曼在YC的一場演講，又給生成式AI領域的創業者澆了一盆冷水。

他建議，應該以通用人工智能的實作為前提進行技術開發。因為GPT5可能會相對於GPT4有指數級的跳躍，這個進展將會給初創企業和現有公司帶來許多挑戰。反過來說，他不建議的是，建立那些產品業務致力於解決當前GPT4限制的內容，因為大多數限制將在GPT5中修復。

這份給創業者的指南，既誠懇，又傲慢，殺傷力極大。AI巨無霸的掌舵者在提醒創業者，不要瞎折騰，OpenAI自身的叠代很快會覆蓋一批公司。

我更想到了另外一段話，來自一年前的另一個「大模型」選題，當時ChatGPT給了世界一個「小小的震撼」，也帶來了一陣密集的投資風口，幾乎所有人都在努力尋找能交付出類似產品的創業者，並且不吝於將尋找到的創業者塑造成神。

我本能地對當時的氛圍感到警惕，於是設計了一份簡單問卷，向超過30個人工智能賽道內的創業團隊發出QA邀請，試圖搞清楚輿論是否過熱並且嚴重拔高了行業現狀，然後收到了一份這樣的答案：

「我們認為人工智能這一輪的發展是不斷整合人類智能的過程，在這個過程中很多流程、環節、都會吞噬，形成端到端、自動化的解決方案，最後會不可避免地形成超級智能——這些環節在上一代互聯網的時代是存在獨角獸公司的（所以互聯網時代是一個「平權」的創業時代），但是現在沒機會了——比如GPT4出現之前很多企業做影片和圖片處理，但GPT4出來以後對他們是一個重大打擊，模式是否成立都是問題。」

這個答案來自集智魔術方塊創始人徐大大。簡單概括，他認為人工智能這一次的熱潮很難留下太多機會，反而可能即將面臨一個「霸權式創業」的時代。

而這種「霸權創業」的感受也正在完整地透過創業者傳遞給投資人。徐大大和很多VC接觸後，發現大家目前形成的共識是創業規劃要有「戰略提前量」，而不是尋求「時間提前量」，因為「如果方向錯了，早晚被足夠的算力追上」。

具體到影片生成領域，AI投資人Magic（化名）跟我分享了一個真實案例。去年他們團隊反復討論過要不要布局一家文生影片公司，最終還是沒投。

當初糾結的點在於，他們看到的國內公司現有的方案明顯有效能上限，同時知道OpenAI在用更fundamental的方式解決問題，只是不知道什麽時候能做出來。「說白了就是知道OpenAI會做，覺得其他公司沒有戲，但沒想到來得這麽快。」

現有的能想到的場景OpenAI一定能想到，還能有什麽新的場景出來？OpenAI的超能力令AI投資人陷入迷惘，不確定究竟該在套用層面投些什麽。

談追趕，Magic沒那麽樂觀。他認為，國內公司與OpenAI的差距，本質在於視野、認知和工程化能力的不同，當中的差距不是任何一家公司能在短時間內彌補的。

更不用說，國內一部份公司對外宣揚的和實際情況多少存在一些水分。比如，我在某公司去年的通稿裏看到如下描述——「影片生成能實作可控的內容覆寫與風格遷移，效果優於Runway等在內的主流模型。」

國內的「類Sora產品」

放眼中國近幾年的科技行業，創業者們對於「類Sora產品」的嘗試一直沒有停止。從技術路線來看可以分為兩類：

一類是由剪輯工具衍生出來的「文生影片」產品。與Sora相同，這類產品的使用邏輯十分「自然語言」，使用者只需要輸入文本內容，產品就能匹配上對應的影片素材生成成片，只是這類產品並不會根據文本內容原生影片素材，而是在素材庫內進行呼叫。

時間線上，早在2020年10月知乎就推出了「一鍵圖文轉影片」，配合當時同期推出的「海鹽計劃」，內容影片化戰爭打響；2021年4月，剪映也上線了「圖文成片」功能，大量創作者使用後，得出的一致結論是「感覺會幹死一堆行銷號」。

可以說，也正是這條技術路線的成熟，催生了這幾天Sora的一個衍生話題——Sora會「殺死」剪映嗎，我的編輯也建議，將「梁茹波在字節年度大會上反省了公司內部的技術討論直到2023年才有GPT相關議題」和「張楠在年初辭去抖音集團CEO職務，宣布將專註於剪映」聯系在一起，進而得出「AI影片生成」或許是字節跳動找到的最現實也最直接的「第二增長曲線」的結論。

前字節跳動演算法工程師「像素煉金師」持類似的觀點。他在知乎問題「OpenAI的影片模型Sora能否顛覆影視創作」的回答裏寫過這樣一段話：

「不要懷疑視覺模型的能力……ChatGPT的上限可以質疑，大語言模型的訓練可能面臨著數據的匱乏，高質素的數據早就已經全部納入到 GPT4 的訓練集裏了。但視覺的數據和文本不一樣，我們可以幾乎無限的從世界當中采集。」

第二類是由多模態大模型衍生出來的「文生影片」產品，此前讓郭德綱說英語、讓川普說山東話而大火的HeyGen就是其中的代表。類似的產品還包括FancyTech、Wondershare、騰訊智影，這些產品都具備使用者透過「輸入自然語言」生成一段影片，並且針對性地原生一部份素材的能力。

如果以更冰冷的技術視角來看，Sora又似乎有被「神化」的嫌疑，許多AI界大鱷指出，其技術壁壘似乎一定程度上被高估了。

2022年10月，谷歌曾經宣布過開發文本轉影片產品Imagen Video。根據同步公開的技術論文，當時的谷歌工程師們就已經開始計劃以24FPS的幀數輸出1280x768高畫質影片，並且嘗試在保留物件結構的同時「讓物件結構能夠完成3D旋轉以及更多的畫面形式」。

此時距離OpenAI釋出著名的DALLE-2，僅僅只有半年的時間。

而針對OpenAI宣稱sora是「世界模擬器」，圖靈獎得主、Meta首席AI科學家楊立昆（YannLeCun）認為，根據提示詞生成的大部份逼真影片，離「AI理解物理世界」還差得遠，刷屏的影片仍有很多bug，生成影片的過程與基於世界模型的因果預測完全不同。

而同日釋出的谷歌多模態模型Gemini 1.5，能持續執行100萬tokens，「1小時影片、11小時音訊、超過3萬行程式碼」，我大膽揣測，由於sora以影片的方式呈現太過驚艷，才讓谷歌成了汪峰，痛失頭條。

今年1月，北京大學、史丹福大學、Pika Labs聯合釋出了一套全新的文生圖框架RPG-Diffusion Master，旨在解決文生圖常常「貨不對版」背後的兩大難題：缺乏畫面的空間引導，並且難以處理重疊的物件；基於反饋的方法需要收集高質素的反饋數據，並產生額外的訓練成本。

所以很大程度上，真正讓「中美AI角逐」看起來略顯吃力的地方，不是創業者不努力，而是一是努力不過「鈔能力」，二是如那位OpenAI的天才謝賽寧所言，人才、數據、算力，三者之間的差距，很難彌補。

由剪輯工具衍生出來的「文生影片」產品，往往背靠著巨大的內容生態。作為創作者生態的一環，這層內容的一體兩面，是第三方「文生影片」產品在商業化上存在巨大的問題。

兩年前我曾經收到過一份「文轉影片」產品的BP，第一頁旗幟鮮明地寫著「做內容賽道的基建產品，成就中國最大的泛知識內容創作者平台」，核心競爭力是「行業率先的中影片素材庫」「獨創的智能文本區」「雲協作」，融資目標相對保守地定在了500萬美元。

這幾天重新聊起Sora的時候，才發現他們沒有挺過2023，當初發BP給我的朋友發了一個哭臉emoji，說：「一開始我們就錯了」。

我忍不住追問他們的復活計劃：「文生影片這一段一定要和Sora對比嗎？就像文藝片存在的同時不影響爆米花電影的賣座，只要成本夠低、操作門檻夠低，文生影片工具似乎是有一定市場的，並不一定需要‘太智能’。」

朋友的對話方塊開始漫長地停留在「對方正在輸入」狀態。半晌，他決定回復這樣兩段話：「老板不看好中影片賽道，覺得XX就那水平，我們還給他們的創作者做工具就更沒前途了……泛知識類影片的商業天花板可能只是億級，而影視廣告行業的商業天花板是萬億級的。」

同樣的「出身困境」，也體現在多模態大模型衍生出來的「文生影片」產品中。這些產品所提供的「文生影片」功能，大部份都為明確的套用場景設計，例如電商虛擬主播、服裝設計展示，進而導致他們最終輸出的成品通常呈現出「半AIGC狀態」——幫助使用者在有限的樣版下進行一定的原生。

還沒看到產業化的可能

也不是沒有樂觀的聲音。

「現在是整個行業技術不成熟啊，我覺得這個方向可以再跑跑，雖然Sora是SOTA的演算法，但我覺得差距沒大家想象的那麽大，到今年年底的時候估計會接近文生圖。」

當我問及文生影片在國內的前景，投了大模型公司的James（化名）這樣告訴我。SOTA，全稱「state-of-the-art」，用於描述機器學習中某個任務上當前最優效果的模型。

樂觀或悲觀，不過是大家基於自己看到的論據得出的主觀結論。如果文生影片在國內有機會，不妨把問題提得再具體一點，那會是誰的機會？隨著融資軍備競賽的白熱化，會是現有這些大模型頭部玩家之間的競爭嗎？

頭部大模型創業公司裏，月之暗面、MiniMAX、百川智能等都在年後傳出了最新一筆大額融資的訊息。彈藥充足，為的是應對模型叠代持續燒錢的現狀，而多模態模型正是當下國內大模型的競爭點之一。

據我了解，騰訊、智譜AI等都已經在研發影片生成大模型。月之暗面也被媒體披露出正在研發通用多模態模型。

投資人的觀點仍然沒有定論。James判斷，還是大模型公司機會大一些。Magic認為，看上去似乎是這樣，變量在於國內這些大模型公司把核心任務放在了追趕GPT4和5上，而文生影片是另一條線，肯定會做，但能給多少資源還不一定。

「如果產品能立住，不排除有獨立模型開發的公司也能跑出來。」

而當著眼於實際套用，只能說，不管是國內公司，還是Sora、Runway、Pika，他們的產品距離產業化套用還有一段距離。有投資人告訴我，文生影片這件事要在中國落地，還是要關註商業化的問題，或者公司有出海的能力。

再講一個現實的創業故事吧。出海，正是AIGC創業者吳立素給公司規劃的路徑。

幾年前我認識他時，他還在做網劇和網大，如今他公司的主要業務放在短劇和AI，利用人工智能生成三維和平面內容。2022年夏天，他成立了人工智能機構SOLART TECH（素鱗科技），並在隨後一年加入輝達inception program、Google cloud for AI startup和Amazon的加速計劃。

出於自身業務需求，而不是開一場釋出會，吳立素的團隊去年嘗試過自研影片生成大模型，數據來源是自有版權的電影和動畫片。花了幾百萬，他得出的結論是，投入巨大，結果卻差強人意，距離產業化套用比較遠。

「基於工程檔去做數據標註的精準度高，但我們數據量不大，所以生成的內容比較有限。動畫部份和Pika 1.0的效果相近，但真實人物會有恐怖屋效應。」

「我們團隊基本上都是會寫程式碼的影視藝術工作者，所以開始還會有一點優勢。」在他看來，去年包括Pika在內的很多團隊進行畫面推理還只是基於影像學研究，而今年Sora團隊裏的成員，有越來越多的跨專業人才能進行交叉學科研究。

架不住OpenAI大力出奇跡。吳立素決定放棄自研影片生成大模型，轉向基於大模型做一些小模型。他希望結合其他技術和工具，推動產品實際落地。「國內做全影片生成的公司方向都不太一樣，但多是以科研的形式在做，目前沒看到有商業化或產業化的可能性。」

產業套用更多的要求是精準度，而即使是Sora的呈現也有很大的不穩定性。他打了個比方，「數學公式大家都會，但不一定所有人都能用那套公式把套用題解出來。」

至於文生影片對影視動畫產業的影響，也許沒想象中那麽大。吳立素有電腦背景，又在中傳讀了數碼媒體專業，此後在影視行業摸爬滾打十幾年。他的判斷是，文生影片目前適用於不太有特定需求的內容填充和背景畫面豐富。

「傳統影視動畫產業裏比較講究精準度的場景和角色情緒表達，純文字直接生成比較難得到結果，透過影像（分鏡故事版）生成會更準確一點。」隨著Vision Pro的上市，他也更看好未來3D市場以及3D內容和AI的結合發展的機會。

吳立素做出的另一個決定是，今年公司要出海。「因為國內使用者需求增長比較慢，現在更多是賣課的人能賺到錢。」他無奈道。

「向錢看」，是不少人瞧不上中國AI的原因。一位投資人朋友對我表示，從互聯網時代開始，美國的科技公司就代表科技與商業的雙重突破，而國內則把重心更多放在了跟隨和套用，曾經我們似乎看到了平起平坐甚至超越的可能，但到了AI時代，才發現一切都是幻覺。

去年此時，很多人問，為什麽中國沒有產生ChatGPT，到了今年問題又變成了，為什麽中國沒有產生sora，在天才科學家史蒂芬·沃爾弗拉姆那本【這就是ChatGPT】的導讀序中，作者建議我們把問題換成，「為什麽全世界只有OpenAI能做出ChatGPT」。

我認為方向無關對錯，只跟現實土壤有關。2022年中旬，曾經有一位美元基金投資人，強烈建議我關註AI發展趨勢，當時就提到了GPT等，而我卻一知半解，國內更是鮮有報道，現在他轉身加入一家國外的科技創業公司，按他說法，「出來躺躺」。

在那本書中，史蒂芬·沃爾弗拉姆提到了「計算不可約性原理」，「人類、AI、自然界和社會等各種計算系統具有根本的不可預測性，始終存在‘收獲驚喜的可能’。人類可貴的，是有內在驅動力和內在體驗，能夠內在地定義目標或者意義，從而最終定義未來。」

那麽不妨問問，對這種不可預測的「收獲驚喜的可能」，我們到底憑什麽？（作者/劉燕秋蒲凡來源/投中網）