專訪商湯智能產業研究院院長田豐：推動「冰山之下」的大模型技術創新探索

2024-03-18科學

每經記者：可楊每經編輯：文多

錢學森在【從飛機、導彈說到生產過程的自動化】一書中寫下：「用機器代替人的體力勞動，是第一次工業革命，即機械化；用機械系統來替人作非創造性的腦力勞動，是第二次工業革命，即自動化。」

3月15日，由工業和資訊化部工業文化發展中心牽頭成立的AI套用工作群組主辦，每日經濟新聞承辦、數智未來場景實驗室協辦的「Sora的啟示：AI套用再飛躍」主題沙龍活動在京成功舉辦。

活動期間，商湯智能產業研究院院長田豐在接受【每日經濟新聞】記者專訪時提到，當前我們正在經歷「機械化」到「自動化」階段。

大模型，是人類邁向自動化的關鍵基礎設施。隨著Sora的推出，圍繞大模型的競爭繼續提速。就Sora帶來的啟示、智能基礎設施的建設、算力的普惠之路，【每日經濟新聞】記者與田豐展開對話。

田豐認為，我們既要借鑒OpenAI的「踏腳石理論」，同時也要學習錢學森所推崇的科研要遵循「冰山理論」。「我們不能只看水面上，別人做到哪兒，我們就馬上去跟，也要看到水面之下應該怎麽走。」田豐表示。

Sora的啟示：尋找踏腳石

Scaling Laws（尺度定律），指的是模型訓練計算量、訓練數據規模、模型參數量與模型效能之間的正相關關系，一個更通俗的說法是「大力出奇跡」。

「Sora雖然不完美並且處於早期階段，但它確實是尺度定律的又一次驗證，也是一個大模型工程化的進展。」在田豐看來，Sora的誕生，首先代表著尺度定律的又一次成功。

田豐指出，Sora所采用的Diffusion Transformer（DiT）架構，是多種已有架構之間的工程化融合，故而具備Diffusion（擴散）等架構的長處，也不可避免地帶有一些缺陷。目前，全球範圍內的研究者同時在探索不同架構方向。田豐將這種探索比喻為一棵科技樹，Sora是在其中某一條路徑上領先，而其他研究者會在其他路徑上積極探索，最終互相借鑒，讓AI基礎科研更快發展。

田豐認為，Sora所帶來的另一個啟示是，Sora是OpenAI邁向AGI（人工通用智能）的「踏腳石」。

「新奇事物的重要性在於，它們往往可以成為踏腳石探測器，因為任何新奇的東西，都是催生更新奇事物的潛在踏腳石。」OpenAI科學家在其撰寫的【為什麽偉大不能被計劃】一書中，提到了「踏腳石」。

在專訪中，田豐也反復提及「踏腳石理論」。他表示，在基礎研發中，想達到A點，有可能需要往反方向走到B點，進而再到達A點。因為創造力是一種「搜尋」，基礎研發是在龐大「解空間」中透過多個路徑深入探索，而無法完全透過目標找到最短的直線。「怎麽去定義踏腳石，就是一定要有新奇性。」

田豐表示，基於這個理論，中國技術研發也要找到更多踏腳石。「你有更多的踏腳石之後，就能發現跨領域、跨學科的相關性，上面‘長’出的基礎研發突破就會更多。」

除此之外，田豐同樣談到錢學森所推崇的「科研遵循‘冰山理論’」，即人們看到的AI「技術突變」只是水面之上的「冰山一角」，水面之下還有更多「隱藏創新」在支撐。「我們不能只看水面上，別人做到哪兒，我們就馬上去跟，也要看到水面之下基礎科研布局，應該怎麽走。」

那在大模型競爭中，水面之下的技術應該如何挖掘？

田豐認為，目前大家有不同的探索方向。例如，自動駕駛的大模型旨在模擬現實世界，實作自動駕駛的仿真，並透過神經網絡來完成感知、決策、執行及反饋等任務。而特斯拉將自動駕駛模式遷移到人形機器人上。於是，人形機器人的出現，又可以進一步作為數據和反饋來源，驗證基礎大模型對現實世界的認知誤差、糾正幻覺。

當前對於大模型的驗證還依賴於人類反饋強化學習（Reinforcement Learning from Human Feedback，簡稱 RLHF），而這面臨反饋速度慢、成本高以及人的自身認知偏差等問題。因此，科研界同樣在嘗試采用「具身智能」等其他新研究方向，以在復雜多變的物理世界環境中直接驗證機器智能，讓人工智能不再局限於對人的模仿，而是更直接地探索世界、糾偏認知。

「通往AGI的路，絕對不是只有一條。」田豐認為，基於這樣多元化的探索，才會有可能逐步到達AGI。而單純依靠模仿人類思考方式的大模型，對於極為復雜的整個物理世界，尤其是人類已知知識以外的更大的知識領域是無法去探索的。正如錢學森所說——「Nothing is Final」，現在認為正確的人類知識，在下一個時代看來就會具有局限性和偏差。

數據競速：AI合成數據大有可為

對於通用大模型而言，尺度定律（Scaling Laws），有沒有可能在某一階段失效？

「（在）訓練數據用光時」——這是田豐的答案。

田豐認為，數據多模態非常重要。「文字語言具有最高的知識密度，但是光有文字語言也不夠，視覺和語言的融合也很重要。」他表示，純視覺學習未必會學到物理之間的因果關系，視覺加語言的數據，會帶來更好的訓練效果，讓大模型能夠理解復雜環境、復雜任務中的表征和表意內容，也能讓Sora現在存在的一些物理上的混亂，得到改善。

從數據層面看，田豐認為，目前存在多個潛在的訓練數據增長點。

首要的是人們日常使用的套用。例如微博，每日有2.6億使用者在微博發帖，這為模型訓練提供了豐富的增量數據。其次，具身智能的傳感技術，同樣能夠提供數據增量，例如自動駕駛汽車和人形機器人都是數據收集器。此外，商湯目前的衛星遙感智能解譯技術，能夠觀察地球物理環境每一天發生的多維度變化，同樣提供了大量的數據資源。

當現實世界產生的數據仍舊不足時，就需要同時在AI合成數據層面進行科研探索。田豐介紹，目前，合成數據仍處於前期階段，生成的數據質素參差不齊。業界期待多模態大模型不僅能輸入多模態數據，同時還能產出接近真實世界的高質素多模態數據。

但當前，如果影片數據自動標註的描述文字不精準，則會造成「Garbage in，garbage out」（指輸入的垃圾數據會導致大模型輸出的垃圾結果），其風險依舊擺在AI合成數據面前，各國AI基礎科研團隊正在攻堅。

對此，田豐則認為，業界都憧憬做成「世界模擬器」，但目前生成的影片數據與真實世界仍有較大距離。Sora所生成的最好的影片內容是「我的世界」遊戲影片，幾乎與玩家實際體驗無異。這得益於OpenAI對「我的世界」遊戲公司與遊戲引擎的收購。

遊戲引擎為了讓玩家感覺更真實，無論是光照、紋理還是人和物體之間的互動，都比較接近現實世界。所以Sora用這樣的訓練數據來生成，使得大模型能夠從中學習並理解遊戲中的復雜因果關系，進而生成逼真的內容。更為重要的是，遊戲世界會一直產生大量較低成本的世界仿真數據，比從現實中收集要快很多。

「但它（指Sora為代表的大模型）是不是真正理解現實世界、物理世界的所有因果規律？其實，人類目前仍沒有完全理解和掌握。」田豐繼續說道，從這個角度而言，合成數據很重要的一點是，我們應像對抗神經網絡的邏輯一樣，必須有另一個模型驗證合成數據與事實的接近程度。

將視線聚焦於當前的數據競爭態勢，田豐表示，中國擁有14億人口，每天都在產生海量的數據，這就意味著巨大的潛力，我們有能力以更低的成本來采集這些數據。此外，中國還擁有106億的物聯網終端，其中尚未采集到的各類數據——如工業傳感訊號等，都是極具價值的資源。若能成功采集到這些數據，將成為訓練垂類大模型的優質素材，也能幫助大模型更深入地理解產業場景中事物之間的因果關系。此外，在合成數據方面，大家也均處於起步階段，還在互相競爭。

田豐認為，人工智能是當今社會數據資源最大的需求方，若能在數據領域構建出完善的體制機制，使數據成為市場化流通的關鍵要素，那麽便能在數據層面持續推動尺度定律，加速大模型的進步。

如何實作AGI？兩條路徑並列

如何實作AGI？田豐提出兩個方向。從生成智能的角度來看，生成式人工智能正在逐步轉向更具創意性的工作，這需要更多大模型的「幻覺」想象力。在這條路徑上，「幻覺」並不是壞事，創作科幻小說、科幻電影就體現出了這一點——想象力在其中扮演著至關重要的角色。愛因斯坦也曾經提出「想象力比知識更為重要」。

另一個方向則更加側重於科學和工業產業具體問題的解決，這就需要致力於減少幻覺，持續提高準確度和可靠性，一旦能夠達到人類科學家、工程師的平均水平，突破「工業紅線」，大模型就能全面普及到各個行業產業和科研領域。

在田豐看來，大模型實則是公共基礎設施的一部份，是智能基礎設施，而基礎設施的特點就是重資產型、重資本型。

在現有情況下，大模型研發與套用是一個長期投資。一方面，基礎模型不能跟進到GPT4，就自認為「領先全球」，另一方面，在國產基礎模型與國際縮小差距的同時，也要積極探索新的發展方向。「拓荒者創造方向，跟隨者選擇方向，領先者並不代表永遠的成功，而可能被具有強大創新能力的跟隨者趕超。」從這一角度看，長周期持續的人工智能基礎科研、基礎建設資本投入至關重要，這也是充分發揮制度創新的機遇。

盡管資本通常會關註盈利問題，但也不是絕對，田豐用他在雲端運算產業的經驗舉了個例子。2012年前後，雲端運算公司主要的使用者群體是網站站主，且許多是個人區域網絡站站主，資金相對匱乏。新一代基礎設施的早期，是投資與「裝置」期，表象上就是盈利難。

然而，根據世界銀行【為發展提供基礎設施】報告分析，基礎設施投資、「裝置」期通常需要10年甚至15年，而基礎設施投資建設往往伴隨著經濟周期的上升階段，當基礎設施建設成熟，則會持續產生廣泛普惠的社會全產業價值。例如當前，雲端運算已經逐漸成為企業和科研通用型技術，廣泛套用於金融、能源、交通等多個領域。因此，人工智能基礎設施的建設在前期更多地依賴於國家大基金和大型企業的投資，類似於高速公路、5G通訊網絡的建設。這種資本增密的投資模式對於推動新質生產力技術的發展和新一波經濟繁榮至關重要。

因此，目前我們仍處於基礎設施建設階段，為了將來能建成「萬裏長城」，先要把地基打好。在基礎設施的「裝置」期，需要在超大規模AI算力中心、統一數據市場平台上追加投入，充分挖掘並利用中國的數據資源、大市場規模和科技人才儲備。

如何促進套用繁榮？算力普惠是關鍵

在重資產、重資本型的背景下，對於未來「百模大戰」的終局，田豐用作業系統的競爭來舉例：

「當時多家廠商的很多人覺得（作業系統）就是‘大B’的事情，即大模型從頭部大企業端賺錢。以1981年個人電腦作業系統的‘春秋戰國時期’為例，UCSD Pascal P-System（一種作業系統）單機授權費高達450美元，CP/M-86（同為一種作業系統）授權費是175美元，而微軟MSDOS僅向買PC的消費者收60美金，而IBM可免費使用微軟開發的作業系統，但不能獨占使用權。

「微軟選擇的差異化戰略是什麽？比爾·蓋茨在【未來之路】一書裏寫下：‘我們的目標不是要直接從IBM（大企業）那裏賺錢，而是把軟件平台的特許使用權出售給個人電腦工業（所有硬件）的生意。’比爾蓋茨的目標，是電腦的使用接近免費時，自己的作業系統將占有最大市場份額。

「雖然大模型目前還處於企業級套用市場，但伴隨AI芯片算力價格的持續下降、大模型個人終端湧現，將會呈現大模型作業系統的‘馬太效應’，頭部廠商占有最大市場規模。」

田豐認為，目前大模型的方向並非是向大型企業收取高額費用，而是應當透過低價、易開發、快叠代、硬件相容等競爭策略致力於最大限度搶占市場份額，並積極吸引各類AI新型硬件的支持。只要有越來越多的、不同類別的硬件終端支持同一款大模型，它就能像作業系統一樣受到AI套用開發者的歡迎。而終端硬件選擇大模型，則源於消費者使用者群體的驅動，而使用者之所以選擇某一款「作業系統」，是因為其上整合了眾多由小微或個人開發者開發的長尾大模型套用。這是Windows和iOS等頭部作業系統得以成功的原因，也是大模型突破紅海的一條已驗證的戰略路徑。

目前，套用所面臨的主要挑戰體現在兩大方面。

首先是算力成本問題。若算力成本持續高價，長期來看，必然會抑制大模型套用創新的蓬勃發展，就像互聯網APP早期不是靠使用者每月交納30美元會員費，而是以近乎免費的使用權拉動新使用者「嘗鮮」。

因此，AI芯片行業勢必不斷降低成本，並透過智算中心架構創新推動AI雲算力的普及化、全民化。若GPU領域不進行快速改革，業界勢必出現新一代的芯片產品、計算力架構，以降低成本並促進AI套用的廣泛發展。

另一方面，大模型的持續升級也會給套用帶來挑戰和機遇。由於大模型每月、每季度都在更新升級，套用在其原有基礎上的改進可能很快被新版本大模型所替代和覆蓋，即大模型作業系統和套用的「邊界」尚未確定，大模型不斷嘗試做套用的功能，套用則補上目前版本大模型的「短板」，降低消費者使用門檻。

因此，套用開發商加深行業套用「護城河」的同時，可尋求與大模型的解耦，或提供跨多個大模型的統一服務入口、一站式使用者開發環境，並尋找產業中最具盈利潛力的商業路徑。

這樣一來，即便大模型升級，套用也能迅速跟上或匹配更優競爭力的其他模型，保持套用層對私域使用者的競爭力。但長遠來看，套用開發者依舊會逐漸趨向使用更為穩定、功能強大的頭部大模型底座。

圍繞算力問題，田豐表示，目前，我們正處於人工智能時代的算力初期階段，算力成本仍然較高，只有大型企業能夠負擔。然而，隨著國產AI芯片、國產超大規模AI智算中心技術的不斷進步，算力成本就會逐漸降低，每個人也能接近以免費的方式享用新一代人工智能的科技紅利。龐大市場的吸重力，將倒逼AI模型架構和AI算力集群架構的深刻變化。

因此，田豐認為，當前正處於AI計算大變革的前夜。他表示，當AI算力成本降至拐點時，社會需求量與使用者規模將會迅速飆升，助推全民AI創業熱潮，普通使用者會發現算力成本已經逐步平攤到廣告成本或交易成本裏。「科技發展史證明智能產業普及期是這樣的，但怎麽會發生？就要回到新一代人工智能基礎研發的路徑上，要找到新的踏腳石，一步一步走過去。」

每日經濟新聞