WAIC啟明創投·創業與投資論壇成功舉辦

2024-07-12科技

7月6日，由啟明創投主辦的2024世界人工智慧大會（WAIC）「啟明創投·創業與投資論壇——超級模型、超級套用、超級機遇」在上海世博中心紅廳成功舉辦。大語言模型、多模態模型、具身智慧和生成式AI套用領域的著名專家與學者，頂尖投資人和領軍創業者匯聚一堂，圍繞生成式AI基礎技術進展、商業套用前景和創業投資生態等主題展開分享與交流。

作為中國在AI領域最早投資且布局最豐富的投資機構，這是啟明創投連續第二年主辦該論壇，也是本屆世界人工智慧大會唯一一場由創業投資機構發起的、旨在從創新視角展示和探討生成式AI的分論壇。

啟明創投從2013年開始系統性布局人工智慧領域，從AI 1.0到AI 2.0，經過十余年的深耕與前沿洞察，啟明創投在AI領域投資了眾多計畫，多家已上市或成長為獨角獸企業。

啟明創投主管合夥人周誌峰在以「技術突破到套用變革-AI發展的新篇章」為主題的開幕演講中介紹道，啟明創投在人工智慧領域的投資策略已經發生演變，從將人工智慧視為一個技術或一個垂直領域去進行投資，轉變為將其視為基礎能力、去尋找其在千行百業落地的巨大潛力。

啟明創投主管合夥人周誌峰

相較於互聯網浪潮中套用的落地時間點，周誌峰預測在當前的AI浪潮中，套用的爆發將會顯著提前。目前，生成式AI在三個「C領域」——Copilot（生產力工具）、Creativity（創意）、Companionship（陪伴）獲得了大量使用者的青睞，呈現出類似互聯網套用的發展軌跡，正在經歷從用來提高效率（Save Time）的套用向旨在獲得愉悅（Kill Time）的套用的轉變。他指出，互聯網是把資訊分發的邊際成本幾乎降為零，生成式AI的核心是把數位化內容的創造邊際成本幾乎降為零，由此看來AI技術一定會釋放巨大的價值。

周誌峰指出中國巨大的市場、優秀的技術能力及人才儲備、過去20年培養和積累的卓越的創造套用的經驗及能力，為中國引領下一代人工智慧的原生套用奠定了很好的基礎。基於啟明創投投資團隊深度交流過的400余家AI創業企業的統計，與去年相比，多模態套用的比例呈現上升趨勢，也出現了許多基於AI大模型技術的新的套用類別，同時更多創業公司深耕某個垂直行業和場景，而基礎設施層的技術創業方向也更加多元化。此外他還分享了生成式AI創業企業的三個典型創始人畫像，包括AI科學家及科技巨頭AI研究負責人、產業專家及大型企業資深產品或營運高管、以及新銳創業者及技術天才三類。

針對生成式AI套用落地面臨的問題，周誌峰指出：一，降低生成式AI實作普及所需的模型使用成本；二，提升大模型的效果；三，增強生成式AI套用的使用者留存率。因為生成式AI套用企業從0到1的成長時間比其他領域更長，需要同時克服TPF（技術-產品契合度）和 PMF（產品-市場契合度）兩大挑戰，所以創始團隊需要更大的耐心和決心，理解技術（技術的邊際）、理解產品（原生AI產品的新特點和新分發機制）、理解世界（全球化發展的機會）。

周誌峰同時圍繞大語言模型、多模態模型、商業機會等做出2024生成式AI十大展望：

1. 當前生成式AI的兩大核心技術GPT和擴散模型將逐步融合，激發全新模型能力；

2. 高品質數據的獲取和組織將顯著影響新一代模型，合成數據在預訓練中的占比將大幅提升；

3. Multi-Agent技術將飛躍，透過最佳化協作和分工顯著提升生成式AI效率和效果；

4. 將出現影像和文本的統一連續表示，並且基於此的圖文聯合擴散模型將達到GPT-4o級別能力；

5. 影像和視訊隱空間表示的壓縮率提升五倍以上，從而使生成速度提升五倍以上；

6. 3年內視訊生成將全面爆發，結合3D能力，可控的視訊生成將對影視、動畫、短片的生產模式帶來變革；

7. 我們將見證壓縮更多模態資訊的超級多模態大模型，如文本、影像、語音、音樂、3D、傳感器數據（控制訊號、眼動訊號、手勢資訊、雷達訊號等）；

8. 生成式AI打通了人類語言與機器語言的轉換通道，命令機器完成復雜任務的成本將顯著降低，帶來巨大的生產力變革；

9. 端側推理會有巨大增長，來自三個因素的疊加：推理最佳化演算法+端側推理芯片+端側大模型；

10. AI將在多個數位化水平較高的行業中占據主導地位，並將重塑絕大部份企業軟體。

在本次世界人工智慧大會期間，階躍星辰先發了三款Step系列通用大模型新品，全面升級通用大模型底座能力。在此次論壇中，階躍星辰創始人、CEO姜大昕在主題為「攀登AGI的路徑與實踐：萬億參數+多模融合」的演講中指出，探索AGI路徑，「Scaling Law」和「多模態」是相輔相成、缺一不可的兩個方向，兩者齊頭並進，最終到達AGI。

階躍星辰創始人、CEO姜大昕

在姜大昕看來，Scaling Law目前依然奏效，模型效能仍然在隨著參數量、數據量和計算量的增加呈冪次方增長。階躍星辰在系統和演算法上積極探索，最終走通了Step-2萬億參數MoE大模型訓練的道路；同時，多模態是構建世界模型的基礎能力，面對將理解和生成統一在一個模型裏的挑戰，階躍星辰已經取得了一定進展，其新升級的Step-1.5V千億參數多模態大模型效能大幅提升，具備更出色的視訊理解能力；新釋出的Step-1X影像生成大模型，則是階躍星辰首次推出多模態生成大模型。

可信大模型公司無限光年在大會的第一天也釋出了光語大模型，灰盒可信，百億參數模型優於超大規模模型GPT-4 Turbo。復旦大學浩清特聘教授、上海科學智慧研究院院長、無限光年創始人漆遠在【灰盒可信，釋放大模型生產力】演講中，從技術視角指出Scaling Law改變了人工智慧，但並不會直接引領達到AGI，AGI的目標是發現復雜世界的未知規律；但當前大模型都高度依賴數據，而未知規律可能缺乏海量數據支撐。在此次論壇上，漆遠介紹了最高級人工智慧的標準——結合了發現復雜世界未知規律和節省能量的智慧腦：AI愛因史坦

復旦大學浩清特聘教授、上海科學智慧研究院院長、無限光年創始人漆遠

漆遠分析，目前大模型主要是聯結學派的「黑盒」機率預測，如果將符號計算與大模型相結合，就能同時具備慢思考的「白盒」邏輯能力，兩種方法的融合是AGI發展的重要方向，實作「灰盒」可信；深度學習能實作數據擬合，且可以延展至數據沒有的地方，當知識規則和關鍵數據矛盾時，能夠調整知識規則，擺脫數據依賴。他進一步介紹，「灰盒」可以透過符號計算與神經網路的結合，應對大模型的幻覺問題及垂直領域的專業問題。展望未來，他希望公司可以深耕場景，灰盒可信，並釋放大模型生產力，賦能千行百業。

訓練和推理是大模型生命周期中不可或缺的兩個階段，都需要強大的算力資源來支撐。在2024年世界人工智慧大會期間，無問芯穹釋出全球第一個支持單任務千卡規模異構芯片混合訓練平台，為大模型行業提供了有力的算力基礎設施支撐。無問芯穹聯合創始人、CEO夏立雪在「構建AI Native基礎設施」主題演講中表示，算力已然成為了AI發展和繼續發展的基石，而AI Native套用落地所面臨的四個關鍵Infra問題包括：啟用「沈睡芯片」並促進異構算力整合、提升多種計算卡大模型計算效能、為大規模訓練集群穩定訓/推夯實基座以及更為高效地利用有限的端側計算資源。

無問芯穹聯合創始人、CEO夏立雪

針對多元芯片，無問芯穹致力於提供高效整合異構算力資源的優質算力平台、支持軟硬體聯合最佳化與加速的中介軟體，以及好用的大模型套用開發與服務工具，從而實作對異構算力的全量利用，由此無問芯穹將異構千卡混訓能力整合到了無問芯穹Infini-AI雲平台中。夏立雪指出，無問芯穹希望透過演算法創新、模型計算、算力平台及硬體推理的最佳化，持續降低大模型套用的落地成本，讓更多人可以擁抱新技術。

生數科技聯合創始人、CTO鮑凡在「U-ViT：多模態大模型的變革與未來」主題演講中，分享了公司在多模態大模型領域具備全棧自主研發能力，布局影像、3D、視訊生成等多模態能力。此前，生數科技聯合清華大學正式釋出中國第一個長時長、高一致性、高動態性視訊大模型——Vidu，這是自Sora釋出之後全球率先取得重大突破的視訊大模型，效能全面對標國際頂尖水平。該模型采用團隊原創的Diffusion與Transformer融合的架構U-ViT。

生數科技聯合創始人、CTO鮑凡

在大會現場，鮑凡也介紹了U-ViT架構的原理，並指出該架構確保了最優生成品質、可控的計算開銷、參數規模擴充套件性、具備湧現能力。作為首家將ViT架構成功套用於大模型訓練的企業，生數科技推出的多模態擴散模型UniDiffuser在影像生成過程中，能夠支持多元化風格、具備「藝術級」美學水準，語意理解能力突出。公司還在視訊生成式大模型Vidu上取得進展，支持音視訊合成和4D動畫生成，實作生成效果的不斷提升。

隨著人工智慧和機器人技術的快速發展，傳感器、執行器、計算能力和AI演算法的持續進步，具身智慧成為學術界、產業界共同關註的熱點。從技術突破到產業落地，具身智慧目前發展如何又將走向何方？在「具身智慧：從技術突破到產業落地」專題環節，啟明創投科技團隊投資人周嘯飛擔任主持，與清華大學助理教授、星動紀元創始人陳建宇，上海交通大學教授、穹徹智慧聯合創始人盧策吾，北京大學助理教授、北大-銀河通用聯合實驗室主任王鶴展開討論。

星動紀元是國內領先的人形機器人公司，推出的產品星動一號也是世界上第一個登上長城的人形機器人。陳建宇認為人形機器人會是通用機器人的終極形態，不僅因為雙足與雙手的純人形形態與現有環境的相容性更好，在訓練數據獲取上也更容易從人類世界中進行遷移。在技術範式上，端到端大腦小腦融合方案會是未來很重要的研究方向，僅僅用人類語言作為大小腦之間的傳輸界面效果有限，可以借鑒目前自動駕駛中的端到端聯合訓練，實體層面數據直接反饋給圖文大模型將更好提升整體模型效果。

陳建宇認為未來機器人有望在各類任務上都做到極致效能。在不久的將來也授權以設計一種機器人的圖靈測試，有一個機器人和人來進行互動，背後可能是智慧的自主控制也可能是人類遙操作，當技術發展到很難分辨機器人的背後是人工智慧還是人類遙操作時，可能便是機器人真正實作智慧與通用的那一天。最後陳建宇對國內發展具身智慧的前景保持樂觀，認為每個創業公司都應該思考如何利用中國市場的優勢，最大化撬動國內供應鏈的優勢，打造具有全球化競爭力的硬體產品。

盧策吾是世界範圍內第一位由機器人來給自己刮胡子的人類，展示了穹徹智慧背後精密力控機械臂的先進技術。盧策吾認為具身智慧的終局需要綜合考慮技術的叠代和商業的需求，具身智慧作為承載硬體的軟體演算法歡迎各種型別的機器人形態。對於具體的技術路徑，具身智慧演算法需要兩個核心要素，分別是能夠感知和理解世界的世界模型，以及具有強魯棒性的技能操作模型。其中在操作模型中力反饋機制十分重要，不僅是在影像維度之外增加了一個互動維度，同時也可以減少對世界模型毫秒級別決策的依賴，穹徹智慧在此次展會上展示的削黃瓜、疊衣服等技能都說明了操作模型具有魯棒性後可以大大拓展潛在的套用空間。

說起具身智慧的未來，盧策吾認為不久的將來我們可以看到一批又一批的操作技能的ChatGPT時刻，不斷豐富機器人的操作能力，逐漸讓機器人的商業飛輪不停轉起來。同時國內的年輕學者也在不斷進入具身智慧行業，具身智慧領域的博士申請近年來非常火爆，中國的人才密度和潛力很大，未來國內的頂尖高校和公司將會和同行在國際舞台上同台競技。

銀河通用前段時間釋出了首代具有泛化性的具身大模型機器人，展示了通用機器人未來走進千家萬戶的無限可能。王鶴認為人形機器人是未來整個通用機器人市場的最大公因數，但在邁向這個終極目標的過程中需要每一步都有健康的商業模式讓機器人真正進入場景，上半身擬人下半身底盤會是三年內最可能落地的實際方案。在技術角度銀河通用非常關註小腦層面的技能控制模型如何實作足夠的泛化和通用，針對小腦技能，銀河通用自研合成了千萬級的場景數據及十億級的抓取數據，在合成數據的訓練下，銀河通用機器人目前已實作抓取隨機放置的透明、高光等物體的成功率在95%以上，並在此次WAIC展台上展示了能夠抓取觀眾提供的任何物體的強大泛化性。在此基礎上，銀河通用正在逐步探索實作商業化。

王鶴認為能落地的機器人需要足夠低的成本和足夠高的耐用性，這些都是需要技術公司不斷打磨硬體和供應鏈能力，國內的創業公司具有天然優勢。在討論的最後，王鶴呼籲大家對具身智慧在中國的發展抱有信心，一旦中國能夠量產人形機器人和達到具身智慧的通用性，我們將以最可靠的供應鏈和最全面的制造業，大規模把人形通用機器人推向市場。整個行業需要資本的持續支持和人才的長期投入，具身智慧通用機器人的未來也一定屬於中國。

大模型的突破為超級套用的發展註入了強大的動力。伴隨生成式AI產業從超級模型轉向超級套用，未來將會誕生哪些超級套用，將會給人類的生活帶來哪些改變？在「超級套用的新機遇：與模型突破互利共贏」AI套用專題討論環節，啟明創投科技團隊投資人胡奇擔任主持，與智譜AI COO張帆，米粿AI創始人、CEO丁黎，無限光年COO朱劍雄，悉之智慧創始人、CEO孫一喬，銜遠科技首席演算法科學家丁寧展開討論。

張帆介紹了智譜AI作為一家大模型公司，擁有自主智慧財產權的核心演算法和完整的模型矩陣，涵蓋大語言模型、程式碼模型和多模態模型等。張帆認為，未來幾年內可能出現顛覆性的超級套用，但這些套用往往難以預先設計，而是透過不斷叠代逐步出現。他強調，大模型的核心在於提升人機互動的頻寬，從早期的鍵盤到如今的自然語言，大幅提升了互動能力，每次互動頻寬的提升都會重構使用者需求和套用方式。

關於智譜AI的獨特優勢，張帆指出，大模型降低了AI套用的成本和門檻，從而使AI從少數大廠專屬的高級能力，變成人人都可獲取的基礎生產要素。這種能力的普及激發了更多人的創造力，推動了產業和行業的變革。張帆還提到，智譜AI率先提出「Model as a Service」模型即服務的理念，使企業和開發者能夠透過MaaS平台降低使用和訓練模型的成本，更容易地探索和構建超級套用。智譜AI還透過開源和降價，推動了AI技術的普及和套用深度的發展。

在談及AI驅動的超級套用的未來時，張帆表達了樂觀態度，認為盡管打造超級套用不易，但AI時代將湧現出許多難以想象的套用。這一過程需要算力、網路、硬體水平胡使用者習慣的提升，以及遵循從小規模套用開始逐步發展的原則。張帆強調，透過擁抱和利用現有的AI技術，逐步改變現有的套用和產品，未來必將迎來AI時代的超級套用。

米粿AI致力於結合AI技術與內容生產，幫助創作者以更少的精力創作更好的作品，目標是成為AI漫畫和動漫平台的領軍者。團隊由產學研結合的三位創始人組成，丁黎曾任職於網易、虎牙直播、嗶哩嗶哩等公司；技術合夥人牛力是上海交通大學的副教授，他在影像編輯中的image composition領域，是國際上的拓荒者和探路者；營運合夥人陳達之有12年的投資經驗，擅長動漫和二次元計畫的投資。

丁黎認為，未來幾年內，繪圖、漫畫和2D動畫等領域將會出現顛覆性的超級套用。他指出，南韓的Webtoon透過工業化和流程化的方式成功實作高頻更新，提升了使用者體驗。米粿AI透過AI技術有望實作漫畫的高效生產，使得更新頻率大幅提高，改變使用者從付費到免費的消費模式，推動漫畫行業像短劇一樣高頻更新，提升使用者體驗和行業效率。

關於商業模式，丁黎表示，AI技術降低了內容創作門檻，使創作者集中在劇本、大綱和創意上，由AI完成繁瑣的繪畫過程，提高創作效率，使更多有創意的人加入文創行業。米粿AI的技術已將繪畫速度提升至原來的10倍以上，使漫畫創作更加高效和低成本。

在談到挑戰時，丁黎強調，與行業從業者形成友好生態系非常重要，AI應作為提升產能和效率的工具，而非完全替代人類。當前AI創業需要高資本和高技術門檻，團隊需團結合作，共同應對挑戰，才能在激烈的市場競爭中脫穎而出。

朱劍雄在圓桌對話中分享了他對未來超級套用的看法和公司戰略。他認為，未來幾年內，超級套用將在多個領域湧現。當前，AI大模型技術的接受度廣泛，且使用成本下降，推動了眾多企業和創業公司積極探索這一領域。朱劍雄指出，從PC互聯網時代到行動網際網路時代，流量入口的轉變提供了參考，大模型時代也會出現類似的趨勢，場景服務能力深厚的公司可能會成長為超級套用。

在談到可信大模型與超級套用的關系時，朱劍雄提到大模型技術存在「不可能的鐵三角」，即通用性、專業性和經濟性。他強調，無限光年選擇在專業性上深耕，構建行業知識內容的垂直大模型，透過神經符號計算技術，確保模型輸出的可靠性，並已在金融和醫療領域推出了具體的產品，如投研寫作助手和體檢報告寫作助手。這些產品顯著提升了工作效率，受到了使用者的高度認可。

在探討AI驅動創新套用的挑戰時，朱劍雄指出，產品經理的角色和要求發生了變化。現在的產品經理不僅要定義場景和需求，還需將這些資訊傳遞給大模型，進行評測和驗證。他認為，既懂模型又懂客戶的產品經理目前市場上較為稀缺，但隨著時間推移，這一問題將逐漸得到改善。

悉之智慧專註於AI教育，特別是AI教學解題。孫一喬在清華大學本科期間創立了這家公司，認為純統計模型在邏輯性和魯棒性上存在不足。孫一喬打比方稱，GPT-4駕駛宇宙飛船是不可靠的，但透過構建包含人類知識的白盒體系，可以顯著提高大模型的能力。

孫一喬介紹，悉之智慧透過構建完整的數學等學科知識體系，大幅提升模型推理能力，其數學解題能力顯著高於GPT-4o，現有產品在美國有近200萬使用者，年收入接近百萬美元，並與新東方等國內巨頭合作開發大模型。

孫一喬認為，未來超級套用應從需求出發，垂直解決問題，教育是很有潛力的領域。他強調，教育領域頻次高、需求剛性，是容易出現AI超級套用的領域，透過提升教學效率和學生的學習意願，創造巨大價值。

提升大模型數學能力方面，孫一喬提到OpenAI的Qstar計畫及其強化學習方法，認為透過逐步最佳化數學解題步驟，可以顯著提升大模型的邏輯推理能力。悉之智慧采用類似方法，結合完整的數學知識體系，逐步教大模型解題，以提高其能力。

在AI解題領域，孫一喬指出，專業AI能力與大模型結合的關鍵在於生態系的改進。悉之智慧致力於透過合作共贏的方式改進生態。垂直領域套用需要大量微調和強化學習，並希望未來生態系能更高效合作，共同提升基座模型的能力。

丁寧在圓桌對話中展示了其獨特的理工科視角和深厚的技術背景。他介紹了銜遠科技的戰略，即模用一體、通專結合，強調了在技術泛化基礎上提升專業性的理念。

在討論顛覆性超級套用時，丁寧提到大模型在處理各種資訊序列（如文字、視訊、DNA等）方面的潛力。他提出了兩個關鍵維度：成功時的收益和失敗時的損失，指出在一些場景下可以尋找成功收益大而失敗損失小的機會，例如科學發現和廣告行銷。他強調了通用模型的專業化，透過最低成本實作目標任務來創造價值。

針對大模型技術的提升問題，丁寧指出大模型在處理輸入和輸出序列時的挑戰，特別是在負訊號比例高的場景下學習的難度。他強調快速高效地將通用模型專業化的能力，並討論了獎勵模型（Reward Model）在提升模型效能中的套用，強調了低成本、高效率的重要性。

在談及生成式AI驅動超級套用的挑戰時，丁寧分享了兩個慣性陷阱：資源慣性和技術慣性，並強調保持開放心態的重要性。他還提到數據缺失問題，特別是負訊號比例高的場景缺乏高品質數據，指出這是未來的一個關鍵挑戰。