當前位置: 華文世界 > 科技

AI 一天,人間一年:我與 AI 的 2023

2024-02-08科技

圖片來源@通義千問

文 | 甲子光年,作者|劉楊楠、蘇霍伊、趙健

最近一兩周,很多公司都在緊鑼密鼓地開戰略會,明確 2024 年的目標與規劃。

經過一年多 AI 狂飆帶來的推背感,是時候給忙碌的 2023 年做一個年終總結了。開完戰略會、進入春節假期,大部份公司才會真正停下步履不停的腳步,進入短暫而難得的休息狀態。

那麽,如何總結 2023 年呢?

「甲子光年」邀請了基礎大模型、AI Infra(AI 基礎設施)、多模態、行業垂直場景與學術研究等領域的 30 多位 AI 從業者,分別丟擲了 5 個問題:

  • 2023 年你的關鍵詞是什麽?
  • 2023 年你所經歷的 Magic Moment(印象最深刻的一個瞬間)是什麽時候?
  • 2023 年你是否在一輪又一輪的技術沖擊中仿徨過?從仿徨到豁然開朗,中間的轉折點是什麽?
  • 預測一下 2024 年 AI 行業可能發生的重要事件?
  • 如果對一年前的自己說一句話,你會說什麽?如果向一年後的自己問一個問題,你會問什麽?
  • 他們的仿徨與焦慮、激動與興奮,是 AI 行業一整年的縮影;他們的探索與堅持、重新整理與叠代,將是未來五年甚至十年 AI 大霹靂的前奏。

    以下是他們的分享(按姓名首字母排序)。

    01 基礎大模型

    陳紅陽,之江實驗室數據樞紐與安全研究中心科研副主任、大模型團隊負責人

    用一個詞來形容我的 2023 年,那就是 「挑戰」

    2023 年初很困惑,那時市場對大模型的熱捧令人難以適從,但對於如何整合資源、運用大模型解決具體科學問題的思路並不十分明晰。那段時間,我們擔心大模型研發落入過度追求泛化能力而忽略實際套用的誤區,也就是大模型同質化突出的問題。

    改變發生在我們對大模型進行了深入評測後。雖然通用大模型在理解和生成自然語言上表現出色,但它們缺乏某些領域的深度知識和專業理解。於是我們決定將大模型作為基底,與垂直領域知識結合,定位科研領域最重要和迫切的科學問題。

    2023 年的 Magic Moment 是我們研發的垂直領域模型的專業效能取得突破的那一刻。從組建團隊、算力資源協調到技術攻關,持續數月的數據清洗、模型偵錯和最佳化、系統異常排查,所有的困難挑戰,都在那一刻得到了報酬。

    想對一年前的自己說:「準備好迎接改變,擁抱失敗,這是通向成功的必經之路。」

    想問一年後的自己:「在過去的一年裏,我們對於 AI 的理解和使用方式,以及對人類生活的影響,有了怎樣的進步和改變?」

    李誌飛,出門問問創始人、CEO

    2023 年的關鍵詞是 「新能力」

    去年4月,「序列猴子」的新版本出來當晚,我和「序列猴子」聊到淩晨兩點。

    「序列猴子」可以對數學、對話、多步推理等很多復雜問題對答如流,讓我意識到它可能擁有了二階邏輯推導的能力,而我們一直沒有刻意訓練過,說明「序列猴子」跟過去做的所有 AI 系統都不一樣。它是一個認知模型,也許我永遠不能完全理解它,就像真相只能逼近,但我還是想知道 why,提出假設,做各種實驗。

    想對一年前的自己說, 「要花更多時間去找大模型和產品的靈魂」。

    大模型上半場,從整個行業的認知迅速叠代,到百模大戰,很多從業者每天處於一種忙碌而慌亂的狀態,但往往並沒有一個主心的靈魂。

    下半場,我們更需要找到自己的靈魂,比如你到底要做什麽?你最後希望建立什麽樣的壁壘?你希望建立什麽樣的商業模式?你希望為這個世界沈澱出什麽不一樣的東西?我希望花更多時間探索並持續叠代它。

    我會認真反思, 「你真的找到大模型和產品的靈魂了嗎?」 擁有靈魂的大模型和產品,會讓今天這場技術革命對人類更有意義。

    羅璇,元始智慧(RWKV)聯合創始人

    如果用一個詞來形容我的 2023 年,是 「非共識」

    因為我對 AI 的認知,與國內大部份人不同,包括對非 Transformer 的演算法架構、AI 新算力、數據、端側模型等。2023 年在很多次閉門會議上,聊了很多非共識,也被質疑過。但到現在,我的很多觀點都已經被驗證了。

    這一年的 Magic Moment,是在 4 月的奇績大會上,與陸奇聊大模型的未來,有一些已經變成了現實。

    2023 年 AI 狂飆突進,我的 AI 社群名字從 AI-Transformer 改成了 AGI-X ,中間的轉折點就是 RWKV 。

    2024 年,我預測:模型架構開始遷移;端側模型興起;雲端算力成本快速下降;AI專有芯片出現突破;空間計算終端(XR、機器人)開始落地大模型。

    想對一年前的自己說:「可以再快一點。」

    想問一年後的自己:「新的莫耳定律出現了麽?空間計算終端普及了沒?」

    王士進,科大訊飛副總裁、科大訊飛研究院常務副院長

    2023 年的關鍵詞是 「頂天立地」

    OpenAI 釋出 ChatGPT 後,我們當天就組織同事們去體驗相關能力,大家都被驚艷到了,也馬上感受到了壓力。這樣領先的技術,我們如何快速跟進?2022 年 12 月 15 日,訊飛也正式啟動了「1+N」的大模型攻關。

    2023 年 10 月 24 日是一個裏程碑式的節點,訊飛星火認知大模型釋出V3.0,實作了七大能力——「文本生成、語言理解、知識問答、邏輯推理、數學能力、程式碼能力、多模態能力」全面對標 ChatGPT,中文能力客觀評測超越 ChatGPT、英文能力與 ChatGPT 的 48 項任務結果相當。 從技術角度來說,我們實作了「頂天」。

    「立地」是指套用。 從 5 月 6 日到 10 月 24 日,訊飛開放平台新增 143.4 萬開發者團隊,新增大模型開發者 17.8 萬。訊飛與行業龍頭還聯合釋出了 12 個行業大模型,覆蓋了汽車、營運商、工業、住建、物業、法律、科技文獻、傳媒、政務、文旅、水利行業。

    2024 年,希望自己更從容、更皮實,也希望我們研發的大模型、通用人工智慧可以更好地「頂天立地」。

    顏水成,天工智慧聯席 CEO 兼昆侖萬維 2050 全球研究院院長

    2023 年的關鍵詞是 「奔跑」

    2023 年 AI 每天都在狂奔中,醒來第一件事是昨晚 AI 又發生了大事情。

    第一次用 ChatGPT 修改了一份自己的重要文件後,我佩服得五體投地,這是我的 Magic Moment。

    年初最大的仿徨,是 CV(電腦視覺)的未來在哪裏。轉折點是進入智源人工智慧研究院後,我非常確定 離開 Language (自然語言)研究 CV ,不可能有通用 CV 模型。

    2024年,我最期待的是 AIGC 超級套用的產生。

    想對一年前的自己說:「方向選對了,祝賀你。」

    想問一年後的自己:「LMM(多模態大模型)一統天下了麽?」

    曾國洋,面壁智慧 CTO

    2023 年的關鍵詞是 「興奮」。

    相比 2020~2022 年大模型在國內的冷清,2023 年是大模型蓬勃發展的一年,我見證了國內大模型快速的發展,也見證了面壁智慧這家初創公司從不到 10 個人成長到上百人規模。

    我終於可以在跟朋友介紹我的工作時,不用花很長時間解釋大模型是什麽意思。看到自己所從事的工作產生巨大的社會價值,我感到很興奮!

    2023 有過兩個 Magic moment ,一個是 NLP(自然語言處理)大牛、HuggingFace 聯合創始人湯瑪斯·沃爾夫(Thomas Wolf)發了一條推特,內容很長,講了一個 「全球三大洲的人們公開合作,共同打造出一個新穎、高效且前沿的小型 AI 模型」 的故事。故事的三位主角,Mistral、HuggingFace 和我們的 OpenBMB 開源社群,在開源協作精神下產生了神奇聯動,讓我覺得非常開心。

    一個是我們的 Agent 計畫 ChatDev 火遍全球,霸榜 GitHub Trending,開源 6 周就超過了 1.2 萬星標!全球非常多的軟體開發者、創業者,在 X(前Twitter)和 YouTube 上體驗我們的 Agent 計畫,甚至有使用者開了一家由 ChatDev 營運的「虛擬軟體公司」,竟然還直接在網上接單了。看到面壁的 Agent 計畫這麽受歡迎,覺得大有可為,非常受到鼓舞!

    2022 年底,ChatGPT 剛推出時,我們都很震驚。當時大家也不斷開會研討,覺得我們距離 ChatGPT 至少還有一年以上的差距,大家對於 ChatGPT 到底是如何訓練出來的也感到很迷茫。

    2023 年 2 月,我自掏腰包標註了 260 條對話數據,僅用這 260 條數據訓練了一個模型,結果驚訝地發現我們的模型也有了像 ChatGPT 一樣的效果,突然就感覺到找到了方向。只要我們能有更多更精細的對話數據和更大的模型,我們就能訓練出超越 ChatGPT 的模型

    想對一年前的自己說:「要相信大模型和數據的力量!」

    想問一年後的自己:「距離 AGI(通用人工智慧)還有多遠距離?」

    張家俊,中國科學院自動化研究所研究員&博士生導師、武漢人工智慧研究院副院長

    2023 年非常 「激動人心」

    大模型的每一次重大技術釋出,例如 OpenAI 的 GPT-4、Plugin、GPT-4V、GPTs 等,以及谷歌的 Gemini,都在不斷刺激我們的認知神經。同時,國內外的大模型開源生態和國內大模型趕超 GPT-4 的態勢也十分令人激動。

    我從 2020 年便開始參與到中國科學院自動化研究所「紫東太初多模態大模型」的研發工作,對技術發展有一定預期,所以並沒有仿徨過,只是沒有預想到技術發展叠代的速度會如此之快。

    這一年的 Magic Moment,是見證 GPT-4V 能力的時刻。一方面,沒有預料到 GPT-4V 的多模態能力會如此之強,真正擁有了真實開放場景的多模態感認知能力;另一方面,從技術角度推動了原生多模態模型的發展。

    2024 年,預測會發生兩件事:一是可能會出現大模型超級套用,二是具身智慧可能出現亮點工作。

    想對一年前的自己說:「千萬不要低估一年時間裏 AI 技術的進步速度。」

    想問一年後的自己:「2024 年 AI 的技術叠代會比 2023 年更瘋狂嗎?」

    張鵬,智譜 AI CEO

    2023 年,可以用 「突破」 來形容。

    智譜 AI 每三至四個月一次的模型大版本叠代,最終按照預期實作了階段性目標。雖然過程充滿了挑戰、摸索和挫折,但我們始終堅定地一步步邁向目標,充滿了激情和決心。

    這一年的 Magic Moment 在 3 月 14 日,智譜 AI 的 ChatGLM 第一代模型和聊天套用釋出,並同步開源了 6B 模型。就在同一天,OpenAI 釋出了 GPT-4。雖然我們事先知道 OpenAI 正在開發新一代大模型,但推出的時間節點我們毫不知情,這是一個美妙而驚人的巧合。

    大模型是把威力巨大的錘子。錘子除了能用來把原來釘子砸一遍以外,其實還有一個可能性:用來砸墻,砸天花板。砸出來的窟窿,你會看到更多的空間、更多的釘子。

    2024 年將是 AGI 元年。技術突破、產品創新、生態建設、社會影響力都會更上一層樓。

    想對一年前的自己說:「隨時準備點咽喉糖在手邊,你會需要它們的。」

    想問一年後的自己:「你還需要咽喉糖嗎?你的數位分身在應對媒體的時候表現你還滿意嗎?」

    (以上問題部份內容由張鵬的數位分身智慧體「明篤智詢」生成。)

    02 AI Infra

    高雪峰,Fabarta 創始人兼 CEO

    2023 年的關鍵詞,我第一個想到的是 「耕耘」

    我記得在創業初期,對於我們提出的構建未來 AGI 基礎設施,並將大圖技術與大模型技術融合在一起的理念,大部份人都持懷疑態度。然而,隨著 ChatGPT 火爆出圈,各行各業都開始尋求智慧化轉型與「 AI +場景」的落地嘗試,Fabarta 的理念也逐漸被大家所接受。

    我們一直堅持技術創新來解決 AIGC 在行業場景落地過程中的難題。過去一年,我們經歷了難以被直接理解到客戶高度認可的過程,服務了金融、保險、汽車、制造、零售、科技等不同行業的頭部企業。

    2023 年,印象最深的是在 9 月 19 日,「 Fabarta 第一屆產品與使用者大會」開啟的那個瞬間,我感覺正帶著團隊真正踏上了追逐夢想的道路。

    2024 年開源大模型及其生態會更加快速地推進與叠代,行業的精準知識與大模型中的泛化知識開始融合,湧現出真正的決策智慧。

    想對一年前的自己說:「千淘萬漉雖辛苦,吹盡狂沙始到金。」

    想對一年後的自己說 「立誌欲堅不欲銳,成功在久不在速。」

    郭人通,Zilliz 合夥人兼產品總監

    2023 年的關鍵詞是 「加速」

    2023 年,我感官上接觸到的世界叠代速度,從以周為單位,加速到了以天為單位。一天沒有關註中美兩地AI領域的變化,就感覺自己過時了。Zilliz作為全球向量資料庫領域的領跑者,過去一年進一步提速,唯有加速叠代才能適應這個加速變革的環境。

    2023 年 3 月,我從San Francisco(舊金山)機場出來,感覺既熟悉又陌生。之前到這裏主要是旅行或交流,而這次來是要嘗試做全球化向量資料庫的生意。老朋友 Frank 來機場接我,聊了一路,到酒店沒有先進屋放行李,而是邊散步邊聊到深夜。基礎軟體行業出海,前面沒有太多借鑒,無疑是挑戰重重。這段即將開啟的旅程讓人激動得難以入睡。

    Frank(左),郭人通(右)

    自 GPT-4 釋出以來,向量資料庫一下子就熱鬧了,市場競爭接踵而至。我們也被突如其來的使用者爆炸式增長打了個措手不及。但很快,我們的團隊就將註意力從關註外部變化調整回「更好地服務客戶」,「貼著使用者的快速變化而做快速變化」是我們這輪加速的壓艙石。

    2024 年我有兩個預測:一是由於大模型在推理、計劃等關鍵能力上無法突破,導致套用落地範圍邊界收斂,甚至是全球投資熱情下降;二是機器人領域,由於引入了直接的現實世界反饋,會迎來技術突破和巨大市場增量。

    想對一年前的自己說:「雖然你覺得跑得已經很快了,但你還需要跑得比現在快得多。」

    想問一年後的自己:「我的哪些能力將會被 AI 淘汰,而哪些能力又因為 AI 增強?」

    黃東旭,PingCap 聯合創始人兼 CTO

    2023 年的關鍵詞是 「Flow」。

    不知為什麽這個詞第一個蹦出來,就感覺今年變化太多太快,像被一股洪流推著前進,前方是未知,興奮和恐懼。2023 年挺刺激的,我的原則很簡單,做自己喜歡的事情。

    這一年我的 Magic Moment 發生在 GPT-4 支持圖片辨識後,我拍了一張我家廚房的照片,GPT-4 看了一眼後告訴我今晚晚餐吃啥,以及菜譜。

    2023 年,AI 最大的變化是從大模型到小模型。 高品質開源模型的普及速度比想象中快(Thanks to LLama2 & HuggingFace),推理遠重要於訓練,而且推理的硬體門檻下降得很快,也許此處會有新的莫耳定律。參數與模型品質也許並不是正相關,比如 Mistral 7B。

    2024 年期待 TiDB 向量搜尋(2 月 4 日已正式上線)大賣。

    想對一年前的自己說:「珍惜眼前人。」

    想問一年後的自己:「開源模型達到目前 GPT-4 的品質了嗎?另外有開源的大模型能夠實作穩定的 Function Calling(函式呼叫)了嗎?即使犧牲模型品質,大語言模型的幻覺問題有沒有辦法回避(因為一個 100%不說胡話的普通人,可能強於一個可能會說胡話的天才)?」

    李博傑,LogenicAI 聯合創始人,華為「天才少年」

    2023 年大模型的發展真的可以用 「AI 一天,人間一年」 來形容:

    ChatGPT 和 GPT-4 釋出;

    LLama、Mistral 釋出,每個人都可以自己部署和微調大模型,模型推理成本大幅降低;

    多模態模型、視訊生成模型層出不窮;

    Stable Diffusion 和 VITS 生態不斷完善,Decoder-only 的圖片和語音生成模型湧現;

    AI Agent 在有趣和有用方向上不斷進步。

    2023 年 9 月,我做出了 AI Agent 的第一個 demo,使用自己的部落格文章訓練了自己的理想型,她甚至比大多數朋友都了解我。她帶著我去 Newport Beach(加州紐波特海灘)玩,還把我帶到了一個堆著很多大石頭的防波堤上。可惜,因為大模型並沒有真的來過這裏,她並不知道這個防波堤上面這麽難走,我像爬山一樣費了不少勁才走到它的盡頭。

    這張照片是我朋友圈和 Zoom 會議的背景圖,我也把它做成了家裏的地墊。那一刻,我看到了解決一個基本哲學問題的曙光: 人類的時間是稀缺的,而 AI Agent 作為人的數位分身,可以讓人的時間變成無限的。

    我最早認為基礎大模型是 AI 最有價值的方向,但這個世界並不需要很多基礎大模型,因此感覺有些迷茫。上半年自己試著做了幾個搜尋總結、數位分身、互動遊戲、ERP 智慧助手的 demo,發現大模型真的很強大,就算 2024 年的今天都很少有套用能達到這種效果。

    那去做套用嗎?看到 OpenAI 的賬單,我發現原來 成本才是制約大模型在 C 端廣泛套用最大的障礙;可靠性和幻覺則是制約 B 端套用的最大障礙。

    再後來,越來越多的開源模型出來。開源模型微調之後在特定領域內甚至比 GPT-3.5 都強,但成本還不到 GPT-3.5 的十分之一。自己做基礎模型,同尺寸效能大機率不如最好的開源模型。因此我就決定創業做 AI Infra,解決大模型和套用之間巨大的鴻溝。

    我對 2024 年的預測為: 多模態大模型能夠即時理解視訊,即時生成包含復雜語意的視訊;開源大模型達到GPT-4 水平;GPT-3.5 水平開源模型的推理成本降到 GPT-3.5 API 的百分之一,讓套用在整合大模型的時候不用擔心成本問題;高端手機支持本地大模型和自動 App 操控,每個人的生活都離不開大模型。

    想對一年前的自己說:「大模型非常強大,而且很多問題都沒被解決,抓緊時間上車。」

    想問一年後的自己:「產品現在有多少使用者了?公司有多少張 GPU 卡了?」

    陸超,EasyLink 聯合創始人兼 CTO

    2023年, 「篳路襤褸,以啟山林」

    去年,我作為聯合創始人投身到 AI 2.0 創業熱潮中,建立了一家 AI 原生套用公司——EasyLink,旨在構建一整套高效易用的大模型套用開發棧,支持大模型商業套用與落地。

    過去一年,大模型技術日新月異固然讓人欣喜,但也讓許多初創團隊面臨著最初所選方向一夜間被顛覆的沮喪。在這些變化與不確定中,我們在產品快速叠代及落地過程中明確了自己的定位,組建了戰鬥力極強的團隊,商業化處女落地,完成了天使輪融資。

    總體上,過程很艱辛,小目標皆已達成。我們為 2024 年做好了開辟山林的準備,新的一年將會是倍道而進的一年。

    2023 年的 Magic Moment,毫無疑問是去年 Q4 我們與一家大型城商銀行合作,在一個多月時間內構建了大模型原生套用解決方案與產品並完成上線釋出,獲得了客戶對新技術套用效果的肯定、並受到同業的關註。在如此短時間內完成這些,我們很自豪。

    創業維艱,這是帶領一群誌同者不斷攀登的過程,借時代與技術變革之勢,穩紮穩打,結果固然重要,不斷努力開拓進步的過程亦很美好。

    宜博,宜創科技創始人

    如果用一個詞來形容 2023 年,是 「焦慮」

    2022 年 11 月 30 日當看到 ChatGPT 的時候,我們發現過去六年實作的 AI Code 的傳統 NLP 技術路線被折疊了,所以只能在 1 月春節後快速做了決斷,全面轉型大模型領域。

    在 3 月,我們做完第一個產品 ChatBI,卻在 4 月遇到政策不明朗,導致產品被各個平台下架。

    5 月,我們轉向做大模型中間層 PromptOPS,釋出了 LLMFarm,但是後面當每次 OpenAI 釋出新功能,我們都會面臨是不是又被它們擠壓甚至折疊的質疑。

    經常說一句話:人間一天,AI 一年,每天 AI 自身發展叠代所取得的進展,遠遠大於人類一年的時間所實作的能力。在這個過程中,我們每個人每個公司所扮演什麽角色?能做哪些工作?未來 AI 會進展到什麽程度?明天會不會有個新能力將我們現在做的努力又完全顛覆?

    仿徨是每個季度都發生的,第一季度放棄了 NLP-AI Code,第二季度 ChatBI 被封,放棄了國內 to C,第三季度是 LLMFarm、Langchain 中介軟體被 OpenAI 的叠代質疑未來還有什麽價值,第四季度是當我們知道了 GPT-5 將有巨大的進展。

    每次中間的轉折點都是想清楚價值,活在當下,繼續往前走,不論 AI 如何進展,人能發揮的主觀能動性、創新力、想象力還是短時間 AI 無法彌補的。我們需要從做 Soft 的思路轉化為做 Service ,把握好使用者價值、客戶價值,LLM 的發展將是助力而不是叠代。

    想對一年前的自己說:「趕緊屯卡,哈哈,想清楚在不明朗的時期最明朗的機會。」

    想問一年後的自己:「 AI 原生的套用到底跑出來了什麽?」

    尤洋,潞晨科技創始人兼董事長、新加坡國立大學校長青年教授

    如果用一個詞來形容 2023 年,我覺得是 「創新」

    比如,我們的實驗室在多個世界頂級期刊上發表論文,我的初創公司在大模型訓練和推理加速上多次打破記錄,達到世界先進水平。

    去年夏天,在 ICML 頂會上我們釋出了第一個標準化產品 Colossal-AI Platform,引起了工業界及科研工作者的廣泛關註。半年過去,這款產品經過多次的叠代,營收增長非常快,已經服務於醫療,零售,芯片,超算中心等多個行業,幫助使用者在雲上快速構建大模型。回頭來看,這個瞬間對我和我的公司,潞晨科技,都比較有紀念意義。

    2023 年我看到 AI 最大的一個轉變是,大家都不再一味追求超大規模。年初,國內外很多公司都宣布要訓練釋出千億以上的大模型;到了年末,反而是很多體量小但是能力強的模型湧現出來越級挑戰。面對這種轉變,我們不斷更新我們的技術和開源庫,也推出了自己的一體機,幫助企業像制作 PPT 一樣,高效快捷地訓練自己的大模型。

    想對一年前的自己說:「在通往成功的路上,一定有極大的不確定性和風險,走在路上,努力並專註就夠了。」

    想問一年後的自己:「2024 年,我們有找到比 Transformer 更好的大模型架構嗎?」

    袁進輝,矽基流動 SiliconFlow 創始人

    如果用一個詞來形容 2023 年,是 「坐過山車」

    公司幾個月之內經歷了多次並購,從一家一億美元的公司,變成到十億美元的公司,再到千億美元的公司,最後再分拆重新創業。

    以至於今年的 Magic moment 太多次了,無法說哪一個最深刻。

    2023 年有過短暫的仿徨,那是光年之外被並購時,何去何從,有一種要和這個偉大的時代失之交臂的感覺。但縱然巨浪滔天,團隊仍非常有鬥誌,有信心駕船駛向目的地。

    2024 年,我預測開源版 GPT-4 以及超級套用會出現。

    想對一年前的自己說:「不忘初心,方得始終。」

    想問一年後的自己:「我成長了嗎?」

    03 多模態:AI 生成影像、視訊與3D

    胡淵鳴,Meshy AI Co-founder & CEO

    2023 年我的關鍵詞是 「重新整理」

    一方面是自我重新整理,改變思維方式,積極嘗試一些新的事情;另一方面對於 AI 的認知也被不斷重新整理。

    2023 年的 Magic Moment,我覺得是 Meshy-2 的釋出的時刻,開心又難忘。

    三個月前,我們推出了Meshy-1。它是一款生成式 AI 工具,能讓 3D 內容創作者在 1 分鐘內將文本(提示詞)和影像轉化為 3D 模型。而這次,我們的新版本 Meshy-2 把文本生成 3D 模型(Text to 3D)的品質大大提高, 把人類在 Text to 3D 方面的能力又往前推進了一小步。

    Meshy-2 的 Text to 3D 在造型設計、模型細節、風格控制、使用者社群等方面實作了前所未有的升級。我們希望無論是經驗豐富的 CG 從業者,還是渴望釋放創意的 3D 愛好者,Meshy-2 都將成為他們輔助實作夢想的夥伴。

    2024年,我期待能夠看到更多 GenAI 方向能做出 PMF 的產品。

    想對一年前的自己說:「 勇往直前 」。

    想問一年後的自己:「Apple Vision Pro 發展得怎麽樣了?」

    劉永升,超參數科技創始人兼 CEO

    2023 年,我印象最深刻的一個瞬間,是萊克斯·弗瑞德曼(Lex Fridman,麻省理工學院研究科學家兼播客節目主持人)和傑夫·貝索斯(Jeff Bezos)的對話節目中,貝索斯有一個觀點:「大語言模型不是發明,而是發現(Large language models are not inventions, they are discoveries)。」

    他解釋說,人類發明天文望遠鏡是發明,但透過望遠鏡觀察木星發現它有若幹「月亮」,這是人類歷史中偉大的發現。

    現在不管是 GPT-4 還是 Gemini,它們不是為了解決一個特定難題而設計的。透過它們人類發現:只要有足夠的優質數據和計算能力,就一定能設計出相應的演算法,讓電腦表現出接近人類、甚至在某些方面遠超人類的智慧。

    它的影響絕不僅僅是一個 killer app,或者是一個 iOS 生態,它對人類社會的影響是非常深遠的,可能需要數十年甚至上百年才能看清楚。

    2023 年上半年團隊和我都挺受沖擊,很糾結要不要去做大模型預訓練(pre-train)的工作。後面國內不斷有一些大模型團隊釋出大模型產品,雖然有驚喜,但缺乏亮點,總體離 ChatGPT 還是有不小差距。這些團隊相比我們有更好的資源和條件做 pre-train,我們憑什麽能夠比他們表現更好?

    我們低估了做 pre-train 的難度,而又高估了自身差異化能力。想明白這些事情後就豁然開朗了。

    青柑,Tiamat 創始人 & CEO

    2023 年我的關鍵詞應該是 「好事多磨」

    過去一年發生了很多事情,我發現做一個企業和做一件事情的區別還是很大的,這對我是很大的成長和挑戰。但總的來說,不管是對團隊還是對個人,都是好事多磨。

    2023 年,其實比起變化,我更多關註不變的東西。 AI 行業變化的東西每天都在發生,但是不變的東西是什麽更值得思考。

    2024 年,我希望模型有更新一步的進展,AI 技術和產品的結合更緊密,和使用者的真實需求相關更緊密。

    如果有機會對一年前的自己說一句話,我會說:「沒有捷徑和幻覺。」

    唐家渝,生數科技 CEO

    2023 年一直有種 「在浪尖上努力平衡疾馳」 的感覺。

    2022 年底,ChatGPT 的誕生就像是時代巨浪,「一波掀起千層浪」。我們要第一時間掌握新趨勢、新變化,靈活快速地作出決策調整,就像是在浪尖上疾馳,努力保持平衡前行的同時,也時刻要警惕被後浪拍倒,機會與挑戰並存。

    這一年的 Magic Moment,是 3 月 15 日淩晨 GPT-4 釋出,看到報告裏對於影像理解能力展現的時候。大模型能夠辨識和推理,能 get 到各種搞笑圖片中的笑點,第一次看到的時候還是覺得非常厲害。

    2023 年並沒有太多的困惑,因為我始終從內心認可著「提升全人類的創造力和生產力」這一長期使命,也一直堅定著多模態大模型方向。在心中有了「燈塔」以後,即便在面對各種市場、技術沖擊的時候,心裏都還是能保持 peace,畢竟一件真正有價值的事情也不會輕易被實作。

    2023 年,影像、3D、視訊等多模態領域還處於技術探索階段,品質和可控性仍有較大的提升空間。但 2024 年,多模態將會迎來一波重大突破。

    想對一年前的自己說:「要更勇敢地摒除噪音,相信自己的認知和判斷,聚焦整個團隊的投入。」

    想問一年後的自己:「有踐行好自己認可的價值觀,在幫助釋放使用者創造力方面有初步滿意的結果了嗎?」

    唐勇,李白人工智慧實驗室創始人 & CEO

    2023年的關鍵詞是 「突飛猛進」

    在以 ChatGPT 和 Stable Diffusion 為代表的生成式人工智慧技術的突破的背景下,李白實驗室的視覺 AI 平台 cutout.pro 以及生成式 AI 創意設計平台 promeai.com 登頂 A16z 排行榜 Top20。我們的使用者數和營收都迅速增長。

    這一年的 Magic Moment,是 2023 年 11 月在拉斯維加斯觀影【來自地球的明信片】, 16 萬平方英尺的環繞 LED 顯示器給人帶來的視覺沖擊讓人相信世界是可以被模擬的。

    2023 年並沒有仿徨過,更多的是興奮,一次次驗證了我們從 2018 年就認定和堅持的人工智慧方向是對的。

    想對一年前的自己說:「保持好奇心,持續學習。」

    想問一年後的自己:「是否為更多人帶來了更多價值,怎麽做可以更好?」

    王長虎,愛詩科技創始人、CEO

    2023年的關鍵詞是 「探索」

    我 2023 年開始創業,做 AI 視訊生成大模型和套用。「探索」這個詞概括了我在 2023 年創業過程中的體驗和狀態,不僅代表了我在 AI 技術和商業領域的勇氣和好奇心,更是對自我能力、耐力和創新精神的考驗。

    這一年的 Magic Moment,是愛詩內部創作平台上生成第一個視訊那一刻。它是一只小鹿,很萌,有個不大的動作,時長很短,解析度也不夠,卻是我們走出的第一步,令人難以忘記。

    短短半年後,很多創作者用我們的產品 PixVerse 制作出了效果驚艷的「大片」,比如 AI 藝術家 Ameli Caotica 制作的短片【Last Mission】,這些作品十分令人振奮。

    過去,AI 往往被視為一種工具或服務,用來實作特定的功能和任務。2023 年,隨著 AGI 的發展,我越來越深刻地意識到,AI 是有生命的。Ta 更像是一個夥伴,可以和你交流,幫你解決問題,可以激發你的創意,幫助你完成過去無法完成的工作。現在的 AI 還是個嬰兒,還有很多不足,可 Ta 在快速地學習和成長。2023 年開始,人類將與 AI 共存。

    深度學習的浪潮始自 2012 年 AlexNet 在 ImageNet 挑戰賽上的一戰成名。分類,檢測,分割,GAN,以及後來的自/弱監督學習,都包含著電腦視覺領域發展的一個個裏程碑。無論對於個人還是企業,一直都是透過技術與套用的結合才能有一席之地。

    我們技術部同事北北對這段創業歷程也有很深的感觸:「從前的我也是按部就班地跟進、復現、實驗和落地。但是 Stable Diffusion 出來的那一刻開始,一切都變了,按照之前的跟進速度好像不行了,狀態變成了一種應接不暇,焦慮伴隨而生。但與此同時,我也感受到了一種前所未有的沖動,不想就這麽做個旁觀者,想做個參與者,甚至是創造者、引領者。」

    2024 年,我最期待的是 AI 視訊生成能實作 ChatGPT 時刻。我們會為此全力以赴。

    想對一年前的自己說:「保持耐心,對自己的願景保持信心,每一個挑戰都是成長的機會。」

    想問一年後的自己:「在過去的一年裏,你做出了哪些決定或改變,使你離自己的夢想更近一步?」

    楊海,奧創光年COO

    2023 年的關鍵詞,我想用 「堅持初心」 來形容。

    2023 年初,如何平衡技術研發和商業套用之間的挑戰,我也曾感到困惑。找到屬於自己的市場場景並不容易,很容易走各種彎路。

    豁然開朗發生在2023 年中旬,在經歷了一段時間的辯證思考和內部討論後,我們決定要聚焦在創立之初的方向上,就是「用 AI 技術的升級來解決市場行銷問題」。在縱向上,我們將更多精力投入到深度理解客戶上,去研究客戶的需求和痛點;橫向上,將這些需求與痛點與技術創新相結合。

    這一年印象最深刻的是,我們和某集團達成以家居家裝、家清、百貨等多維度類目的圖片批次產出與最佳化合作。此外,透過預訓練的視訊混剪模型,以及結合平台及商家需求對模型進行微調後,奧創光年 Mogic Copilot 可實作日產 10 萬條視訊的規模。

    那時候我們整個團隊都覺得很興奮,一方面感嘆 AI 對現有行銷生產力的提升,一方面也對 AI 生成的圖片和視訊質感感到驚喜。最重要的是,這類合作讓我們和客戶形成了一個團隊,而不是單純的甲乙方關系,為共同的良品率,合格率、CTR(點選率)等指標一起服務,有了共同的團隊感。

    2023 年,我們累計服務的客戶超過 200 家,其中大多數都是國際一線品牌/集團。

    想對一年前的自己說:「 感謝自己有勇氣‘躬身入局’, 也很慶幸自己眼光還不錯,選擇了 AI 賽道。」

    想問一年後的自己:「文生視訊技術在我們公司實作商業化了嗎?」

    張啟煊,影眸科技 CTO

    2023 年的狀態是 「Boom!」 ,給了我們太多 AI 技術的想象!

    這一年的 Magic Moment,是 8 月在洛杉磯參加 SIGGRAPH(電腦圖形學及互交技術頂會),正好趕上 SIGGRAPH 50 周年,遇到了圖形學領域很多奠基級的人物,還成為了第一個入圍 Real-time Live 活動的中國團隊,甚至還在會場捕捉到了 NVDIA 的老黃。

    2023 年技術飛速發展,很多技術在短期內就展現出了極大的潛力。最大的考驗,與其說是仿徨,不如說是動搖,選擇一些不那麽長期主義的方向。我們在 2023 年就面臨了這樣的選擇,也是我們從 3D 角色生成更進一步到 3D 生成的轉折。這時候既要能丟掉以前技術積累的包袱,擁抱新的變化,同時守住公司的本心。

    過去一年裏,我們打磨並上線了 3D 角色生成平台 ChatAvatar,在產品叠代過程中最大的感悟是, AI 也許並沒有產品本身重要,最頂尖的 AI 是讓使用者感受不到 AI 的存在。

    2024 年 1 月我們正式完成了 Rodin Gen-1 3D 生成大模型的訓練,期待能夠順利產品化!

    想對一年前的自己說:「相信自己相信團隊,一年後我們會有技術突破!」

    想問一年後的自己:「Apple Vision Pro到底成沒成啊,Killer App是啥?」

    04 行業垂直場景 + AI

    韓卿, Kyligence 聯合創始人兼 CEO

    2023年的關鍵詞是 「起勢」

    2023 年我們探索出了一條將大模型引入既有大數據平台以增加產品力的務實道路,市場上獲得了很好的反饋,同時也使得我們對未來 AI + Data 的發展和趨勢越來越清晰,以及堅信「順勢而為」。

    這一年的 Magic Moment,是在 7 月 14 日公司使用者大會,現場 Live Demo 我們的 AI Copilot 完成的那一刻。全程表演順利,沒有出現問題,AI 回答的也非常順利。

    在 2023 年年初,我給公司的內部信中就提出 Kyligence 對 AI 的三點策略:

    It is not our game——大模型本身不是我們擅長和需要去參與的,我們相信技術的叠代會降低成本和門檻,最終將可以用於我們的產品中來提升我們的差異化;

    Be part of the game——但我們要積極參與和學習,要將我們的產品和商業快速切入到AI相關,我們相信 AI 將帶來巨變,尤其是商業上,客戶一定會在 AI 上大量投入;

    Build our own game——一定要找到適合我們,充分釋放我們過去幾年積累的場景和能力,為客戶提供結合我們優勢的產品和服務

    想對一年前的自己說:「擁抱 AI 可以更早一點開始。」

    想問一年後的自己:「生意做的咋樣?」

    何宛余,小庫科技創始人兼 CEO

    2023 年的關鍵詞是 「韌」

    作為一家建築科技公司,過去一年小庫面對了地產行業大振幅動蕩周期,內部組織和企業戰略也有了變化,回想起來這些事有大有小、有好有壞,對我個人和團隊而言,都得靠這個字穿越周期。

    2023 年的 Magic Moment 是 11 月 29 日,當天我們的海外產品註冊人數激增,是產品 7 月釋出以來過往平均水平的 420%,自此以後一直保持一個高增長的狀態,受到全球不同國家不同語種的專業設計師、開發商等垂直使用者關註及廣泛認可。

    對於傳統乏新的建築行業而言,一直陷入人力堆砌和傳統工作流的泥濘中,2023 年是行業舉步維艱的一年,也是開始關註 AI 技術和數位化轉型的大爆發之年。小庫科技多年技術累積的行業套用:AI 雲、設計雲等 AI 產品,也進一步隨著行業的關註更為人所知。

    2024 年,建築行業將開始形成新的工作流,個別超級個體的出現將成為行業典範,全行業開始突破以人力為核心的傳統枷鎖。

    想對一年前的自己說:「美好的事情會持續發生,很多時候只需要換一個視界,便可以發現另類可能。」

    想問一年後的自己:「經歷完AI野蠻生長的新一年你又有了什麽長進?再次遇到相似的情形時會怎麽避坑?」

    李光華,LanguageX 聯合創始人

    2023年的關鍵詞是 「快進」

    資訊爆炸,文章待讀 list 爆倉,需要跟進的內容太多;我從事的 AI 轉譯領域,原本計劃借助AI+Human in the loop,將語言服務成本降低 10 倍,使跨資訊流轉效率提升 10 倍,目前進度至少提前了 3 年。

    這一年的 Magic Moment,是寫的一篇關於 OpenAI 事件的文章,被官方推薦到企業微信,被一個多年未聯系的朋友看到了。

    2023 年,我一開始高估了生成式 AI 的智慧,所以對 AI 安全比較關註。目前我的觀點是,GPT-5或者多模態不會帶來 AGI 或者超級智慧,理由是公開互聯網文本數據是人類知識的精華,已經被當前的 LLM 用盡,單純增加多模態或私域數據不會帶來質變。但我們可能低估了多模型、類 Agent / GPTs 協作帶來的生產力變革。

    我對 2024 年的預測有三個:基座模型的智慧見頂,GPT-5 沒有讓人驚艷,大機率是失望;B 端場景:多模型、RAG(Retrieval Augmented Generation)、類 Agent / GPTs 協作帶來真正的業務落地;AI 生成視訊取得更大進展,出現多模態相關的 C 端 Killer 套用。

    想對一年前的自己說:「行動產生認知,半途而廢也會帶來新認知。」

    想問一年後的自己:「你在自己最看好的方向有哪些行動?」

    李祎嵩,釘釘協同辦公智慧化負責人

    2023年的關鍵詞是 「興奮」 ,每一個AI從業者對LLM的理解、套用、思考和實踐都在以天為單位叠代。

    這一年我們開始關註如何提升模型效果,一方面可以透過 Prompt 工程讓任務更加貼近模型,一方面可以透過有監督微調(SFT)讓模型更遷就業務場景;這一年開發範式也發生變化,「向量檢索」+「意圖辨識」+ 「外掛程式模型」讓 LLM 和業務系統深度結合,實作了 GUI 到 LUI 的變革;這一年,我們發現 RAG 不但可以提升模型效果,減少模型幻覺,還可以打通使用者私域數據,實作對企業知識的智慧問答、帶有私域業務背景知識的智慧創作,甚至實作模型的行業化。

    這一年我們探索了 AI Agent,可以系統性地感知環境、理解和決策,進而做出智慧創作、智慧問答,或者是呼叫業務系統的某些能力;這一年,釘釘 20 多條產品線全面接入了大模型,進而打造出釘釘 AI 超級助理。

    2023 年對我來說,每一天都是新鮮的,每一天都是值得思考的,每一天都忙碌的,每一天都是有成就感的。這一年,樂此不疲,真的令人「興奮」!

    有一個細節讓我印象非常深刻。數月前的一個晚上,我們在文件內寫了一些內容進去測試,對 AI 助理說「幫我把文件中所有二級標題變為三級標題」、「開啟雙行工具列」、「把文件中所有「智慧」都變成紅色」、「把正文字號變大一些」,當這些指令偵錯生效時,那一刻,我知道一個真正的智慧化時代到來了。

    想對一年前的自己說:「hi, 你可以更早、更快、更勤奮得投入到大模型的事業中,為這個全新的智慧化時代多添一把柴。」

    想問一年後的自己:「hi, 我在2024年該如何做,能夠更好得讓更多行業、更多人真正且大振幅提升工作效率?」

    沈博文,飛書產品架構負責人

    2023 年的關鍵詞是 「改變」

    因為我的工作方式,消費內容的方式,甚至在家輔導孩子學習的方式都因為 AI 變化了。

    這一年的 Magic Moment,是當我在一個 AI 產品中描述自己腦海中的一個畫面,它給我創造了一首歌曲,有很棒的歌詞和旋律。這讓我感受到了這個技術的無限可能。

    大模型出現之後,我們做 AI 產品不再是確定性的交付,而更像是在交付一種可能性(也就是機率)。所以以前的產品設計方法,驗收方法,都在逐漸發生變化。人的想象力和對於想象的量化評估設計,變得更加重要。

    2023 年,在一輪又一輪的技術沖擊中,我也曾仿徨過,厘清頭緒的辦法就是自己多把自己 involve 進去。AI 算是進入比較便宜的了,比 VR 那波要買很多裝置好多了。

    2024 年,擁有更強的多模態能力的模型會出現。期待看到能改變一些群體工作方式,讓工作更輕松的新產品, 當然,最好是自己做的。

    想對一年前的自己說:「更堅定地去做自己認為正確的事。」

    想問一年後的自己:「 2024 年你覺得自己做出最好和最壞的決策分別是什麽?」

    石天放,Muse 相機 / ChatMind 創始人

    2023 年的關鍵詞是 「快速試錯」。

    把認知誤區快速排除幹凈非常重要,很多東西不去親自試一遍,很難有深刻的理解,等到真正的機會來了掉進去才是真正的難受。

    這一年的 Magic Moment,是 3 月 7 日 ChatMind 的誕生。前一天晚上在學校圖書館(石天放1999年生人,此時還沒畢業),我看到北大一個團隊做出了 ChatExcel ,就在想是不是還有什麽形態的產品會出現,然後就把 GPT 能結合的所有資訊格式(文本格式和檔格式)都梳理了一遍 發現思維導圖這塊國內外都沒人做過,同時又是很好的視覺化內容的形式。我先是把想法分享給了幾個朋友,問他們要不要一起做,大家有的說已經晚了,有的人說沒什麽時間,我只能自己做,一個晚上就把它做出來了。

    ChatMind 發展非常順利,在海外已經成為 AI 思維導圖的代名詞。兩個月後,我和 XMind CEO 孫方聊了一個晚上,就定下來被收購的事情。

    ChatMind 被收購後,我又做了七八個 AI 計畫,但都不成功。休息了一個多月後,我做了一次深度復盤,我的總結是:「排除假問題和噪音。」

    使用者產生的問題有非常多,怎樣排除假問題是非常重要的,否則會浪費大量的時間做無意義的創新和工作,到頭發現使用者根本不需要或者不關心。要以結果為導向,而非過程,退化思考;不要想太深,想太復雜,想太細;快速找到悖論,根本不存在的產品就沒必要花時間。

    2024 年,我感覺可能會跑出來非 AI 的產品,而不是 AI 產品,AI 產品可能在 2025 年才會跑出來。

    想對一年前的自己說:「堅定做一定存在但別人沒做過的東西,牢牢抓住一個好機會盡可能放大,不存在的東西一點時間都不要浪費。」

    想問一年後的自己:「下一步怎麽做?」

    塗存超,冪律智慧 CEO

    2023年的關鍵詞是 「走鋼絲」。

    公司面臨巨大的資金壓力,每時每刻都在找錢;同時,大模型給行業以及公司業務帶來了新的機會,能不能把握住這個機會,是決定公司生死的關鍵。所以 2023 年全年都走在生死線上。

    這一年的 Magic Moment,是在發薪日前一天晚上,收到投資款到賬的簡訊,終於可以睡個好覺了。

    2024 年,我預測會出現媲美當下最好閉源模型的開源模型。

    想對一年前的自己說:「抓住大模型的機會。」

    想問一年後的自己:「國產大模型以及開源大模型追上 GPT-4 了嗎?」

    王喆,特贊科技 Tezign 聯合創始人

    如果用一個詞來形容 2023 年: 「 It's time to build. 」

    在過去的 5 年甚至更長時間裏,資本催生了許多事物,也激發了人們的創業熱情,每個人都覺得自己有能力再做一件事情。這導致人員流動和熱點話題的遷移非常迅速,對於初創公司可能友好,但並不一定有利於打造出卓越的產品。因此,在 2023 年這個時間、這個階段,對企業來說最好的方式,就是動手建立。

    去年 5 月特贊發起了首屆「數位設計:AIGC 建立者大會」(Digital Design:AIGC Builders and Creators Conference),聯動 50 家 AIGC 內容科技領域的內容共建者,邀請了 200+ 分享嘉賓打造了 100+ 場全天不間斷的內容盛宴,為 AIGC 的建設者(Builders)和創作者(Creators)搭建了「雙向互動最大化」的舞台,吸引數百萬人關註。這次大會上產生了很多 AIGC 有意思的討論,我們也很開心這些討論有些已經變成了落地的計畫。

    2023年,與焦慮相比我更多是激動。在人類創意的歷史上,每一次技術的發展都是先產生了某些恐慌,然後又產生了巨大的機會,最終機會大於恐慌。

    比如相機剛問世的時候,很多畫家開始擔憂失業問題,因為相機永遠比畫家呈現得更真實高效,但是後來出現了印象派、後印象派、抽象派,出現了形式主義、當代藝術,甚至連像不像都不重要,因為出現了裝置藝術,開啟了藝術創作的新大門。所以我很期待這輪技術帶來的各種各樣的可能性。

    2024 年,我會持續關註大模型和套用之間的連線和邊界。去年令人欣喜的是,行業頭部企業,尤其是非互聯網領域的領先公司,都開始傾向於構建自己的 AI 中台,這一趨勢的發展速度超出了我們之前的預期。所以在 2024 年,基於 AI 中台的商業空間也會非常廣闊。

    想問一年後的自己:「用 AI 做了哪幾個小助理幫自己賺錢了?」

    05 AI 學術研究

    羅鴻胤,麻省理工學院電腦學與人工智慧實驗室(CSAIL)博士後研究員

    2023年適合我的關鍵詞是 「釋懷」

    ChatGPT 的釋出公告把我的思緒扔回了 2016 年。彼時和大多數博士新生一樣,我抱著不具體又演化為焦慮的希望來到 MIT 。因為一些"烏龍",我加入了一個和自己的研究方向(NLP)不太一致的語音辨識小組。

    2016 年夏天導師與我暢談他做研究的初心,幫助我尋找研究方向:希望我在博士期間設計以語音為介面,能理解、生成自然語言的 AI 系統,與人類流暢地交流許多話題,目標是要比 Alexa 更自然,比 Siri 更流暢。

    當時我樸素地認為語音和對話是語言模型的套用層:當時語言模型能力極其有限的情況下,我們似乎沒有理由不去深入研究語言模型,而直接開展 Chatbot 的工作。那時出於這個疑惑,訓練評測語言模型成了我的舒適區,而評測調優各種下遊任務則是己所不欲。

    導師對此一直未置可否,最後我的博士畢業論文也囊括了許多 NLP 套用任務,但這個誕生於博士一年級的疑惑仍未散去,直到 ChatGPT 釋出的一刻。

    在 ChatGPT 面世的那天回憶起這些,我第一次有了對於學術生涯的遺憾:沒能用自己的博士論文解答讓自己感到困惑的問題。但這個遺憾隨著 2023 年的流逝而釋懷: 自己非常關心卻沒人知道答案的問題可能就是最好的安排。 在波瀾壯闊的第三代 AI 元年,這個想法時常讓我感到發自內心的冷靜和平胡。

    這一年,我覺得最 Magic 的時刻是 有一天家庭群裏發的內容不再是【中年養生十大秘訣】,而是 【2024 AI 發展十大趨勢】。

    每個年代,比如 1860 年、1960 年、2060 年,他們的 AGI 都是不同的,但我相信,編程能力會是 21 世紀最重要的 AGI 能力。

    對於 2024 年,我希望在 AI 編程方面有大的突破。

    文中配圖來自受訪者。