AI縱橫論｜AI時代，顛覆性創新機會在哪裏？ - 科技

2024-05-15科技

復旦大學管理學院教授、博導，復旦大學智慧城市研究中心主任淩鴻教授在「WAIC Circle·AI預見生態論壇」上作主旨演講

引言

在這個充滿變革與創新的時代，人工智慧浪潮席卷而來，AI大模型成為引領行業發展的重要引擎，孕育催生未來產業新模式、新業態。AI大模型的底層邏輯是什麽？面對AI大模型帶來的顛覆性創新機會，AI+時代，企業應如何把握先機，實作跨越式發展？

4月23日「WAIC Circle·AI預見生態論壇」上，復旦大學管理學院教授、博導，復旦大學智慧城市研究中心主任淩鴻教授進行主題為【AI大模型的底層思考和發展趨勢：AI+時代，顛覆性創新機會在哪裏？】的分享，以下內容整理自淩鴻教授演講實錄。

精彩觀點

什麽是人工智慧時代？首先，要理解什麽叫智慧。我的理解是，智慧是系統或個體能夠對環境做出恰當反饋的能力。

AI大模型的底層邏輯就是神經網路。數據是神經網路非常重要的要素，數據越多它學得越好，反饋越好。

大家都在說人工智慧三大要素——演算法、算力、數據，其實在這三大要素中間，假如談到套用的話，必須加上另外一個要素——目標，而且目標比其它三個都重要。

人工智慧不是人類智慧，要讓機器做機器擅長的事情，人類做人類擅長的事情。

智慧時代來臨

春節期間Sora出現，我們可以看到，它最大的三個特點是文生視訊、多景切換和世界模型。

文生視訊。其中「文」非常關鍵，「文」是我們在人文交流過程中間最規範的一種交流方式。假如沒有這樣的規範，生成視訊很難。因為當我們要描述一個視訊時，可能需要有大量的資訊。那這些資訊從哪來？今天 AIGC 需要透過理解自然語言來產生內容，而理解首先需要提供準確的表達，因此「文」變得很重要。

多景切換，即不同角度所看到的畫面準確對應。比如說，當我看到你的時候，可能這裏有一個話筒。當我換一個角度看另一邊，話筒還是在那裏。

世界模型。我們看到的世界是真實的世界，它其實不用叫模型，就是真實的。但當我們把它虛擬化、數位化之後，就變成了一個模型。那這個模型能不能表達我們的現實世界？我覺得現在還不能，正在努力。

了解了這些之後，我用 ChatGPT 產生了一個關於Sora的介紹，它幫我進行了簡單的匯總。但是大家有沒有發現， 假如你再去問ChatGPT同樣的問題，它的回答就變了，甚至永遠也給不出同樣的答案了。 這是為什麽？因為它本身就是大模型在模擬人性的東西，而恰恰人性很有可能是不確定性的東西。就像在沒有工具的輔助下，我不可能再完全相同地進行一次今天的演講，而這恰恰就是人。所以假如我們用大模型、人工智慧來模擬人，這一點是必須要做到的，這就是它的底層邏輯。

這裏是我羅列的從2010年開始每年的一個熱門詞，大家可以看到在整個的十年過程中，AI不是今天才剛剛出現的，它出現了很多次。

第一次人工智慧出現是在2011年，當時有一個叫沃森的電腦，在美國的智力競猜節目中獲勝，同時擊敗兩位冠軍選手，碾壓人類。它聽得懂人話，能回答問題，由此引發了之後的人工智慧大熱。這場人工智慧熱導致知識圖譜在人工智慧中間蓬勃發展。沃森也因能夠回答人類大量的問題變成了一個專家，成為醫生，進入醫療領域。近幾年因使用成本過高而正式退休。

第二次人工智慧熱門出現在2017年。這次熱門出現是因為在2016年的一場圍棋大戰中，AlphaGo戰勝了南韓的圍棋頂尖高手李世石，讓大家看到了人工智慧的潛力。雖然人們漸漸遺忘了AlphaGo，但其實AlphaGo帶來的影響到目前為止仍在影響我們。

第三次人工智慧熱門就是在2023年了。大家都知道2022年的十月份出現了ChatGPT，我想不論是誰，當你第一次使用它，一定會感到驚訝，驚訝到不可思議。因為一個機器居然能回答的像人一模一樣，而且讓你感覺很舒服。那麽這次的人工智慧熱門能持續多久，會不會像前兩次一樣，過了幾年以後被大家漸漸遺忘呢？我們現在並不知道。

接著，我們來看看究竟怎麽來理解人工智慧。今天我們已經進入到智慧時代，那麽什麽是人工智慧時代？首先，要理解什麽叫智慧，我的理解是， 智慧是系統或個體能夠對環境做出恰當反饋的能力。

ChatGPT、Sora出現之後，我們感覺人工智慧的能力好像不僅僅是回答問題、下棋、對話、畫圖，甚至生成視訊，它好像是萬能的，可以做任何事情，就給它命名為通用人工智慧（AGI）。我認為， 這裏的通用人工智慧是指它在某些方面的能力可能達到了「我想用它，它都能做」的那種感覺。

AI大模型的底層邏輯

在以上理解的基礎上，我們再來看看智慧體的結構。

首先，智慧體對環境要做出反饋的話，是環境要給它一個輸入。所以需要先有個輸入，輸入之後，智慧體會在它得到輸入的訊號後，給出及時的反饋，這裏稱之為反射，即我們平時所說的條件反射。這種反射實際上是不經過大腦的，我們可以把它認為是一種人的本能，人的本能自然而然就會對環境做出反應，而不是透過智慧。然而，對環境做出反饋，其實不是大模型的擅長，因為它沒有條件反射，它沒有本能。 假如按照這樣的邏輯，今天的大模型將永遠達不到我們人類的智慧，因為人的智慧中間最根本的、最基礎的是本能的反應、本能的反饋。

接著，吸收大量的環境數據，感知到越來越多後，將人類天然的分析、邏輯歸納、聚類的能力加到分析中，分析之後，就形成了一種模型。模型是什麽？ 模型就是我們認識世界的一種規律。 有了規律的認識之後，當外界有一個條件的輸入，模型根據規律就能做出預判。那為什麽要預判？因為要對環境做出更合理、恰當的反饋，這就是智慧化。

按照這樣的結構，我們會發現，它分為兩部份。模型部份就是大模型今天在做的事情，對環境做出本能反饋的部份是機器、智慧裝置或者機器人在做的事情。這兩部份要結合，結合以後，就創造了今天的另外一個人工智慧的話題—— 具身智慧 。這樣的結合可能是真正地把這個整體整合起來。

然後，在此之前，又存在著我們的智慧最終是由什麽決定的？在哲學上有兩種決定人的智慧：決定論和自由意誌論。也就是我們這個社會是什麽樣的一個社會，是確定的還是不確定的？假如按照科學的定義，認為任何事物之間一定有規律，存在固定的規則，按照這樣的規則，我們的世界就是確定的，即決定論。但是生活環境之下，大家並不這樣認為，都覺得好像世界由我決定，努力了就會成功，即自由意誌論。這兩種不同的觀點相互矛盾，所以我們可能先要解決一個問題，這個世界或智慧體是決定論還是自由意誌論？這就是今天ChatGPT或者大模型給我們帶來的一個挑戰。

今天的人工智慧有四種能力：感知能力、分析能力、預判能力和執行能力。

感知能力，接收並處理外界資訊的能力，如視覺、聽覺、觸覺等。但今天的人工智慧感知與人類的感知相比，我覺得還差第六感知。

分析能力，辨識數據及關系，進而理解其本質和運作規律的能力。分析能力取決於所獲得的數據，如果數據不完整，那它所理解的規律一定是欠缺的。

預判能力，對事物或環境做出預判的能力。預判就是形成了模型，對環境進行預判。但是今天的大模型因為獲得的數據不完整，所以預判能力總是有點欠缺。

執行能力，轉化為實際行動能力。實際行動能力相對來說我們比較容易接受。因為它所謂對環境的影響是對人的影響，人的容錯能力特別強，只要我覺得它合適就合適，沒有苛求。今天的大模型，它掛了一個非常重要的特點叫chat，它沒有說是專家、科學，只是聊天，只要能聊起來就行。當然它也在盡量做到科學，這便是目前的現狀。

那麽，AI大模型的背後是什麽？底層邏輯是什麽？怎麽做到的？

AI大模型的底層邏輯就是神經網路。 神經網路就是模擬人的大腦的神經，人的大腦裏面有大量的神經元，每個神經元都會根據外界不同的訊號及時做出反饋。神經元之間相互影響，從最初感知到訊號的神經元，做出反應給到另一部份神經元，最後由行動的神經元做出恰當的反饋，這就是整個大腦的過程。

今天人工智慧已經開始用人的神經元、大腦的神經元網路來構造神經網路演算法。這個演算法有輸入，中間有神經元，神經元之間彼此影響，影響到最後有輸出的神經元，並要求這個輸出的神經元進行恰當的反饋。演算法做好之後，接下來就是判斷什麽叫恰當的反饋，當反饋不對時，這些神經元就會調整它的功能，直到正確為止。這就是透過神經元來訓練，訓練之後，一旦神經元的功能固定，就形成了模型，這就是基本的神經網路。

人工智慧也因為有了神經元，學習的方法發生了變化。從早期分類、回歸的監督學習，聚類、降維的非監督學習，最優行動策略的強化學習，到今天神經網路抽象特征的深度學習。

而深度學習的方法取決於什麽？它的核心是數據，輸入有數據，輸出有數據。 所以數據是神經網路非常重要的要素，數據越多它學得越好，反饋越好。 在這裏我們發現，原來的小數據訓練適合於監督學習、非監督學習、強化學習，數據太多沒有意義。但是對於深度學習來說，數據越多越好，量變引起質變，當數據足夠多，多到我們無法想象，那它產生的效果也是無法想象的，已經類似於人類的思考，所以就產生了GPT模型。

GPT模型簡單來理解，其實就是在模擬我們的大腦。它分為三部份。第一部份是數據，用數據來進行訓練。第二部份是Transformer，用大量數據訓練形成模型，相當於人類的大腦。第三部份是反饋，在與外界交流時，得到任務，理解後給出反饋。這樣的模型最早是解決語言類問題的。因為人類的對話之間是順序的、序列的，所以GPT模型也是按順序、序列的方式來訓練的。

到了視訊，它是透過圖片疊加的，是一個三維的訊號，那如何去理解三維的訊號呢？ OpenAI 用了這樣一種方法，它把圖形疊加起來形成視訊，然後分成一個個小塊，然後把這些小塊按照順序連線起來，變成序列的方式，這時GPT模型就派上用處了，它透過大量數據輸入訓練出今天的視訊模型Sora。

人工智慧能做什麽？

在理解了大模型的底層邏輯之後，我們來看看Sora給我們帶來的影響。

AIGC。不僅僅是文生文、文生圖，今天已經到了文生視訊。這裏的通用人工智慧是指模型具有多種能力，並不是它真的能代替人類。

AGI（通用人工智慧）。多場景、多工、多模態，用Sora這種大模型來幫助我們做各種各樣的事情。

視訊生成模型作為世界的模擬器。這一點的實作很難，但是給我們帶來了一個想象。在模型理解世界的過程中，最底層的是需要觀察更多的數據，理解更多的數據，然後找出底層的物理特性。

以前不相信是真的，現在不相信是假的。為什麽？因為它模擬得太真實了，表面上來看沒有任何差錯。

在套用層面，Sora也帶來一些影響。

改變了視訊制作的流程，視訊制作變得更簡單，輸入文字透過多次產生得到好的結果，提高內容創作的效率。這其中關鍵的不是簡單地產生視訊的能力，而是選擇視訊的能力。

擴散Transformer模型能夠處理不同分辨率、持續時間和長寬比的視訊，為影視制作提供新的可能性。

廣告、遊戲、教育和新聞等行業也可能受到Sora的影響，改變工作流程，提高效率。

當然，Sora也有它的局限。第一個是擴散模型（圖片產生新的圖片的一種技術）加上Transformer模型的架構，會導致越模糊越有優勢，因此它在那些創新的、藝術的領域更有優勢。第二個是模擬復雜物理世界的精確性不夠。第三個是邏輯的連貫性不夠，可能會出現幻覺。

那麽在這樣的大背景下，我們建議大家盡早地學會使用Sora這個工具，因為它是一種完全創新的工具，而這種創新需要你給它一個合理的刺激，才能做出創新，所以未來會不會問問題變得非常重要。同時需要透過不斷嘗試來發現它在某些方面的用處和價值，用來解決問題。

Sora的套用影響

1、影視生產的壁壘和「專業性」是否會被打破？

不會，而且會越來越專業。以前的專業是指會畫圖、產生視訊，今天的專業是會選圖、選視訊，選擇是藝術家的非常難得的專業水平。

2、心影視的末日&芯影視的黎明？

心影視沒有末日。芯影視的黎明可能會出現，也就是AIGC，在未來的視訊中間會產生大量的由電腦系統來產生的視訊。

3、文生視訊的大模型，能代表「世界模型」？

今天代表不了。

4、對比電腦圖形？虛擬引擎？空間計算？

對比電腦圖形，它比圖形要更加進一步，叫虛幻的引擎。還沒有進入到空間計算，這是第三步。

5、是工具還是體驗？

一定是工具，今天還沒有到體驗，所以我們更多地拿它來做工具。

到了這裏，我要特別強調一下，用人工智慧來進行套用重要的是什麽？今天大家都在說人工智慧三大要素——演算法、算力、數據，其實在這三大要素中間，假如談到套用的話，必須加上另外一個要素——目標，而且目標比其它三個都重要。假如目標選錯了，很有可能AI就達不到你想要的效果。

套用首先看目標。假如按照這樣的邏輯，大家就能明白，中國的人工智慧跟美國人工智慧差多少，我們不要去比其它的，只要看目標。大家想中國的人工智慧目標跟美國人工智慧目標一樣嗎？當然不一樣，所以它再好不能代替我們，我們必須做自己的目標。那目標背後由什麽決定？ 數據。數據背後是文化、價值觀和各種各樣的社會現象。