美國Sora炸街不是因為能做視訊，而是達到了人工智慧的臨界點

2024-02-20科技

（一）輕視 or 重視

把一句話文字描述轉化成逼真的高畫質視訊，並且符合現實世界的物理法則，美國最新推出的這項通用人工智慧技術Sora炸街已經好些天了。

國人對Sora的看法迅速分成了兩派，不可輕視派和不可重視派。

不可輕視派認為，Sora技術是美國在推出chatGPT僅僅一年多之後又一重大技術突破，再次與中國拉開差距，值得我們高度重視，我們必須盡一切努力迎頭趕上。

不可重視派則認為這些人見風就是雨，大驚小怪，都是美吹。他們的理由是，這些年美國搞出來的噱頭技術還不少嗎？從web3.0, 到Alpha狗、元宇宙，然後又是蘋果的Vision Pro頭顯，只要美國推出一項新技術，美吹們都會認為是劃時代的，美國了不得，遙不可及，但最後這些技術沒一個成功商業化，最終都像美麗的泡沫一樣消失了。由此可知，這次的Sora文字生成視訊，也不過如此，無需大驚小怪，至少先等它真正轉化為先進生產力再說。

拋開孰是孰非，是不是應該重視這項技術不談，我們首先應該做的，是了解這項技術突破到底意味著什麽，是一次怎樣的進步，然後才能評價，它究竟是不是值得我們去重視。

（二）不只是生成視訊

表面上看，這項技術最大的特點，就是能把文字描述直接轉化成高畫質視訊。

我們知道，生產高品質視訊的成本是非常高的，通常都是以秒來計算成本。

現在這項技術，可以極大地降低視訊拍攝成本，可以在一定程度上提高視訊生產的效率。

如果只是把這項技術看出視訊生產技術，那麽這項技術確實沒什麽好大驚小怪的。大不了以後美國做視訊的成本低了，品質高了。僅此而已。

顯然不能這麽理解。

這項技術之所以厲害，其實根本在於它背後的演算法前進演化。是背後支持這種文字轉視訊能力的通用人工智慧演算法前進演化。

可以說，這種演算法，已經讓人工智慧達到了一個相對的臨界點。

就是說，人工智慧將第一次開始真正產生一定的認知能力！類似人類認知的能力！

這是人類發展歷史上一個非常了不起的分界點，裏程碑。

它與之前的所有人工智慧技術，都有著本質的區別。

（三）之前的人工智慧技術

之前的所有所謂人工智慧技術，都只是一種技術匹配和大數據篩選以及邏輯判斷，都沒有達到類似人類認知的程度。而這次的Sora誕生，則展現了一定的認知能力，至少讓我們看到了人工智慧產生一定人類認知的可能性。

這才是Sora最最了不起的地方！最最炸街的地方！載入人類發展史的地方！而不是什麽視訊生成。

有必要對人工智慧進行一些簡單的分析和分類。

最早的人工智慧，可能主要還是像工業4.0這樣的，是一種更高級的機械自動化、生產自動化。就是透過傳感器和網路，將生產過程變得更加智慧。

最早的神經網路人工智慧，就是會下棋的Alpha狗，它具備神經網路的學習能力，但從本質上說，它還只是一種演算法的自主學習和最佳化，是對一定規則的學習和判斷。也就是說，它只能勝任你教給它的規則，比如下棋規則。超出規則範圍的，它就一無是處了。

然後還有網路大數據分析推播這樣的人工智慧，其實也是演算法判斷而已，沒有認知和智慧的成分在裏面。

再到像chatGPT這種能「寫」文章的人工智慧，它已經有一定自主性了，能生成看似原創的文章，看似有「思想」的文章。

但事實上，它生成的這些文章，並沒有任何思想，這些思想只是我們讀者在閱讀文章時賦予它的。它本身只是按照一定規則，把一些文字素材「巧妙」地拼接在一起，讓我們看起來好像是那麽回事，有一定的「邏輯」關系在裏面。雖然事實上它自己並不知道拼了個什麽。

這種人工智慧技術已經很先進了，但距離人類認知還非常非常遠。它只能跟文字元號打交道，說白了還是在跟抽象的符號，抽象的規則打交道。它沒有直接跟現實世界發生任何關聯。

也就是說，它其實和下棋的神經網路，在本質上沒有太大差別。都是對抽象規則的學習和運用。

好了，在弄清楚前面這些人工智慧技術之後，現在終於可以讓Sora出場了。

（四）Sora出場

沒錯，它就是和前面的這些技術有那麽一點點本質區別了。雖然還不是很多。

就是說，它開始和現實世界打交道了！

為什麽？

因為它把抽象的文字生成了與現實世界幾乎一致的視訊！

如果我們把這個過程反過來看會怎麽樣？

那就是，如果我們給它一段現實世界的視訊，那麽它，理論上，是不是也可以把視訊抽象成文字！

那這個過程，是不是就是我們人類認識這個世界的過程！

把我們看到的這個世界的現實情況，透過加工變成文字和符號儲存起來！

這就是人類認知。這就是人與所有其他動物最大的區別！

所以這個Sora技術，是一項劃時代的、在人類發展歷史上都具有裏程碑意義的重要技術突破！

當然，在激動過後，我們也要清醒地看到，這項技術，目前還處於一個非常非常初級和原始的階段。

它甚至都還沒有達到我們這裏描述它和誇贊它的這個程度。

因為它現在畢竟只能把文字生成視訊，並沒有說已經可以把視訊抽象成文字了。

但是，它的推出，讓我們看到了通用人工智慧接下來的發展前景和潛力。

它讓我們看到，讓人工智慧在一定程度上，達到人類的認知水平，是有可能的！

註意，這裏說的人類認知，是指非常粗淺的認知，只是對一些物理世界大多數事物的簡單辨識是判斷。這與人工智慧發展出人類的智力，人類的主觀意識，真正的邏輯分析和自我反思能力，還有二十萬八千裏的距離。

甚至可以說，從哲學上看，從理論上看，人工智慧也許永遠也不可能達到人類智力和認知水平。

因為從哲學上看，人類和動物的本質區別，是存在和不存在的問題，to be or not to be。

對人來說，桌子、房子、財富、感情，這些都是存在，但對動物來說，它也能看到桌子，但它無法理解桌子。

人工智慧也一樣，它幾乎是無法理解這個世界的。

但它也許能，認知這個世界，知道什麽是什麽，知道每個東西的用處，雖然無法理解這些東西的含義。這就是Sora技術帶給我們的最大思考。

這也是Sora技術最最重大的意義和價值。

如果你理解了這一層意思，相信就不會去爭辯這項技術是不是重要了。甚至都不必去爭辯美國還是中國，因為這是全人類發展的都要去突破的技術，是屬於全人類的技術。不管中國還是美國實作了這種突破，都值得慶賀。

就像當年美國實作登月一樣，是個人的一小部份，確實人類的一大步。

一手思想

對人工智慧，個人從哲學上的基本判斷，就是人工智慧無法形成主觀意識、自我意識。因為我們人之所以為人，是透過我們的先天智力，把這個世界建構成一個抽象的、符合我們意識的世界，一個以「我」為中心的世界。是一個有秩序的世界、符號化的世界。

但世界本來的樣子，是我們無法認識的。它其實是去中心化的，不是以人類為中心，也不是以地球、太陽、銀河為中心的世界，而是一個龐大浩渺無邊的世界。我們人類在世界中根本什麽都不是。

我們無法認知世界本來的面目，正如人工智慧無法理解我們人類認識的世界一樣。我們的世界，只為我們人類存在。

但是人工智慧，可以在一定程度上產生一定的「認知」，就是它能按照人類的方式去辨識世界，辨識和我們看到一樣的世界，雖然它無法認識這個世界，但可以辨識這個世界。這也許是人工智慧最高級的境界和天花板了。

Sora正在接近這個門檻。