美国Sora炸街不是因为能做视频，而是达到了人工智能的临界点

2024-02-20科技

（一）轻视 or 重视

把一句话文字描述转化成逼真的高清视频，并且符合现实世界的物理法则，美国最新推出的这项通用人工智能技术Sora炸街已经好些天了。

国人对Sora的看法迅速分成了两派，不可轻视派和不可重视派。

不可轻视派认为，Sora技术是美国在推出chatGPT仅仅一年多之后又一重大技术突破，再次与中国拉开差距，值得我们高度重视，我们必须尽一切努力迎头赶上。

不可重视派则认为这些人见风就是雨，大惊小怪，都是美吹。他们的理由是，这些年美国搞出来的噱头技术还不少吗？从web3.0, 到阿尔法狗、元宇宙，然后又是苹果的Vision Pro头显，只要美国推出一项新技术，美吹们都会认为是划时代的，美国了不得，遥不可及，但最后这些技术没一个成功商业化，最终都像美丽的泡沫一样消失了。由此可知，这次的Sora文字生成视频，也不过如此，无需大惊小怪，至少先等它真正转化为先进生产力再说。

抛开孰是孰非，是不是应该重视这项技术不谈，我们首先应该做的，是了解这项技术突破到底意味着什么，是一次怎样的进步，然后才能评价，它究竟是不是值得我们去重视。

（二）不只是生成视频

表面上看，这项技术最大的特点，就是能把文字描述直接转化成高清视频。

我们知道，生产高质量视频的成本是非常高的，通常都是以秒来计算成本。

现在这项技术，可以极大地降低视频拍摄成本，可以在一定程度上提高视频生产的效率。

如果只是把这项技术看出视频生产技术，那么这项技术确实没什么好大惊小怪的。大不了以后美国做视频的成本低了，质量高了。仅此而已。

显然不能这么理解。

这项技术之所以厉害，其实根本在于它背后的算法进化。是背后支持这种文字转视频能力的通用人工智能算法进化。

可以说，这种算法，已经让人工智能达到了一个相对的临界点。

就是说，人工智能将第一次开始真正产生一定的认知能力！类似人类认知的能力！

这是人类发展历史上一个非常了不起的分界点，里程碑。

它与之前的所有人工智能技术，都有着本质的区别。

（三）之前的人工智能技术

之前的所有所谓人工智能技术，都只是一种技术匹配和大数据筛选以及逻辑判断，都没有达到类似人类认知的程度。而这次的Sora诞生，则展现了一定的认知能力，至少让我们看到了人工智能产生一定人类认知的可能性。

这才是Sora最最了不起的地方！最最炸街的地方！载入人类发展史的地方！而不是什么视频生成。

有必要对人工智能进行一些简单的分析和分类。

最早的人工智能，可能主要还是像工业4.0这样的，是一种更高级的机械自动化、生产自动化。就是通过传感器和网络，将生产过程变得更加智能。

最早的神经网络人工智能，就是会下棋的阿尔法狗，它具备神经网络的学习能力，但从本质上说，它还只是一种算法的自主学习和优化，是对一定规则的学习和判断。也就是说，它只能胜任你教给它的规则，比如下棋规则。超出规则范围的，它就一无是处了。

然后还有网络大数据分析推送这样的人工智能，其实也是算法判断而已，没有认知和智能的成分在里面。

再到像chatGPT这种能「写」文章的人工智能，它已经有一定自主性了，能生成看似原创的文章，看似有「思想」的文章。

但事实上，它生成的这些文章，并没有任何思想，这些思想只是我们读者在阅读文章时赋予它的。它本身只是按照一定规则，把一些文字素材「巧妙」地拼接在一起，让我们看起来好像是那么回事，有一定的「逻辑」关系在里面。虽然事实上它自己并不知道拼了个什么。

这种人工智能技术已经很先进了，但距离人类认知还非常非常远。它只能跟文字符号打交道，说白了还是在跟抽象的符号，抽象的规则打交道。它没有直接跟现实世界发生任何关联。

也就是说，它其实和下棋的神经网络，在本质上没有太大差别。都是对抽象规则的学习和运用。

好了，在弄清楚前面这些人工智能技术之后，现在终于可以让Sora出场了。

（四）Sora出场

没错，它就是和前面的这些技术有那么一点点本质区别了。虽然还不是很多。

就是说，它开始和现实世界打交道了！

为什么？

因为它把抽象的文字生成了与现实世界几乎一致的视频！

如果我们把这个过程反过来看会怎么样？

那就是，如果我们给它一段现实世界的视频，那么它，理论上，是不是也可以把视频抽象成文字！

那这个过程，是不是就是我们人类认识这个世界的过程！

把我们看到的这个世界的现实情况，通过加工变成文字和符号存储起来！

这就是人类认知。这就是人与所有其他动物最大的区别！

所以这个Sora技术，是一项划时代的、在人类发展历史上都具有里程碑意义的重要技术突破！

当然，在激动过后，我们也要清醒地看到，这项技术，目前还处于一个非常非常初级和原始的阶段。

它甚至都还没有达到我们这里描述它和夸赞它的这个程度。

因为它现在毕竟只能把文字生成视频，并没有说已经可以把视频抽象成文字了。

但是，它的推出，让我们看到了通用人工智能接下来的发展前景和潜力。

它让我们看到，让人工智能在一定程度上，达到人类的认知水平，是有可能的！

注意，这里说的人类认知，是指非常粗浅的认知，只是对一些物理世界大多数事物的简单识别是判断。这与人工智能发展出人类的智力，人类的主观意识，真正的逻辑分析和自我反思能力，还有二十万八千里的距离。

甚至可以说，从哲学上看，从理论上看，人工智能也许永远也不可能达到人类智力和认知水平。

因为从哲学上看，人类和动物的本质区别，是存在和不存在的问题，to be or not to be。

对人来说，桌子、房子、财富、感情，这些都是存在，但对动物来说，它也能看到桌子，但它无法理解桌子。

人工智能也一样，它几乎是无法理解这个世界的。

但它也许能，认知这个世界，知道什么是什么，知道每个东西的用处，虽然无法理解这些东西的含义。这就是Sora技术带给我们的最大思考。

这也是Sora技术最最重大的意义和价值。

如果你理解了这一层意思，相信就不会去争辩这项技术是不是重要了。甚至都不必去争辩美国还是中国，因为这是全人类发展的都要去突破的技术，是属于全人类的技术。不管中国还是美国实现了这种突破，都值得庆贺。

就像当年美国实现登月一样，是个人的一小部分，确实人类的一大步。

一手思想

对人工智能，个人从哲学上的基本判断，就是人工智能无法形成主观意识、自我意识。因为我们人之所以为人，是通过我们的先天智力，把这个世界建构成一个抽象的、符合我们意识的世界，一个以「我」为中心的世界。是一个有秩序的世界、符号化的世界。

但世界本来的样子，是我们无法认识的。它其实是去中心化的，不是以人类为中心，也不是以地球、太阳、银河为中心的世界，而是一个庞大浩渺无边的世界。我们人类在世界中根本什么都不是。

我们无法认知世界本来的面目，正如人工智能无法理解我们人类认识的世界一样。我们的世界，只为我们人类存在。

但是人工智能，可以在一定程度上产生一定的「认知」，就是它能按照人类的方式去识别世界，识别和我们看到一样的世界，虽然它无法认识这个世界，但可以识别这个世界。这也许是人工智能最高级的境界和天花板了。

Sora正在接近这个门槛。