当前位置: 华文世界 > 科技

AI纵横论|AI时代,颠覆性创新机会在哪里?

2024-05-15科技

复旦大学管理学院教授、博导,复旦大学智慧城市研究中心主任凌鸿教授在「WAIC Circle·AI预见生态论坛」上作主旨演讲

引言

在这个充满变革与创新的时代,人工智能浪潮席卷而来,AI大模型成为引领行业发展的重要引擎,孕育催生未来产业新模式、新业态。AI大模型的底层逻辑是什么?面对AI大模型带来的颠覆性创新机会,AI+时代,企业应如何把握先机,实现跨越式发展?

4月23日「WAIC Circle·AI预见生态论坛」上,复旦大学管理学院教授、博导,复旦大学智慧城市研究中心主任凌鸿教授进行主题为【AI大模型的底层思考和发展趋势:AI+时代,颠覆性创新机会在哪里?】的分享,以下内容整理自凌鸿教授演讲实录。

精彩观点

  • 什么 是人工 智能时代? 首先,要理解什么叫智能。 我的理解是,智能是系统或个体能够对环境做出恰当反馈的能力

  • AI大模型的底层 逻辑就是神经网络。 数据是神经网络非常重要的要素,数据越多它学得越好,反馈越好

  • 大家都在说 人工智能三大要素——算法、算力、数据,其实在这三大要素中间,假如谈到应用的话,必须加上另外一个要素——目标,而且目标比其它三个都重要

  • 人工智能不是人类智能,要让机器做机器擅长的事情,人类做人类擅长的事情

  • 01

    智能时代来临

    春节期间Sora出现,我们可以看到,它最大的三个特点是文生视频、多景切换和世界模型。

  • 文生视频。其中「文」非常关键,「文」是我们在人文交流过程中间最规范的一种交流方式。假如没有这样的规范,生成视频很难。因为当我们要描述一个视频时,可能需要有大量的信息。那这些信息从哪来?今天 AIGC 需要通过理解自然语言来产生内容,而理解首先需要提供准确的表达,因此「文」变得很重要。

  • 多景切换,即不同角度所看到的画面准确对应。比如说,当我看到你的时候,可能这里有一个话筒。当我换一个角度看另一边,话筒还是在那里。

  • 世界模型。我们看到的世界是真实的世界,它其实不用叫模型,就是真实的。但当我们把它虚拟化、数字化之后,就变成了一个模型。那这个模型能不能表达我们的现实世界?我觉得现在还不能,正在努力。

  • 了解了这些之后,我用 ChatGPT 产生了一个关于Sora的介绍,它帮我进行了简单的汇总。但是大家有没有发现, 假如你再去问ChatGPT同样的问题,它的回答就变了,甚至永远也给不出同样的答案了。 这是为什么?因为它本身就是大模型在模拟人性的东西,而恰恰人性很有可能是不确定性的东西。就像在没有工具的辅助下,我不可能再完全相同地进行一次今天的演讲,而这恰恰就是人。所以假如我们用大模型、人工智能来模拟人,这一点是必须要做到的,这就是它的底层逻辑。

    这里是我罗列的从2010年开始每年的一个热门词,大家可以看到在整个的十年过程中,AI不是今天才刚刚出现的,它出现了很多次。

    第一次人工智能出现是在2011年,当时有一个叫沃森的计算机,在美国的智力竞猜节目中获胜,同时击败两位冠军选手,碾压人类。它听得懂人话,能回答问题,由此引发了之后的人工智能大热。这场人工智能热导致知识图谱在人工智能中间蓬勃发展。沃森也因能够回答人类大量的问题变成了一个专家,成为医生,进入医疗领域。近几年因使用成本过高而正式退役。

    第二次人工智能热门出现在2017年。这次热门出现是因为在2016年的一场围棋大战中,AlphaGo战胜了韩国的围棋顶尖高手李世石,让大家看到了人工智能的潜力。虽然人们渐渐遗忘了AlphaGo,但其实AlphaGo带来的影响到目前为止仍在影响我们。

    第三次人工智能热门就是在2023年了。大家都知道2022年的十月份出现了ChatGPT,我想不论是谁,当你第一次使用它,一定会感到惊讶,惊讶到不可思议。因为一个机器居然能回答的像人一模一样,而且让你感觉很舒服。那么这次的人工智能热门能持续多久,会不会像前两次一样,过了几年以后被大家渐渐遗忘呢?我们现在并不知道。

    接着,我们来看看究竟怎么来理解人工智能。今天我们已经进入到智能时代,那么什么是人工智能时代?首先,要理解什么叫智能,我的理解是, 智能是系统或个体能够对环境做出恰当反馈的能力。

    ChatGPT、Sora出现之后,我们感觉人工智能的能力好像不仅仅是回答问题、下棋、对话、画图,甚至生成视频,它好像是万能的,可以做任何事情,就给它命名为通用人工智能(AGI)。我认为, 这里的通用人工智能是指它在某些方面的能力可能达到了「我想用它,它都能做」的那种感觉。

    02

    AI大模型的底层逻辑

    在以上理解的基础上,我们再来看看智能体的结构。

    首先,智能体对环境要做出反馈的话,是环境要给它一个输入。所以需要先有个输入,输入之后,智能体会在它得到输入的信号后,给出及时的反馈,这里称之为反射,即我们平时所说的条件反射。这种反射实际上是不经过大脑的,我们可以把它认为是一种人的本能,人的本能自然而然就会对环境做出反应,而不是通过智能。然而,对环境做出反馈,其实不是大模型的擅长,因为它没有条件反射,它没有本能。 假如按照这样的逻辑,今天的大模型将永远达不到我们人类的智慧,因为人的智慧中间最根本的、最基础的是本能的反应、本能的反馈。

    接着,吸收大量的环境数据,感知到越来越多后,将人类天然的分析、逻辑归纳、聚类的能力加到分析中,分析之后,就形成了一种模型。模型是什么? 模型就是我们认识世界的一种规律。 有了规律的认识之后,当外界有一个条件的输入,模型根据规律就能做出预判。那为什么要预判?因为要对环境做出更合理、恰当的反馈,这就是智能化。

    按照这样的结构,我们会发现,它分为两部分。模型部分就是大模型今天在做的事情,对环境做出本能反馈的部分是机器、智能设备或者机器人在做的事情。这两部分要结合,结合以后,就创造了今天的另外一个人工智能的话题—— 具身智能 。这样的结合可能是真正地把这个整体整合起来。

    然后,在此之前,又存在着我们的智能最终是由什么决定的?在哲学上有两种决定人的智能:决定论和自由意志论。也就是我们这个社会是什么样的一个社会,是确定的还是不确定的?假如按照科学的定义,认为任何事物之间一定有规律,存在固定的规则,按照这样的规则,我们的世界就是确定的,即决定论。但是生活环境之下,大家并不这样认为,都觉得好像世界由我决定,努力了就会成功,即自由意志论。这两种不同的观点相互矛盾,所以我们可能先要解决一个问题,这个世界或智能体是决定论还是自由意志论?这就是今天ChatGPT或者大模型给我们带来的一个挑战。

    今天的人工智能有四种能力:感知能力、分析能力、预判能力和执行能力。

  • 感知能力,接收并处理外界信息的能力,如视觉、听觉、触觉等。但今天的人工智能感知与人类的感知相比,我觉得还差第六感知。

  • 分析能力,识别数据及关系,进而理解其本质和运作规律的能力。分析能力取决于所获得的数据,如果数据不完整,那它所理解的规律一定是欠缺的。

  • 预判能力,对事物或环境做出预判的能力。预判就是形成了模型,对环境进行预判。但是今天的大模型因为获得的数据不完整,所以预判能力总是有点欠缺。

  • 执行能力,转化为实际行动能力。实际行动能力相对来说我们比较容易接受。因为它所谓对环境的影响是对人的影响,人的容错能力特别强,只要我觉得它合适就合适,没有苛求。今天的大模型,它挂了一个非常重要的特点叫chat,它没有说是专家、科学,只是聊天,只要能聊起来就行。当然它也在尽量做到科学,这便是目前的现状。

  • 那么,AI大模型的背后是什么?底层逻辑是什么?怎么做到的?

    AI大模型的底层逻辑就是神经网络。 神经网络就是模拟人的大脑的神经,人的大脑里面有大量的神经元,每个神经元都会根据外界不同的信号及时做出反馈。神经元之间相互影响,从最初感知到信号的神经元,做出反应给到另一部分神经元,最后由行动的神经元做出恰当的反馈,这就是整个大脑的过程。

    今天人工智能已经开始用人的神经元、大脑的神经元网络来构造神经网络算法。这个算法有输入,中间有神经元,神经元之间彼此影响,影响到最后有输出的神经元,并要求这个输出的神经元进行恰当的反馈。算法做好之后,接下来就是判断什么叫恰当的反馈,当反馈不对时,这些神经元就会调整它的功能,直到正确为止。这就是通过神经元来训练,训练之后,一旦神经元的功能固定,就形成了模型,这就是基本的神经网络。

    人工智能也因为有了神经元,学习的方法发生了变化。从早期分类、回归的监督学习,聚类、降维的非监督学习,最优行动策略的强化学习,到今天神经网络抽象特征的深度学习。

    而深度学习的方法取决于什么?它的核心是数据,输入有数据,输出有数据。 所以数据是神经网络非常重要的要素,数据越多它学得越好,反馈越好。 在这里我们发现,原来的小数据训练适合于监督学习、非监督学习、强化学习,数据太多没有意义。但是对于深度学习来说,数据越多越好,量变引起质变,当数据足够多,多到我们无法想象,那它产生的效果也是无法想象的,已经类似于人类的思考,所以就产生了GPT模型。

    GPT模型简单来理解,其实就是在模拟我们的大脑。它分为三部分。第一部分是数据,用数据来进行训练。第二部分是Transformer,用大量数据训练形成模型,相当于人类的大脑。第三部分是反馈,在与外界交流时,得到任务,理解后给出反馈。这样的模型最早是解决语言类问题的。因为人类的对话之间是顺序的、串行的,所以GPT模型也是按顺序、串行的方式来训练的。

    到了视频,它是通过图片叠加的,是一个三维的信号,那如何去理解三维的信号呢? OpenAI 用了这样一种方法,它把图形叠加起来形成视频,然后分成一个个小块,然后把这些小块按照顺序连接起来,变成串行的方式,这时GPT模型就派上用处了,它通过大量数据输入训练出今天的视频模型Sora。

    03

    人工智能能做什么?

    在理解了大模型的底层逻辑之后,我们来看看Sora给我们带来的影响。

  • AIGC。不仅仅是文生文、文生图,今天已经到了文生视频。这里的通用人工智能是指模型具有多种能力,并不是它真的能代替人类。

  • AGI(通用人工智能)。多场景、多任务、多模态,用Sora这种大模型来帮助我们做各种各样的事情。

  • 视频生成模型作为世界的模拟器。这一点的实现很难,但是给我们带来了一个想象。在模型理解世界的过程中,最底层的是需要观察更多的数据,理解更多的数据,然后找出底层的物理特性。

  • 以前不相信是真的,现在不相信是假的。为什么?因为它模拟得太真实了,表面上来看没有任何差错。

  • 在应用层面,Sora也带来一些影响。

  • 改变了视频制作的流程,视频制作变得更简单,输入文字通过多次产生得到好的结果,提高内容创作的效率。这其中关键的不是简单地产生视频的能力,而是选择视频的能力。

  • 扩散Transformer模型能够处理不同分辨率、持续时间和纵横比的视频,为影视制作提供新的可能性。

  • 广告、游戏、教育和新闻等行业也可能受到Sora的影响,改变工作流程,提高效率。

  • 当然,Sora也有它的局限。第一个是扩散模型(图片产生新的图片的一种技术)加上Transformer模型的架构,会导致越模糊越有优势,因此它在那些创新的、艺术的领域更有优势。第二个是模拟复杂物理世界的精确性不够。第三个是逻辑的连贯性不够,可能会出现幻觉。

    那么在这样的大背景下,我们建议大家尽早地学会使用Sora这个工具,因为它是一种完全创新的工具,而这种创新需要你给它一个合理的刺激,才能做出创新,所以未来会不会问问题变得非常重要。同时需要通过不断尝试来发现它在某些方面的用处和价值,用来解决问题。

    Sora的应用影响

    1、 影视生产的壁垒和「专业性」是否会被打破?

    不会,而且会越来越专业。以前的专业是指会画图、产生视频,今天的专业是会选图、选视频,选择是艺术家的非常难得的专业水平。

    2、 心影视的末日&芯影视的黎明?

    心影视没有末日。芯影视的黎明可能会出现,也就是AIGC,在未来的视频中间会产生大量的由计算机系统来产生的视频。

    3、 文生视频的大模型,能代表「世界模型」?

    今天代表不了。

    4、 对比计算机图形?虚拟引擎?空间计算?

    对比计算机图形,它比图形要更加进一步,叫虚幻的引擎。还没有进入到空间计算,这是第三步。

    5、 是工具还是体验?

    一定是工具,今天还没有到体验,所以我们更多地拿它来做工具。

    到了这里,我要特别强调一下,用人工智能来进行应用重要的是什么? 今天 大家都在说人工智能三大要素——算法、算力、数据,其实在这三大要素中间,假如谈到应用的话,必须加上另外一个要素——目标,而且目标比其它三个都重要。 假如目标选错了,很有可能AI就达不到你想要的效果。

    应用首先看目标。假如按照这样的逻辑,大家就能明白,中国的人工智能跟美国人工智能差多少,我们不要去比其它的,只要看目标。大家想中国的人工智能目标跟美国人工智能目标一样吗?当然不一样,所以它再好不能代替我们,我们必须做自己的目标。那目标背后由什么决定? 数据。数据背后是文化、价值观和各种各样的社会现象。

    Sora的更深层次意义

    1、 AI能表达真实物理世界的宏观、中观、微观、量子力学?

    这就是上面所说的,这个世界是决定论还是自由意志论?我想,在微观层面往往随机性更大,在宏观层面其实是确定的。这个世界怎么发展可能大家都能确定,河流流到哪里去,大家都能确定;但是每一个水滴跑到哪里去,就不知道了。所以今天的大模型在大趋势上是确定的,在小的方面它做了一些随机。

    2、 神经网络能接近人类思维吗?

    人的思维我们今天理解的是神经网络,用算法来模拟,那会不会人的思维就是这样?我感觉不是。所以下一代的人工智能可能要有新科学、新逻辑的产生。

    3、 AIGC有企图和目的吗?人类的智能有企图和目的吗?

    今天的ChatGPT、Sora,它们都没有目标,也就是没有意识。既然没有目标,没有意识,要能达到人类的目标和意识可能很难,这是我的进一步判断。

    4、 AIGC创造的是形还是意?

    AIGC创造的更多的是形,而不是意。

    5、 人类和AI是你死我活的关系?

    人类和人工智能不是你死我活的关系,它是能辅助我们的。人工智能实际上是一种新的工具。在人类的发展过程中间,我们要借助人工智能走向更好的未来。

    那应该如何来用好AIGC工具?

    对个人来说, 第一,选工具比选版本更重要。第二,想问题比解决问题重要,选择能力比生产能力重要。第三,理解业务本质比完成业务重要。

    对组织来说, 第一,鼓励员工使用AI,奖励创新者。第二,改变工作流程。第三,形成独立团队,让团队理解如何创造新的标准化的AI工作流程。第四,按照部门提要求。第五,对于传统型企业而言, 改变理念是当务之急, 系统性地推广和学习是必要的。

    最后,我想强调,在人工智能时代的一种理念—— 人工智能不是人类智能,要让机器做机器擅长的事情,人类做人类擅长的事情。