当前位置: 华文世界 > 科技

人工智能的跨越门槛:先是慢慢地,然后突然间

2024-07-20科技

来源:36氪

编者按:本文主要探讨了技术改进如何先是慢慢地然后突然间颠覆市场,以及人工智能(AI)在达到某些能力阈值后对日常生活和工作方式的重大影响。跟过去技术不一样的是,人工智能的改进会是锯齿状的。文章来自编译。

很多重要技术都有个基本特征,那就是它们会逐渐改进。原因复杂多样,但我们会预期每一代 iPhone 相机都会比上一代有所改进,电动汽车每年的行驶里程都会增加,电视也会变得更好、更便宜。就像我过去所讨论那样,人工智能正走上一条类似、但速度更快的改进曲线。

但在现实世界当中,并不是所有改进都一样。一般来说重要的是技术什么时候突破了某些能力阈值。比方说,数码相机曾经是个小众市场,直到其分辨率突破阈值,大致与典型的宝丽来相机一样好之后(下图顶部),在短短几年内就迅速完全占据了市场主导地位(下图)。

阈值是技术变革(一如海明威笔下的破产)「先是慢慢地,然后突然间」发生的主要原因。跟旧技术相比,新技术不够好,直到突然间它就变得可以跟旧技术相提并论。

我们知道人工智能是一种通用技术——会对我们生活的众多行业和领域产生广泛影响。但它也有缺陷,执行某些任务容易出错,但执行其他一些任务中却非常出色。将大语言模型能力的这种锯齿状边界与其广泛的实用性以及能力阈值的概念相结合,你就会开始用非常不一样的方式去看待大语言模型的发展。这不是一条平滑的曲线,而是一系列的阈值,一旦跨越,就会突然且不可逆转地改变我们生活的方方面面。

是个玩具,直到不再是玩具

这篇文章的第一张图片,也就是数码相机与胶卷相机销量的对比图表,就包含了此类现象的一个例子。这张图表不是我自己找到的,而是人工智能根据一份旧的 PDF 文件创建出来的。折腾数据这件事情很烦人,所以我让人工智能帮我做这件事。

其实对于这件事行不行我并不抱太大希望。今年早些时候我就曾用 GPT-4 做过类似的实验,但失败了。由于可视化的缺陷以及数据在垂直列的排列,人工智能给出的结果很糟糕。你可以看到这里也发生了同样的事情,它生成的图表错得离谱。

但我后来试了更新的 GPT-4o 与 Claude Sonnet 3.5,两者的表现基本上都已完美无缺。已经突破了阈值,虽然我还会去检查一下结果,但从现在开始我会用人工智能来完成这类任务。人工智能可能还会犯错,但它需要花费的时间和精力要少得多……而且可能比我雇的任何研究助理,甚至比我自己做这项工作时犯的错误都要少。

在人工智能图像生成领域我们也看到了类似进展。我用「梵高风格的时尚摄影」这个提示试了去年发布的四个版本的 Midjourney 的表现。第一个版本简直可笑。几个月后发布的第二个版本还算过得去。六个月后,Midjourney 创作出的已经看上去像一张照片了,虽然经过了修饰,里面有创意细节,有有趣的时尚选择和主题背景。六个月后,你已经几乎无法轻易分辨出人工智能生成的图像与真实照片之别了。

现在,视频领域也取得了类似进展。几个月前,人工智能视频还只是玩具,做出来的人四肢扭曲、面部表情不断变换,简直就是噩梦。就在本周,一个新的模型 Runway Gen 3 发布了。看看它为我制作的第一个视频,我给它的提示是:「近距离拍摄:梵高风格的时尚摄影。」虽说不是每一部人工智能视频都能拍出这么好的效果,但阈值比我们想象的要近。

实际使用的阈值

不过,「逼真有趣的视频」的阈值跟「取代专业电影制作人的商业可行工具」的阈值完全不一样。不管是是视频还是图像型人工智能,我对图像及其中的人物的控制水平仍然很低。更重要的是,无论结果多么的令人印象深刻,当前生成人工智能视频的过程与专业作家、导演、制片人以及电影制作人的复杂工作流程都不太吻合。人工智能不大可能在短期内取代这些角色,但可以作为补充和助手。不过,要做到这一点,人工智能需要跨越另一个门槛,也就是要求人工智能的这种帮助变得更容易获得,更加透明。

这种要求可能很快就会实现。作为用户体验哪怕是很小的变化也能让人工智能突破阈值的一个例子,不妨看看 Claude 3.5 Sonnet 是如何实现「artifacts」的。就是 Claude 可以创建和运行的小代码片段,一年前GPT-4 的代码解释器就有了。事实上,代码解释器的功能比 Claude 的artifacts要全面得多……但artifacts交互性更强、创建速度更快、使用起来也更方便。此外,Claude 3.5 这个模型也更友好、更健谈。事实证明,这足以跨越使用门槛。

我可以把一家小企业的损益表上传给 Claude,并给出提示「这是反映我的初创公司财务状况的 Excel 文件,请将其制作成仪表板。」几秒钟后,我得到了以下信息:

但是,由于它速度快、反应灵敏,我可以更进一步,运用我在创业课上教授的技术,帮助创始人测试他们的财务假设。「给敏感性分析添加关键假设」,这样我就可以调整关键变量并观察结果。「以蒙特卡罗模拟的方式运行」,人工智能会快速试验数百种变量组合,向我展示可能发生的情况。「假设呈正态分布,结果会怎样?」人工智能会根据模拟结果向我展示企业成功或失败的可能性。(人工智能的结果很准确,但我还不能完全信任它,我可能会让它以更复杂的方式去模拟业务)

当我在用 GPT-4o 做类似的工作时,感觉就像在跟程序员一起工作。但在用 Claude 3.5 时,我的感觉很棒,纯粹是因为体验跨越了轻松与准确的门槛。不过口说无凭,你可以自己去试试,进入左下角的菜单,选择「功能预览」,然后打开「Artifacts」就可以体验。一些有趣的东西可以试试:「给我制作一个模拟,解释这个东西是怎么工作的」,「把这篇学术论文[你可以上传论文]变成一个视频游戏」,以及「给[附件]写一份出色而详细的摘要」。玩一下你就会明白我的意思。

看不见的阈值

跟数码相机不一样的是,很难衡量人工智能何时突破了阈值。这往往是一个经验跟感觉的问题。比方说,尽管 Claude 3.5 在许多基准测试与 GPT-4o 不相上下,但我和很多用过它的人似乎认为 Claude 3.5 跨越了复杂语言「理解」的一些重要门槛。举个例子,我给三个领先的人工智能模型提出过一个挑战。我给他们提供了【哈姆雷特】(第 4 幕,第 7 场)的一段话,里面格特鲁德(Gertrude)描述了奥菲莉亚的死亡。开头是:

在小溪之旁,斜生着一株杨柳

它的毵毵的枝叶倒映在明镜一样的水流之中

她编了几个奇异的花环来到那里

用的是毛茛、荨麻、雏菊和长颈兰,

说粗话的牧人给它起了一个不雅的名字,

但我们冷酷的女仆却管这种花叫「死人的手指」

然后我对每一个人工智能都问了这个问题「文章里面提到的另一个名字是什么?」细心的人类读者会意识到我指的是一个有趣的想法,即这些花还有一个淫秽的第三个名字,叫做「长颈兰」或「死人的手指」,但只有 Claude 3.5 理解这个晦涩逻辑。这个例子展示了理解复杂文学文字里面微妙的语境线索和隐含意义的强大能力。这个人工智能已经迈过了一道能力门槛,尽管这个门槛很难定义。

我预计,随着模型的稳步改进,许多其他类似的门槛也会悄然被跨越。只有少数人会注意到。人工智能能力锯齿状边界的扩张很微妙,需要对各种模型有丰富经验才能了解它们能做什么,不能做什么。这就是为什么我建议大家以及组织要保留一份「不可能清单」——列出根据他们的实验表明人工智能今天肯定做不到但几乎可以做到的事情。比方说,没有一个人工智能可以想出一个令人满意的谜题或谜团让你解决,但它们正在越来越接近。当人工智能模型更新时,用你的不可能清单上去测试它们,看看它们是不是可以完成这些不可能的任务了。

到了某个时候,当前的这波人工智能技术浪潮将会达到极限,前进的步伐会放缓,但没人知道什么时候会出现这种情况。在此之前,值得思考一下 OpenAI 关于用人工智能调试人工智能代码那篇新论文的结论:「从现在开始,大语言模型的智能……只会不断改进。但人类的智能不会。」我们知道这未必永远如此,但与此同时,人工智能能力的稳步提高并没有阈值的变化那么重要。请密切关注阈值吧。

译者:boxi。