当前位置: 华文世界 > 科技

人工智能的未来,与真实世界对齐

2024-08-28科技

想象一下,假如你不仅能与 ChatGPT聊天,还能听到它的声音并「看到」它的反馈。这一切是不是有些科幻?但现实是ChatGPT已经在朝着这个方向进化了。

有感情的「语音智能」

就在前段时间,ChatGPT悄然上线了两种全新互动方式:语音和图像功能。其中语音功能格外令人惊艳。

ChatGPT原本仅能用于文本处理,但这次更新之后,通过集成 Whisper语音识别,进化到可以理解并响应口语, 生成非常真实的「类人声音」。

除了语音之外,ChatGPT还利用 DALL-E图像生成来理解视觉输入。用户现在可以上传或描述图片, 助手会将其解释为上下文的一部分。

例如,向ChatGPT展示一张猫坐在沙发上的照片并要求其「描述这个场景」,结果会生成详细的文本细分,提及检测到的动物和家具等元素。这种视觉理解技术为我们打开了许多新的可能性。

以往,文本模式的互动已经为许多用户提供了巨大的帮助,但在实际应用中,很多时候口头表达更自然、更高效,也更符合用户的生活习惯。因此,语音交互在真实生活中拥有更广泛的应用空间。

语音功能本身并不新鲜。一些简单的语音助手,比如小爱或Siri,已经成为日常生活中的常见应用。但是现存的语音助手模型往往反应僵硬机械,不能很好的理解与回应用户。

我们都已经习惯了这样一个事实:语音助手只能以有限的方式回应我们, 一般来说,它们能做的最有用的事情就是打开和关闭其他设备。 使用冷冰冰的机器生成声音,笨拙地给人类一点可怜兮兮的反馈。

但ChatGPT的语音功能远超这些现存的应用,完全大幅度超越了常见的机器声音效果。它能够很好地还原语气、抑扬顿挫、中间的停顿和口语化的嗯、啊等情况,给出类似真人一样的交流效果,并进行更加自然、流畅的对话,很容易给人一种你正在与真人交谈的错觉。

ChatGPT语音功能的卓越效果有时很难用文字准确描述。简而言之,除非刻意去挑剔,否则很难分辨它的发声与真人之间的区别。可以说与真人几无二致。这是语音技术领域的一次重大飞跃,绝对可以称得上是AI领域的杀手级特性之一。 我们正在步入一个未来,人类与技术的交互将更加身临其境、直观和高效。

语音智能的机遇与挑战

从技术角度分析,根据OpenAI的官方资料显示,与ChatGPT语音对话的能力利用了两个独立的模型,先将用户所说的内容转换为文本,然后将其输入聊天机器人。再通过OpenAI现有的文本转语音模型Whisper,可将 ChatGPT的响应转换为口语。

新的语音功能由一个新的文本到语音模型提供支持,能够仅通过文本和几秒钟的语音样本生成类似人类的音频。我们与专业配音演员合作,为每个人配音。我们还使用我们的开源语音识别系统 Whisper 将您说的话转录成文本。

以上摘自OpenAI的官方资料。这里的描述听起来像是常见的TTS(Text-to-Speech)模型流程。但是由于模型表现出来能力的优秀,以及能够良好分辨一些非文本的声音片段的特性,也有不少从业人员猜测,这里可能是先生成文本,然后基于文本和输入的语音来合成生成新的语音。

由于计算资源等原因,目前这一功能仅对Plus用户开放,并处于灰度放量阶段,在许多方面仍然不够稳定。可能出现较长的响应时间,以及语音音色可能会发生异常变化。

尽管如此,ChatGPT语音功能强大的新特性和巨大潜力无疑拥有着宽广的未来。虽然未来ChatGPT会演变至何种地步还充满了变数,但语音功能对当下现实领域几个方面的影响很可能会发生。

比如,传统的客服行业将会进一步被挤压;口语类的教育和教学环境很有可能被重新塑造,你不再需要昂贵的找一个家教或者专门的教师来为你培训口语,只需要打开app就能获得和真人教师一样的互动。

这项功能还可以为那些感到孤独的人提供伙伴,为许多互动游戏增添更多有趣味的内容,甚至人人拥有一个贾维斯一样的助理也不再是梦。

然而,这项功能的引入也将伴随着一些技术挑战,如隐私,语音音色的侵权,以及猖獗的电信诈骗问题可能因为这一技术进步变得更加棘手。毕竟ChatGPT的语音比以往更让人分不清是人类还是AI。此前已经有很多不法分子利用AI换脸等技术制造违法视频用以诈骗,生成类音频有可能进一步助长这些虚假信息的泛滥,尤其对老年人等群体恐怕更容易遭受虚假语音信息的侵害。

人工智能的未来,与真实世界对齐

ChatGPT 正变得越来越强大。它可以理解各种形式的输入并与之交互,而不再局限于文字。我们即将进入一个机器不仅可以思考,还可以看、听和说话的时代。OpenAI正逐步展现其在AI方向上更大的野心, 与人类世界的交互对齐。

这一点很重要,因为人工智能发展的目标必然是通用人工智能(AGI)。一个完整的人必定能够说、听、看,并进行感知和行动。单模态大模型某种程度上有其能力极限,它的上限好比没有见过光明的盲人。 只有增加更多对世界的感知,才能真正让模型获得回应世界,学习世界的能力。 再加上最近的具身智能概念,我们在有生之年未必不能看到一款能辅助人类的机器人诞生。

从这次更新也可以看出,OpenAI的技术思路一向 注重与真实世界的人类反馈做对齐。 而传统的大模型和指令微调研究,更侧重于去拟合学术或者工业界的指标。这套评价体系并不能说有错,但是本质上有一些僵化,与提高模型在真实场景中的可用性上存在偏差。

ChatGPT的技术思路倾向于认为,模型已经具备更好、更友好的与人类互动的能力,只是缺少正确的引导将其激发出来。例如,在语音中包括了「嗯」、「啊」等停顿,这些也许不符合模型的学习目标,但是却更符合人类语言习惯偏好。模型不一定需要强制适应预定的训练任务, 而是在一定的基础训练之后,根据实际情况与人类的偏好进行对齐。

此外,OpenAI选择突破技术的领域非常明智。这些领域既具有广泛的实际应用,又处于传统技术的尴尬地带,能够解决一些问题,但当前的相关应用常常让人感到隔靴搔痒。其实这些相关领域的技术积累其实已经达到了临门一脚的阶段,就是缺乏OpenAI这样的组织集结顶尖研究人员,推动技术的突破。从这个角度看,OpenAI在将商业应用和技术研究结合方面表现出色,非常值得业界学习。

ChatGPT 的语音功能标志着 AI 技术在不断接近真实世界需求,为用户提供更加便捷、更加亲切的人机交互体验。这项功能有望在多个领域产生积极影响,为人们的日常生活和工作带来更多的便利和乐趣。 随着技术的不断改进,人工智能的发展将继续与真实世界的需求保持对齐,推动着智能交互的进一步发展。