人工智能的未来，与真实世界对齐

2024-08-28科技

想象一下，假如你不仅能与 ChatGPT聊天，还能听到它的声音并「看到」它的反馈。这一切是不是有些科幻？但现实是ChatGPT已经在朝着这个方向进化了。

有感情的「语音智能」

就在前段时间，ChatGPT悄然上线了两种全新互动方式：语音和图像功能。其中语音功能格外令人惊艳。

ChatGPT原本仅能用于文本处理，但这次更新之后，通过集成 Whisper语音识别，进化到可以理解并响应口语， 生成非常真实的「类人声音」。

除了语音之外，ChatGPT还利用 DALL-E图像生成来理解视觉输入。用户现在可以上传或描述图片， 助手会将其解释为上下文的一部分。

例如，向ChatGPT展示一张猫坐在沙发上的照片并要求其「描述这个场景」，结果会生成详细的文本细分，提及检测到的动物和家具等元素。这种视觉理解技术为我们打开了许多新的可能性。

以往，文本模式的互动已经为许多用户提供了巨大的帮助，但在实际应用中，很多时候口头表达更自然、更高效，也更符合用户的生活习惯。因此，语音交互在真实生活中拥有更广泛的应用空间。

语音功能本身并不新鲜。一些简单的语音助手，比如小爱或Siri，已经成为日常生活中的常见应用。但是现存的语音助手模型往往反应僵硬机械，不能很好的理解与回应用户。

我们都已经习惯了这样一个事实：语音助手只能以有限的方式回应我们， 一般来说，它们能做的最有用的事情就是打开和关闭其他设备。 使用冷冰冰的机器生成声音，笨拙地给人类一点可怜兮兮的反馈。

但ChatGPT的语音功能远超这些现存的应用，完全大幅度超越了常见的机器声音效果。它能够很好地还原语气、抑扬顿挫、中间的停顿和口语化的嗯、啊等情况，给出类似真人一样的交流效果，并进行更加自然、流畅的对话，很容易给人一种你正在与真人交谈的错觉。

ChatGPT语音功能的卓越效果有时很难用文字准确描述。简而言之，除非刻意去挑剔，否则很难分辨它的发声与真人之间的区别。可以说与真人几无二致。这是语音技术领域的一次重大飞跃，绝对可以称得上是AI领域的杀手级特性之一。 我们正在步入一个未来，人类与技术的交互将更加身临其境、直观和高效。

语音智能的机遇与挑战

从技术角度分析，根据OpenAI的官方资料显示，与ChatGPT语音对话的能力利用了两个独立的模型，先将用户所说的内容转换为文本，然后将其输入聊天机器人。再通过OpenAI现有的文本转语音模型Whisper，可将 ChatGPT的响应转换为口语。

新的语音功能由一个新的文本到语音模型提供支持，能够仅通过文本和几秒钟的语音样本生成类似人类的音频。我们与专业配音演员合作，为每个人配音。我们还使用我们的开源语音识别系统 Whisper 将您说的话转录成文本。

以上摘自OpenAI的官方资料。这里的描述听起来像是常见的TTS（Text-to-Speech）模型流程。但是由于模型表现出来能力的优秀，以及能够良好分辨一些非文本的声音片段的特性，也有不少从业人员猜测，这里可能是先生成文本，然后基于文本和输入的语音来合成生成新的语音。

由于计算资源等原因，目前这一功能仅对Plus用户开放，并处于灰度放量阶段，在许多方面仍然不够稳定。可能出现较长的响应时间，以及语音音色可能会发生异常变化。

尽管如此，ChatGPT语音功能强大的新特性和巨大潜力无疑拥有着宽广的未来。虽然未来ChatGPT会演变至何种地步还充满了变数，但语音功能对当下现实领域几个方面的影响很可能会发生。

比如，传统的客服行业将会进一步被挤压；口语类的教育和教学环境很有可能被重新塑造，你不再需要昂贵的找一个家教或者专门的教师来为你培训口语，只需要打开app就能获得和真人教师一样的互动。

这项功能还可以为那些感到孤独的人提供伙伴，为许多互动游戏增添更多有趣味的内容，甚至人人拥有一个贾维斯一样的助理也不再是梦。

然而，这项功能的引入也将伴随着一些技术挑战，如隐私，语音音色的侵权，以及猖獗的电信诈骗问题可能因为这一技术进步变得更加棘手。毕竟ChatGPT的语音比以往更让人分不清是人类还是AI。此前已经有很多不法分子利用AI换脸等技术制造违法视频用以诈骗，生成类音频有可能进一步助长这些虚假信息的泛滥，尤其对老年人等群体恐怕更容易遭受虚假语音信息的侵害。

人工智能的未来，与真实世界对齐

ChatGPT 正变得越来越强大。它可以理解各种形式的输入并与之交互，而不再局限于文字。我们即将进入一个机器不仅可以思考，还可以看、听和说话的时代。OpenAI正逐步展现其在AI方向上更大的野心， 与人类世界的交互对齐。

这一点很重要，因为人工智能发展的目标必然是通用人工智能（AGI）。一个完整的人必定能够说、听、看，并进行感知和行动。单模态大模型某种程度上有其能力极限，它的上限好比没有见过光明的盲人。 只有增加更多对世界的感知，才能真正让模型获得回应世界，学习世界的能力。 再加上最近的具身智能概念，我们在有生之年未必不能看到一款能辅助人类的机器人诞生。

从这次更新也可以看出，OpenAI的技术思路一向 注重与真实世界的人类反馈做对齐。 而传统的大模型和指令微调研究，更侧重于去拟合学术或者工业界的指标。这套评价体系并不能说有错，但是本质上有一些僵化，与提高模型在真实场景中的可用性上存在偏差。

ChatGPT的技术思路倾向于认为，模型已经具备更好、更友好的与人类互动的能力，只是缺少正确的引导将其激发出来。例如，在语音中包括了「嗯」、「啊」等停顿，这些也许不符合模型的学习目标，但是却更符合人类语言习惯偏好。模型不一定需要强制适应预定的训练任务， 而是在一定的基础训练之后，根据实际情况与人类的偏好进行对齐。

此外，OpenAI选择突破技术的领域非常明智。这些领域既具有广泛的实际应用，又处于传统技术的尴尬地带，能够解决一些问题，但当前的相关应用常常让人感到隔靴搔痒。其实这些相关领域的技术积累其实已经达到了临门一脚的阶段，就是缺乏OpenAI这样的组织集结顶尖研究人员，推动技术的突破。从这个角度看，OpenAI在将商业应用和技术研究结合方面表现出色，非常值得业界学习。

ChatGPT 的语音功能标志着 AI 技术在不断接近真实世界需求，为用户提供更加便捷、更加亲切的人机交互体验。这项功能有望在多个领域产生积极影响，为人们的日常生活和工作带来更多的便利和乐趣。 随着技术的不断改进，人工智能的发展将继续与真实世界的需求保持对齐，推动着智能交互的进一步发展。