OpenAI新AI多模模型GPT-4o提供所有ChatGPT用户，速度更快，价格减半

2024-05-14科技

经过上周卖关子吊足媒体胃口之后，OpenAI昨（13）日宣布最新多模AI模型GPT-4o，将提供给所有ChatGPT服务，包括免费版本。对开发人员而言，新模型比GPT-4T速度快2倍，限制带宽提高5倍，价格仅一半。

OpenAI首席执行官Sam Altman指出，GPT-4o更聪明，更快，且具原生多模能力。文本及图片输入能力现在将逐步部署到ChatGPT，包括免费版，但暂时不能生成图片，也还不会输出、输入语音。

最新宣布让上周猜测的媒体扑了个空。彭博、The Information、路透社相继报道OpenAI将推出搜索服务挑战Google及Perplexity AI。但周末Altman预告，不是GPT-5，也不是搜索引擎，而是「像魔法一般的」ChatGPT及GPT-4更新功能。

GPT-4o的o代表的是omni，意味着可接受文本、声音和图像任何组合的提示输入，而且生成的输出也可以是文本、声音和图像的集成。OpenAI强调GPT-4o具高性能，平均320毫秒即可对声音输入产生回应，等同人类反应时间，最快则只需232毫秒。

一如所有厂商公布新模型的做法，OpenAI也提供数据，显示GPT-4o视觉及声音理解能力比前代及竞争者更优异，其中在文本、理解、程序撰写性能已具GPT-4 Turbo水准，在多语能力（尤其是英文）、声音翻译和视觉理解能力都比GPT-4、GPT-4T、Claude 3 Opus、Gemini Pro 1.5、Meta Llama3 400b来得高。

图片来源／OpenAI

OpenAI解释新模型的语音模式性能提升的原因。过去GPT-3.5及GPT-4下的语音模式运行是以三个模型继续运行而成：第一个模型将声音转录成文本，由GPT-3.5或GPT-4产发文本对话内容，再由第三个模型将文本转回声音。不但增长延迟性，且因过程中GPT-3.5或GPT-4模型丧失大量资讯，使其无法观察出声调、多名说话者、背景噪音，也无法产出笑声、不会唱歌或表达情绪。但GPT-4o是能具备文本、视觉和声音理解能力的单一模型，输出输入都在同一神经网络中处理而成，使互动能力速度和表现丰富度大增。

OpenAI并提供多段视频展示新模型的能力，包括二个GPT-4o为基础的聊天机器人扮演手机企业客服中心人员和客户交谈；一个聊天机器人问问题，另一个则描述它「看」到的OpenAI员工形象描述，前者还能根据其描述即兴创作歌唱；以及聊天机器人可和OpenAI员工流畅对谈，期间还能发出笑声，或是在人类插嘴打断时自动停下来。

视频中的聊天机器人声音自然生动，媒体形容很像Altman最喜欢的电影【云端情人】（Her）女主角Scarlett Johansson的声音。

不过，在说明GPT-4o强大能力后，OpenAI强调它的安全性。根据其整备度框架（Preparedness Framework）及人类评估，新模型在网络安全、CBRN（化学、生物、放射及核能）威胁、诱骗（persuasion）能力及模型自主能力都在中度以下。该公司也强调GPT-4o经过外部团队及70多名外部跨领域专家评估，协助降低可能的社会心理、偏见及假消息风险。

OpenAI今天起将GPT-4o的文本及图像输入、以及文本输出能力逐步部署到所有ChatGPT，包括免费版，但付费的Plus版，消息输入上限为5倍之多。为了应对ChatGPT语音模式（voice mode）可能的语音deepfake风险，声音输出仅局限数种限定的声音，也说都会遵循现有安全策略。GPT-4o为基础的语音模式alpha版，未来几个星期内只会提供给ChatGPT Plus。

针对开发人员，现在可以API访问GPT-4o文本和视觉模型。相较GPT-4 Turbo，新模型速度快2倍，限制带宽提高5倍，价格仅一半。OpenAI计划几周内，会对少数用户及信任伙伴提供声音和视频功能。