当前位置: 华文世界 > 科技

OpenAI新AI多模模型GPT-4o提供所有ChatGPT用户,速度更快,价格减半

2024-05-14科技

经过上周卖关子吊足媒体胃口之后,OpenAI昨(13)日宣布最新多模AI模型GPT-4o,将提供给所有ChatGPT服务,包括免费版本。对开发人员而言,新模型比GPT-4T速度快2倍,限制带宽提高5倍,价格仅一半。

OpenAI首席执行官Sam Altman指出,GPT-4o更聪明,更快,且具原生多模能力。文本及图片输入能力现在将逐步部署到ChatGPT,包括免费版,但暂时不能生成图片,也还不会输出、输入语音。

最新宣布让上周猜测的媒体扑了个空。彭博、The Information、路透社相继报道OpenAI将推出搜索服务挑战Google及Perplexity AI。但周末Altman预告,不是GPT-5,也不是搜索引擎,而是「像魔法一般的」ChatGPT及GPT-4更新功能。

GPT-4o的o代表的是omni,意味着可接受文本、声音和图像任何组合的提示输入,而且生成的输出也可以是文本、声音和图像的集成。OpenAI强调GPT-4o具高性能,平均320毫秒即可对声音输入产生回应,等同人类反应时间,最快则只需232毫秒。

一如所有厂商公布新模型的做法,OpenAI也提供数据,显示GPT-4o视觉及声音理解能力比前代及竞争者更优异,其中在文本、理解、程序撰写性能已具GPT-4 Turbo水准,在多语能力(尤其是英文)、声音翻译和视觉理解能力都比GPT-4、GPT-4T、Claude 3 Opus、Gemini Pro 1.5、Meta Llama3 400b来得高。

图片来源/OpenAI

OpenAI解释新模型的语音模式性能提升的原因。过去GPT-3.5及GPT-4下的语音模式运行是以三个模型继续运行而成:第一个模型将声音转录成文本,由GPT-3.5或GPT-4产发文本对话内容,再由第三个模型将文本转回声音。不但增长延迟性,且因过程中GPT-3.5或GPT-4模型丧失大量资讯,使其无法观察出声调、多名说话者、背景噪音,也无法产出笑声、不会唱歌或表达情绪。但GPT-4o是能具备文本、视觉和声音理解能力的单一模型,输出输入都在同一神经网络中处理而成,使互动能力速度和表现丰富度大增。

OpenAI并提供多段视频展示新模型的能力,包括二个GPT-4o为基础的聊天机器人扮演手机企业客服中心人员和客户交谈;一个聊天机器人问问题,另一个则描述它「看」到的OpenAI员工形象描述,前者还能根据其描述即兴创作歌唱;以及聊天机器人可和OpenAI员工流畅对谈,期间还能发出笑声,或是在人类插嘴打断时自动停下来。

视频中的聊天机器人声音自然生动,媒体形容很像Altman最喜欢的电影【云端情人】(Her)女主角Scarlett Johansson的声音。

不过,在说明GPT-4o强大能力后,OpenAI强调它的安全性。根据其整备度框架(Preparedness Framework)及人类评估,新模型在网络安全、CBRN(化学、生物、放射及核能)威胁、诱骗(persuasion)能力及模型自主能力都在中度以下。该公司也强调GPT-4o经过外部团队及70多名外部跨领域专家评估,协助降低可能的社会心理、偏见及假消息风险。

OpenAI今天起将GPT-4o的文本及图像输入、以及文本输出能力逐步部署到所有ChatGPT,包括免费版,但付费的Plus版,消息输入上限为5倍之多。为了应对ChatGPT语音模式(voice mode)可能的语音deepfake风险,声音输出仅局限数种限定的声音,也说都会遵循现有安全策略。GPT-4o为基础的语音模式alpha版,未来几个星期内只会提供给ChatGPT Plus。

针对开发人员,现在可以API访问GPT-4o文本和视觉模型。相较GPT-4 Turbo,新模型速度快2倍,限制带宽提高5倍,价格仅一半。OpenAI计划几周内,会对少数用户及信任伙伴提供声音和视频功能。