OpenAI上新，记者实测GPT-4o：更快更强大，也更聪明的私人助手

2024-05-14科技

26:13

潮新闻客户端记者朱高祥

当地时间5月13日22:00，OpenAI举行了名为「春季更新」的线上发布会，宣布推出GPT-4的升级款模型GPT-4o。

这场发布会堪称简陋，前后持续不到半个小时，既没有大屏PPT，明星高管Sam Altman也没有出现，核心环节就是由首席技术官Mira Murati带着两位员工一起在现场展示新模型。

但这场发布会依旧惊艳，正如GPT-4o中的「o」（omn，意为全能），GPT-4o长出了「眼睛」「嘴巴」，变得全知全能。不少网友惊呼，电影照进现实，未来应用充满无限想象空间。

OpenAI「春季更新」发布会。来源：OpenAI官方社交媒体

记者实测：更为强大的GPT

5月14日，GPT-4o发布后，OpenAI的首席执行官Sam Altman在社交媒体上发帖，仅有一个字「her」。

图片来源：Sam Altman社交媒体

【her】是一部科幻电影的名字，影片中人工智能系统「萨曼莎」不仅能够帮助男主西奥多完美地处理好工作，而且还是朵「解语花」。她拥有性感的声线，细腻的情感，并且风趣幽默，她能够和西奥多进行深度交流。「her」也是很多人看到GPT-4o演示之后的最大感受，它似乎变得跟真人一样了。

5月14日，为了验证GPT-4o的强大，潮新闻记者打开ChatGPT的app进行了实测。记者发现，目前要使用GPT-4o，需要以每月20美元的价格开通「ChatGPT Plus」。

图片来源：OpenAI官网

记者注意到，GPT-4o与GPT-3.5最明显的不同在于界面，GPT-3.5仅支持文字与语音输入，但GPT-4o可以输入文字、语音、图片以及文件等。

当记者询问GPT-4o可以做什么？它回答称可以「回答问题」「语言翻译」「写作和编辑」「提供建议」「数学和编程」「数据分析」「创建图像」「实时信息查询」等。

对于「实时信息查询」，记者分别用「杭州今日天气」向GPT-3.5、GPT-4与GPT-4o进行了询问，只有GPT-4与GPT-4o可以回答。

记者用「杭州天气」询问三个大模型

记者拍摄了一张办公桌照片让GPT-4与GPT-4o进行描述，这两个大模型都可以在几秒钟之内给出解读。但对比来看，GPT-4o总结得更为详细，也更为全面。

记者用照片测试GPT-4与GPT-4o

另外针对数据分析能力，记者利用在深交所下载的14页的「万科2024年第一季度报告」让GPT-4与GPT-4o进行分析，两者均能对财务状况、业务进展等要素进行快速总结。但对比来看，GPT-4o能力更强，分析得也更为全面透彻。

记者用万科2024年第一季度报告检测GPT-4与GPT-4o

值得注意的是，与发布会上的演示不同，目前ChatGPT仅接入GPT-4o有限功能，尚不可以利用摄像头对现实场景分析，也不能在与其语音沟通时实时打断。

不过，OpenAI已经宣布推出一款适用于macOS的桌面级应用，使用键盘快捷键就可向ChatGPT提问。用户可通过电脑与ChatGPT语音对话，GPT-4o的新音频和视频功能后续将推出。值得注意的是，此次OpenAI并未发布关于新模型的论文或技术文档。

长出「眼睛」和「嘴巴」的GPT，带来什么想象？

在发布会上，OpenAI现场展示了和ChatGPT的若干互动，包括：实时对话交互、语音多样化（应用户需求使用不同情绪、语调等）、视频指导做题、视频识别环境和人（包括人的情绪）、以桌面应用形式辅助编程、实时翻译等。

发布会上，利用GPT-4o进行视频指导做题。图片来源：发布会视频截图

OpenAI同时还放出了预先录制的展示样例若干，包括：两个GPT-4o交流和对唱、唱摇篮曲、在线会议应用、毒舌讽刺、视频识物并给出西班牙语单词、帮助面试准备、和狗互动等。

演示视频中与狗互动。图片来源：OpenAI官网

在所有的演示当中，最让人惊讶的还是视频对话：用户打开摄像头，让ChatGPT「看」到当下，并进行互动。

用前置镜头自拍，ChatGPT可以识别用户的情绪，如「看起来很开心，甚至可以说是兴奋的」，还能从用户背后的画面判断其身处的环境，如「看起来你在一个摄影棚中，背后有一些灯光，你的胸前还别着麦克风，可能在录制视频之类的」。当有另一个人进入镜头并且做鬼脸的时候，ChatGPT也准确指出了这一「不太寻常」的情况，并加以描述。