当前位置: 华文世界 > 科技

OpenAI上新,记者实测GPT-4o:更快更强大,也更聪明的私人助手

2024-05-14科技
26:13

潮新闻客户端 记者 朱高祥

当地时间5月13日22:00,OpenAI举行了名为「春季更新」的线上发布会,宣布推出GPT-4的升级款模型GPT-4o。

这场发布会堪称简陋,前后持续不到半个小时,既没有大屏PPT,明星高管Sam Altman也没有出现,核心环节就是由首席技术官Mira Murati带着两位员工一起在现场展示新模型。

但这场发布会依旧惊艳,正如GPT-4o中的「o」(omn,意为全能),GPT-4o长出了「眼睛」「嘴巴」,变得全知全能。不少网友惊呼,电影照进现实,未来应用充满无限想象空间。

OpenAI「春季更新」发布会。来源:OpenAI官方社交媒体

记者实测:更为强大的GPT

5月14日,GPT-4o发布后,OpenAI的首席执行官Sam Altman在社交媒体上发帖,仅有一个字「her」。

图片来源:Sam Altman社交媒体

【her】是一部科幻电影的名字,影片中人工智能系统「萨曼莎」不仅能够帮助男主西奥多完美地处理好工作,而且还是朵「解语花」。她拥有性感的声线,细腻的情感,并且风趣幽默,她能够和西奥多进行深度交流。「her」也是很多人看到GPT-4o演示之后的最大感受,它似乎变得跟真人一样了。

5月14日,为了验证GPT-4o的强大,潮新闻记者打开ChatGPT的app进行了实测。记者发现,目前要使用GPT-4o,需要以每月20美元的价格开通「ChatGPT Plus」。

图片来源:OpenAI官网

记者注意到,GPT-4o与GPT-3.5最明显的不同在于界面,GPT-3.5仅支持文字与语音输入,但GPT-4o可以输入文字、语音、图片以及文件等。

当记者询问GPT-4o可以做什么?它回答称可以「回答问题」「语言翻译」「写作和编辑」「提供建议」「数学和编程」「数据分析」「创建图像」「实时信息查询」等。

对于「实时信息查询」,记者分别用「杭州今日天气」向GPT-3.5、GPT-4与GPT-4o进行了询问,只有GPT-4与GPT-4o可以回答。

记者用「杭州天气」询问三个大模型

记者拍摄了一张办公桌照片让GPT-4与GPT-4o进行描述,这两个大模型都可以在几秒钟之内给出解读。但对比来看,GPT-4o总结得更为详细,也更为全面。

记者用照片测试GPT-4与GPT-4o

另外针对数据分析能力,记者利用在深交所下载的14页的「万科2024年第一季度报告」让GPT-4与GPT-4o进行分析,两者均能对财务状况、业务进展等要素进行快速总结。但对比来看,GPT-4o能力更强,分析得也更为全面透彻。

记者用万科2024年第一季度报告检测GPT-4与GPT-4o

值得注意的是,与发布会上的演示不同,目前ChatGPT仅接入GPT-4o有限功能,尚不可以利用摄像头对现实场景分析,也不能在与其语音沟通时实时打断。

不过,OpenAI已经宣布推出一款适用于macOS的桌面级应用,使用键盘快捷键就可向ChatGPT提问。用户可通过电脑与ChatGPT语音对话,GPT-4o的新音频和视频功能后续将推出。值得注意的是,此次OpenAI并未发布关于新模型的论文或技术文档。

长出「眼睛」和「嘴巴」的GPT,带来什么想象?

在发布会上,OpenAI现场展示了和ChatGPT的若干互动,包括:实时对话交互、语音多样化(应用户需求使用不同情绪、语调等)、视频指导做题、视频识别环境和人(包括人的情绪)、以桌面应用形式辅助编程、实时翻译等。

发布会上,利用GPT-4o进行视频指导做题。图片来源:发布会视频截图

OpenAI同时还放出了预先录制的展示样例若干,包括:两个GPT-4o交流和对唱、唱摇篮曲、在线会议应用、毒舌讽刺、视频识物并给出西班牙语单词、帮助面试准备、和狗互动等。

演示视频中与狗互动。图片来源:OpenAI官网

在所有的演示当中,最让人惊讶的还是视频对话:用户打开摄像头,让ChatGPT「看」到当下,并进行互动。

用前置镜头自拍,ChatGPT可以识别用户的情绪,如「看起来很开心,甚至可以说是兴奋的」,还能从用户背后的画面判断其身处的环境,如「看起来你在一个摄影棚中,背后有一些灯光,你的胸前还别着麦克风,可能在录制视频之类的」。当有另一个人进入镜头并且做鬼脸的时候,ChatGPT也准确指出了这一「不太寻常」的情况,并加以描述。

图片来源:OpenAI官网

用后置镜头,ChatGPT就可以和用户共享视角。如在语言学习的过程中,打开摄像头让ChatGPT用某种语言说出物品的名称。或者可以为视障用户提供指引,告诉用户「来了一辆计程车,现在招手吧」。

图片来源:OpenAI官网

浙江大学人工智能研究所所长吴飞告诉潮新闻记者,GPT-4o可以像「一个人」一样实时互动,是最让人印象深刻的地方。

「自然语言交互也是OpenAI一直以来的理念,就是让人工智能像人一样能够交流。」吴飞说,在发布会上可以看到,与GPT-4o进行交流的时候,你不觉得对方是一个机器,就觉得对方是一个人,交互显得非常自然。

吴飞分析称,这些惊艳的产品表现,根本上源自于GPT-4o多模态大模型的技术进步,是跨文本、视觉和音频端到端地训练了一个新模型。

图片来源:OpenAI官网

OpenAI称这是其突破深度学习界限的最新举措。目前,GPT-4o可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类的响应时间相似。

吴飞认为,快速发展的多模态大模型给未来应用带来了丰富的想象空间。比如,也许不久的将来大模型不再仅仅是一个聊天机器人,而是将成为超级私人助手。不仅在工作上,在出游、订餐等生活的方方面面,大模型都可以快速地定制化生成用户所需的答案。

另外,GPT-4o对周围环境的实时解读,为视障用户提供了更多方便,出行也将变得更为容易。

「转载请注明出处」