当前位置: 华文世界 > 科技

苹果研究人员揭示了可以击败 GPT-4 的新 AI 系统

2024-04-03科技

苹果研究人员开发了一种名为 ReALM(参考分辨率作为语言建模)的人工智能系统,旨在从根本上增强语音助手理解和响应命令的方式。

在一篇研究论文(来自VentureBeat)中,苹果概述了一个关于大型语言模型如何处理参考分辨率的新系统,其中涉及破译对屏幕上实体的模糊参考,以及理解对话和背景上下文。因此,ReALM 可以带来更直观、更自然的设备交互。

指称解析是自然语言理解的重要组成部分,使用户能够在对话中使用代词和其他间接指称而不会混淆。对于数字助理来说,这种能力历来是一个重大挑战,受限于解释各种语言提示和视觉信息的需要。Apple 的 ReALM 系统试图通过将复杂的引用解析过程转换为纯语言建模问题来解决这个问题。在此过程中,它可以理解对屏幕上显示的视觉元素的引用,并将这种理解整合到对话流中。

ReALM 使用文本表示重建屏幕的视觉布局。这涉及解析屏幕上的实体及其位置以生成捕获屏幕内容和结构的文本格式。苹果研究人员发现,这种策略与针对参考解析任务的语言模型的特定微调相结合,显着优于传统方法,包括 OpenAI 的 GPT-4 的功能。

ReALM 可以让用户根据屏幕上当前显示的内容更有效地与数字助理交互,而无需精确、详细的说明。这有可能使语音助手在各种环境中更加有用,例如帮助驾驶员在驾驶时导航信息娱乐系统,或通过提供更简单、更准确的间接交互方式来帮助残疾用户。

苹果现已发表多篇人工智能研究论文。上个月,该公司公布了一种训练大型语言模型的新方法,可以无缝集成文本和视觉信息。人们普遍预计苹果将在 6 月份的 WWDC 上推出一系列人工智能功能。