訊息稱OpenAI將推出多模態人工智慧數位助理

2024-05-12科技

IT之家 5 月 12 日訊息，據 The Information 報道，OpenAI 最近向部份客戶展示了一款新型多模態人工智慧模型，該模型能夠進行語音對話和物體辨識。有訊息人士透露，這或許就是 OpenAI 計劃在即將到來的 5 月 13 日正式釋出的內容之一。

圖源 Pexels

報道稱，相比於 OpenAI 現有的獨立影像辨識和文本轉語音模型，該新型模型能夠更快、更準確地處理影像和音訊資訊。例如，它可以幫助客服人員「更好地理解來電者的語氣語調，判斷他們是否在使用諷刺語氣」。理論上，該模型還能輔助學生學習數學知識，或轉譯現實世界中的標誌文字。

不過，訊息人士也指出，雖然該模型在某些問題解答方面能夠超越 GPT-4 Turbo，但仍有可能出現自信地給出錯誤答案的情況。

IT之家註意到，開發者 Ananay Arora 釋出了一張包含通話相關程式碼的截圖，暗示 OpenAI 可能正在為 ChatGPT 加入打電話的功能。Arora 還發現了一些證據表明 OpenAI 正在配置用於即時音視訊通訊的伺服器。

OpenAI 執行長山姆・艾爾特曼 (Sam Altman) 已經明確否認即將釋出的新品是代號為 GPT-5 的大型語言模型（據稱其效能將大幅優於 GPT-4）。The Information 則表示，GPT-5 可能將在今年年底前正式亮相。艾爾特曼還表示，OpenAI 不會釋出新的人工智慧搜尋引擎。

如果 The Information 的報道屬實，OpenAI 的新品釋出仍可能會對即將舉行的 Google I / O 開發者大會產生一定影響。眾所周知，谷歌也在測試利用人工智慧進行電話呼叫的技術。此外，谷歌還有一個據傳即將釋出的計畫，代號為「Pixie」。Pixie 是一款能夠透過裝置網路攝影機辨識物體的多模態 Google Assistant 替代品，可以為使用者提供諸如「如何前往購買地點」或「如何使用」等資訊。