OpenAI向部份付費使用者開放GPT-4o語音模式，可提供更自然即時對話

2024-07-31科技

IT之家 7 月 31 日訊息，當地時間 30 日，OpenAI 宣布即日起向部份 ChatGPT Plus 使用者開放 GPT-4o 的語音模式（IT之家註：Alpha 版本），並將於今年秋季逐步推廣至所有 ChatGPT Plus 訂閱使用者。

今年 5 月，OpenAI 技術長米拉穆拉蒂（Mira Murati）在演講中提到：

在 GPT-4o 中，我們訓練了跨文本、視覺和音訊的端到端全新統一模型，這意味著所有輸入和輸出都由同一個神經網絡處理。

由於 GPT-4o 是我們第一個結合所有這些模式的模型，因此我們在探索該模型的功能及其局限性方面仍處於起步階段。

OpenAI 公司原計劃今年 6 月底邀請一小部份 ChatGPT Plus 使用者測試 GPT-4o 語音模式，但官方在 6 月宣布推遲，表示需要 更多時間打磨 該模型，提高該模型 檢測和拒絕某些內容 的能力。

根據此前曝光的資訊，GPT-3.5 模型的平均語音反饋延遲為 2.8 秒，而 GPT-4 模型的延遲為 5.4 秒，因此在語音交流方面不太優秀，而即將推出的 GPT-4o 可以極大地縮短延遲時間， 近乎無縫對話 。

GPT-4o 語音模式具有 快速反應 、 聲音堪比真人 等特征，OpenAI 更稱 GPT-4o 語音模式可以感知語音中的情感語調，包括悲傷、興奮或歌唱。

OpenAI 發言人林賽麥卡勒姆（Lindsay McCallum）表示：「ChatGPT 不能假冒他人的聲音 ，包括個人和公眾人物的聲音，並且會阻止 與預設聲音不同 的輸出。」