人工智慧的未來，與真實世界對齊

2024-08-28科技

想象一下，假如你不僅能與 ChatGPT聊天，還能聽到它的聲音並「看到」它的反饋。這一切是不是有些科幻？但現實是ChatGPT已經在朝著這個方向前進演化了。

有感情的「語音智慧」

就在前段時間，ChatGPT悄然上線了兩種全新互動方式：語音和影像功能。其中語音功能格外令人驚艷。

ChatGPT原本僅能用於文本處理，但這次更新之後，透過整合 Whisper語音辨識，前進演化到可以理解並響應口語， 生成非常真實的「類人聲音」。

除了語音之外，ChatGPT還利用 DALL-E影像生成來理解視覺輸入。使用者現在可以上傳或描述圖片， 助手會將其解釋為上下文的一部份。

例如，向ChatGPT展示一張貓坐在沙發上的照片並要求其「描述這個場景」，結果會生成詳細的文本細分，提及檢測到的動物和家具等元素。這種視覺理解技術為我們開啟了許多新的可能性。

以往，文本模式的互動已經為許多使用者提供了巨大的幫助，但在實際套用中，很多時候口頭表達更自然、更高效，也更符合使用者的生活習慣。因此，語音互動在真實生活中擁有更廣泛的套用空間。

語音功能本身並不新鮮。一些簡單的語音助手，比如小愛或Siri，已經成為日常生活中的常見套用。但是現存的語音助手模型往往反應僵硬機械，不能很好的理解與回應使用者。

我們都已經習慣了這樣一個事實：語音助手只能以有限的方式回應我們， 一般來說，它們能做的最有用的事情就是開啟和關閉其他裝置。 使用冷冰冰的機器生成聲音，笨拙地給人類一點可憐兮兮的反饋。

但ChatGPT的語音功能遠超這些現存的套用，完全大振幅超越了常見的機器聲音效果。它能夠很好地還原語氣、抑揚頓挫、中間的停頓和口語化的嗯、啊等情況，給出類似真人一樣的交流效果，並進行更加自然、流暢的對話，很容易給人一種你正在與真人交談的錯覺。

ChatGPT語音功能的卓越效果有時很難用文字準確描述。簡而言之，除非刻意去挑剔，否則很難分辨它的發聲與真人之間的區別。可以說與真人幾無二致。這是語音技術領域的一次重大飛躍，絕對可以稱得上是AI領域的殺手級特性之一。 我們正在步入一個未來，人類與技術的互動將更加身臨其境、直觀和高效。

語音智慧的機遇與挑戰

從技術角度分析，根據OpenAI的官方資料顯示，與ChatGPT語音對話的能力利用了兩個獨立的模型，先將使用者所說的內容轉換為文本，然後將其輸入聊天機器人。再透過OpenAI現有的文本轉語音模型Whisper，可將 ChatGPT的響應轉換為口語。

新的語音功能由一個新的文本到語音模型提供支持，能夠僅透過文本和幾秒鐘的語音樣本生成類似人類的音訊。我們與專業配音演員合作，為每個人配音。我們還使用我們的開源語音辨識系統 Whisper 將您說的話轉錄成文本。

以上摘自OpenAI的官方資料。這裏的描述聽起來像是常見的TTS（Text-to-Speech）模型流程。但是由於模型表現出來能力的優秀，以及能夠良好分辨一些非文本的聲音片段的特性，也有不少從業人員猜測，這裏可能是先生成文本，然後基於文本和輸入的語音來合成生成新的語音。

由於計算資源等原因，目前這一功能僅對Plus使用者開放，並處於灰度放量階段，在許多方面仍然不夠穩定。可能出現較長的響應時間，以及語音音色可能會發生異常變化。

盡管如此，ChatGPT語音功能強大的新特性和巨大潛力無疑擁有著寬廣的未來。雖然未來ChatGPT會演變至何種地步還充滿了變數，但語音功能對當下現實領域幾個方面的影響很可能會發生。

比如，傳統的客服行業將會進一步被擠壓；口語類的教育和教學環境很有可能被重新塑造，你不再需要昂貴的找一個家教或者專門的教師來為你培訓口語，只需要開啟app就能獲得和真人教師一樣的互動。

這項功能還可以為那些感到孤獨的人提供夥伴，為許多互動遊戲增添更多有趣味的內容，甚至人人擁有一個賈維斯一樣的助理也不再是夢。

然而，這項功能的引入也將伴隨著一些技術挑戰，如私密，語音音色的侵權，以及猖獗的電信詐騙問題可能因為這一技術進步變得更加棘手。畢竟ChatGPT的語音比以往更讓人分不清是人類還是AI。此前已經有很多不法分子利用AI換臉等技術制造違法視訊用以詐騙，生成類音訊有可能進一步助長這些虛假資訊的泛濫，尤其對老年人等群體恐怕更容易遭受虛假語音資訊的侵害。

人工智慧的未來，與真實世界對齊

ChatGPT 正變得越來越強大。它可以理解各種形式的輸入並與之互動，而不再局限於文字。我們即將進入一個機器不僅可以思考，還可以看、聽和說話的時代。OpenAI正逐步展現其在AI方向上更大的野心， 與人類世界的互動對齊。

這一點很重要，因為人工智慧發展的目標必然是通用人工智慧（AGI）。一個完整的人必定能夠說、聽、看，並進行感知和行動。單模態大模型某種程度上有其能力極限，它的上限好比沒有見過光明的盲人。 只有增加更多對世界的感知，才能真正讓模型獲得回應世界，學習世界的能力。 再加上最近的具身智慧概念，我們在有生之年未必不能看到一款能輔助人類的機器人誕生。

從這次更新也可以看出，OpenAI的技術思路一向 註重與真實世界的人類反饋做對齊。 而傳統的大模型和指令微調研究，更側重於去擬合學術或者工業界的指標。這套評價體系並不能說有錯，但是本質上有一些僵化，與提高模型在真實場景中的可用性上存在偏差。

ChatGPT的技術思路傾向於認為，模型已經具備更好、更友好的與人類互動的能力，只是缺少正確的引導將其激發出來。例如，在語音中包括了「嗯」、「啊」等停頓，這些也許不符合模型的學習目標，但是卻更符合人類語言習慣偏好。模型不一定需要強制適應預定的訓練任務， 而是在一定的基礎訓練之後，根據實際情況與人類的偏好進行對齊。

此外，OpenAI選擇突破技術的領域非常明智。這些領域既具有廣泛的實際套用，又處於傳統技術的尷尬地帶，能夠解決一些問題，但當前的相關套用常常讓人感到隔靴搔癢。其實這些相關領域的技術積累其實已經達到了臨門一腳的階段，就是缺乏OpenAI這樣的組織集結頂尖研究人員，推動技術的突破。從這個角度看，OpenAI在將商業套用和技術研究結合方面表現出色，非常值得業界學習。

ChatGPT 的語音功能標誌著 AI 技術在不斷接近真實世界需求，為使用者提供更加便捷、更加親切的人機互動體驗。這項功能有望在多個領域產生積極影響，為人們的日常生活和工作帶來更多的便利和樂趣。 隨著技術的不斷改進，人工智慧的發展將繼續與真實世界的需求保持對齊，推動著智慧互動的進一步發展。