當前位置: 華文世界 > 科技

人工智慧的未來,與真實世界對齊

2024-08-28科技

想象一下,假如你不僅能與 ChatGPT聊天,還能聽到它的聲音並「看到」它的反饋。這一切是不是有些科幻?但現實是ChatGPT已經在朝著這個方向前進演化了。

有感情的「語音智慧」

就在前段時間,ChatGPT悄然上線了兩種全新互動方式:語音和影像功能。其中語音功能格外令人驚艷。

ChatGPT原本僅能用於文本處理,但這次更新之後,透過整合 Whisper語音辨識,前進演化到可以理解並響應口語, 生成非常真實的「類人聲音」。

除了語音之外,ChatGPT還利用 DALL-E影像生成來理解視覺輸入。使用者現在可以上傳或描述圖片, 助手會將其解釋為上下文的一部份。

例如,向ChatGPT展示一張貓坐在沙發上的照片並要求其「描述這個場景」,結果會生成詳細的文本細分,提及檢測到的動物和家具等元素。這種視覺理解技術為我們開啟了許多新的可能性。

以往,文本模式的互動已經為許多使用者提供了巨大的幫助,但在實際套用中,很多時候口頭表達更自然、更高效,也更符合使用者的生活習慣。因此,語音互動在真實生活中擁有更廣泛的套用空間。

語音功能本身並不新鮮。一些簡單的語音助手,比如小愛或Siri,已經成為日常生活中的常見套用。但是現存的語音助手模型往往反應僵硬機械,不能很好的理解與回應使用者。

我們都已經習慣了這樣一個事實:語音助手只能以有限的方式回應我們, 一般來說,它們能做的最有用的事情就是開啟和關閉其他裝置。 使用冷冰冰的機器生成聲音,笨拙地給人類一點可憐兮兮的反饋。

但ChatGPT的語音功能遠超這些現存的套用,完全大振幅超越了常見的機器聲音效果。它能夠很好地還原語氣、抑揚頓挫、中間的停頓和口語化的嗯、啊等情況,給出類似真人一樣的交流效果,並進行更加自然、流暢的對話,很容易給人一種你正在與真人交談的錯覺。

ChatGPT語音功能的卓越效果有時很難用文字準確描述。簡而言之,除非刻意去挑剔,否則很難分辨它的發聲與真人之間的區別。可以說與真人幾無二致。這是語音技術領域的一次重大飛躍,絕對可以稱得上是AI領域的殺手級特性之一。 我們正在步入一個未來,人類與技術的互動將更加身臨其境、直觀和高效。

語音智慧的機遇與挑戰

從技術角度分析,根據OpenAI的官方資料顯示,與ChatGPT語音對話的能力利用了兩個獨立的模型,先將使用者所說的內容轉換為文本,然後將其輸入聊天機器人。再透過OpenAI現有的文本轉語音模型Whisper,可將 ChatGPT的響應轉換為口語。

新的語音功能由一個新的文本到語音模型提供支持,能夠僅透過文本和幾秒鐘的語音樣本生成類似人類的音訊。我們與專業配音演員合作,為每個人配音。我們還使用我們的開源語音辨識系統 Whisper 將您說的話轉錄成文本。

以上摘自OpenAI的官方資料。這裏的描述聽起來像是常見的TTS(Text-to-Speech)模型流程。但是由於模型表現出來能力的優秀,以及能夠良好分辨一些非文本的聲音片段的特性,也有不少從業人員猜測,這裏可能是先生成文本,然後基於文本和輸入的語音來合成生成新的語音。

由於計算資源等原因,目前這一功能僅對Plus使用者開放,並處於灰度放量階段,在許多方面仍然不夠穩定。可能出現較長的響應時間,以及語音音色可能會發生異常變化。

盡管如此,ChatGPT語音功能強大的新特性和巨大潛力無疑擁有著寬廣的未來。雖然未來ChatGPT會演變至何種地步還充滿了變數,但語音功能對當下現實領域幾個方面的影響很可能會發生。

比如,傳統的客服行業將會進一步被擠壓;口語類的教育和教學環境很有可能被重新塑造,你不再需要昂貴的找一個家教或者專門的教師來為你培訓口語,只需要開啟app就能獲得和真人教師一樣的互動。

這項功能還可以為那些感到孤獨的人提供夥伴,為許多互動遊戲增添更多有趣味的內容,甚至人人擁有一個賈維斯一樣的助理也不再是夢。

然而,這項功能的引入也將伴隨著一些技術挑戰,如私密,語音音色的侵權,以及猖獗的電信詐騙問題可能因為這一技術進步變得更加棘手。畢竟ChatGPT的語音比以往更讓人分不清是人類還是AI。此前已經有很多不法分子利用AI換臉等技術制造違法視訊用以詐騙,生成類音訊有可能進一步助長這些虛假資訊的泛濫,尤其對老年人等群體恐怕更容易遭受虛假語音資訊的侵害。

人工智慧的未來,與真實世界對齊

ChatGPT 正變得越來越強大。它可以理解各種形式的輸入並與之互動,而不再局限於文字。我們即將進入一個機器不僅可以思考,還可以看、聽和說話的時代。OpenAI正逐步展現其在AI方向上更大的野心, 與人類世界的互動對齊。

這一點很重要,因為人工智慧發展的目標必然是通用人工智慧(AGI)。一個完整的人必定能夠說、聽、看,並進行感知和行動。單模態大模型某種程度上有其能力極限,它的上限好比沒有見過光明的盲人。 只有增加更多對世界的感知,才能真正讓模型獲得回應世界,學習世界的能力。 再加上最近的具身智慧概念,我們在有生之年未必不能看到一款能輔助人類的機器人誕生。

從這次更新也可以看出,OpenAI的技術思路一向 註重與真實世界的人類反饋做對齊。 而傳統的大模型和指令微調研究,更側重於去擬合學術或者工業界的指標。這套評價體系並不能說有錯,但是本質上有一些僵化,與提高模型在真實場景中的可用性上存在偏差。

ChatGPT的技術思路傾向於認為,模型已經具備更好、更友好的與人類互動的能力,只是缺少正確的引導將其激發出來。例如,在語音中包括了「嗯」、「啊」等停頓,這些也許不符合模型的學習目標,但是卻更符合人類語言習慣偏好。模型不一定需要強制適應預定的訓練任務, 而是在一定的基礎訓練之後,根據實際情況與人類的偏好進行對齊。

此外,OpenAI選擇突破技術的領域非常明智。這些領域既具有廣泛的實際套用,又處於傳統技術的尷尬地帶,能夠解決一些問題,但當前的相關套用常常讓人感到隔靴搔癢。其實這些相關領域的技術積累其實已經達到了臨門一腳的階段,就是缺乏OpenAI這樣的組織集結頂尖研究人員,推動技術的突破。從這個角度看,OpenAI在將商業套用和技術研究結合方面表現出色,非常值得業界學習。

ChatGPT 的語音功能標誌著 AI 技術在不斷接近真實世界需求,為使用者提供更加便捷、更加親切的人機互動體驗。這項功能有望在多個領域產生積極影響,為人們的日常生活和工作帶來更多的便利和樂趣。 隨著技術的不斷改進,人工智慧的發展將繼續與真實世界的需求保持對齊,推動著智慧互動的進一步發展。