人工智慧只需聽聲音6秒就能描繪你的長相，憑什麽呢？

2024-08-24科技

語音生物辨識技術近年來實作了顯著的發展。如今，它已經成為眾多行業的標準配置，我們可能很快就不再需要記憶密碼或客戶編號來與銀行或客服中心溝通。使用者只需與互動式語音應答系統（ IVR ）或客服代表進行對話，系統便能迅速辨識出他們的身份。

這是如何做到的呢？透過將使用者的聲音與組織資料庫中保存的聲紋進行匹配來實作。

此外，這種技術還提供了一種更為安全的身份驗證手段。由於每個人的聲紋都是獨一無二的，當使用者在與客服或IVR系統自然對話時，可以非常精確地進行身份驗證。

隨著對語音生物辨識技術需求的不斷增長，這真的令人意外嗎？該行業在2020年的市場規模大約為10億美元，但預計到2027年將增長到近60億美元。

然而，語音生物辨識技術的價值遠不止於提供快速和流暢的身份驗證過程。它還能提供關於個人的寶貴資訊，因為我們的聲音中包含了許多有用的，有時甚至是令人驚訝的資訊。

在本文中，我們將深入探討如何透過分析聲音來獲取獨特的身份和資訊。

企業對語音生物辨識技術的興趣日益增長，主要是因為它能夠提供一種快速且安全的途徑來確認客戶身份。在沒有這項技術的情況下，身份驗證過程可能會變得繁瑣和低效。客服人員通常需要詢問客戶一系列問題，比如他們的帳號、密碼或其他個人資訊，以確定他們的身份。這種方法不僅耗時，而且客戶往往難以記住所有這些細節。

傳統的驗證方法還可能涉及到客戶在電話中透露敏感資訊，這不僅延長了通話時間，也增加了資訊泄露的風險。然而，鑒於目前假冒身份的欺詐行為日益猖獗，企業不能忽視采取必要的安全措施。

語音生物辨識技術的出現，為簡化和加速身份驗證過程提供了解決方案。客戶不再需要記住復雜的帳號資訊，只需簡單地對客服或IVR系統說出一個特定的短語，就能迅速完成身份驗證。

此外，被動語音生物辨識技術能夠在客戶與客服或虛擬助手自然對話的過程中，無聲無息地完成身份辨識，無需客戶重復特定短語，進一步提高了效率。

語音生物辨識技術的安全性也不容忽視。每個人的聲紋都被轉換成一個獨特的數學模式，這個模式無法還原成原始的聲音樣本，從而為公司提供了一種強有力的保護措施，以防止數據泄露和欺詐攻擊，同時也為客戶提供了更加便捷的服務體驗。

透過分析聲音來辨識來電者的想法聽起來像是科幻小說中的情節。但想象一下，僅憑一個人的話語就能預測他們可能長什麽樣，這聽起來是不是更加不可思議？

麻省理工學院的電腦科學與人工智慧實驗室（CSAIL）開發了一種名為SpeecpFace的人工智慧系統，它能夠僅憑聲音音訊片段來重建人的面部影像。研究人員的初衷是探索聲音與說話者面部特征之間的關聯性。為此，他們訓練了一個AI網路，輸入了數百萬的視訊序列，讓網路學會如何從聲音中提取面部特征。隨後，他們讓AI根據聲音錄音生成幾個人的肖像。

當研究人員將AI生成的肖像與這些人的真實照片進行對比時，結果的相似度令他們感到驚訝。AI僅憑6秒的語音記錄就能準確推斷出說話者的種族，並在一定程度上視覺化其面部特征。

盡管這項人臉辨識技術尚未達到完美，一些由AI生成的肖像與真人有著驚人的相似度，而另一些則存在偏差。但這項技術所展現出的潛力已經足夠令人矚目，預示著由語音生物辨識技術驅動的面部重建技術在未來幾年內可能會得到廣泛套用。

讓我們換個角度來探討這個問題。人工智慧驅動的語音生物辨識系統能否區分說話者的性別？答案是肯定的，它們確實具備這項能力。

研究"透過語音數據確定性別"的目的是評估人工智慧在根據語音錄音區分男性和女性方面的準確性。研究結果顯示，這項技術能夠以97.9%的準確率辨識出男性和女性的聲音。那麽，它們是如何做到的呢？

這主要歸功於聲帶的物理特性。聲帶的長度和厚度決定了一個人的聲音訊率。通常，聲帶越粗越長，發出的聲音訊率就越低。女性的聲音訊率平均在210赫茲左右，而男性的聲音訊率大約是120赫茲。人工智慧透過分析聲音的頻率、音調以及其他因性別而異的特征，能夠辨別出說話者是男性還是女性。

然而，即使是最先進的性別辨識系統也可能出錯，因為它們的準確性很大程度上取決於輸入數據的品質。例如，人工智慧在辨識那些處於性別中立頻率和音調範圍內的聲音時可能會遇到困難。但隨著研究的不斷深入，這些挑戰將逐漸被克服，使得性別辨識技術變得更加精準和可靠。

能否僅憑聲音就猜測出一個人的身高？雖然這聽起來可能有些牽強，但事實上，我們確實可以透過聽一個人說話來做出一些推斷。

美國聲學學會的一項研究探討了這個問題。在這項研究中，參與者被要求聽兩個人分別說出幾個單詞的錄音，然後判斷誰更高。令人驚訝的是，參與者不僅能夠輕松地判斷出他們的相對身高，甚至能夠將一組五人的身高順序正確排列。

科學家們認為，除了普遍認為的"高個子聲音更深沈"之外，一定還有其他因素在起作用。他們發現，這種因素是一種叫做聲門下共振的聲音特性。隨著身高的增加，聲門下共振的頻率會逐漸降低，這為人們提供了一種透過聽聲音來估計說話者身高的方法。

華盛頓大學的心理學家約翰·莫頓對這個現象進行了形象的解釋：「你向一個裝滿不同量液體的玻璃瓶中吹氣。瓶子裏的液體越少，發出的聲音就越低沈。聲門下共振的頻率會根據產生它的人的身高而變化，身高越高，聲門下共振的頻率就越低。」

這項研究揭示了聲音與身高之間可能存在的聯系，為我們提供了一種新的視角來理解聲音的復雜性。雖然這種判斷方法可能並不完全準確，但它確實表明，我們的聲音中可能隱藏著比我們想象的更多的資訊。

人們通常能夠透過聽聲音來辨別某人的年齡。2010年，【社會、前進演化和文化心理學雜誌】上發表的一項研究中，97名參與者被要求聽100個年齡跨度從2歲到67歲的演講者的錄音，並對他們的年齡進行猜測。

在辨識兒童、青少年和老年人的聲音方面，參與者表現出了較高的準確性。然而，當涉及到45至65歲之間的成年人時，他們的猜測準確性有所下降，往往與實際年齡相差至少10年。這可能是因為成年人和青少年的說話方式存在相似之處，使得人們難以準確判斷成年人的年齡。

與此同時，人工智慧可以透過分析聲帶隨年齡變化的特征來估計個體的年齡。這種技術的套用場景非常廣泛，例如，企業可以迅速辨識老年人的聲音，並將他們優先服務。此外，這項技術還可以幫助預防欺詐行為。如果銀行工作人員或客服代表發現說話者的聲音與他們所掌握的數據不符，他們可以要求提供更多資訊來驗證來電者的身份，或者直接聯系帳戶的原始持有者。

這項研究不僅揭示了人們在透過聲音判斷年齡方面的潛力，也展示了人工智慧在提高年齡辨識準確性方面的潛力。隨著技術的不斷進步，我們可能會看到更多利用聲音特征來提供個人化服務和增強安全性的套用。

這聽起來像是科幻劇集【黑鏡】中的情節，但實際上，這樣的技術正在成為現實。2018年，亞馬遜為其智慧助手Alexa申請了一項專利，這項新功能能夠辨識使用者聲音中的疾病跡象，並據此做出反應。

例如，在演示中，一位女士在向她的 Amazon Echo 裝置發出指令時伴有咳嗽和流鼻涕的聲音，Alexa的回應是建議她喝雞湯治療感冒，並詢問是否需要在亞馬遜上為她訂購止咳藥水。

亞馬遜的專利還暗示，未來的Alexa可能能夠探測使用者的情緒狀態，包括喜悅、憤怒、悲傷、無聊、恐懼和幸福等。如果結合物聯網（IoT）可穿戴裝置，這樣的虛擬助手將具有巨大的潛力，能夠幫助醫生和醫院更便捷地監控患者的心理、情緒和身體健康狀況，並在發現異常時及時通知相關人員。然而，考慮到許多使用者可能對這種高度個人化的監控感到不適，這項功能的實施和普及可能面臨一些挑戰。

這項技術的發展，雖然在提高生活品質和健康監測方面具有巨大潛力，但也引發了關於私密和數據安全的重要討論。如何在提供便利和保護使用者私密之間找到平衡點，將是技術開發者和社會各界需要共同考慮的問題。

中國的三大護國神山，您知道是哪三座神山嗎？

中華人民共和國主席毛澤東簽發的任命書，見證開國元勛的初心使命種種跡象證明，大禹出生於四川，是個不折不扣「四川娃」！

「關東」從函谷關以東或潼關以東地區，是如何成長為整個東北地區

您沒看錯！漢字與中國傳統建築還真有密切的關系？

想了解更多精彩內容，快來關註地名有文化