提到「打響指」這個限定的聲音情境,你的腦海中會聯想到什麽?
是電影中,打個響指讓願望實作、反派團瞬間被全滅、主角即將展現高光時刻;還是正發著呆,被好友一個響指喚醒回神;魔術師施展魔法,憑空變出鮮花......
在這裏,就要和各位介紹一個 能聽懂你所想,且能聯動米家操作的新功能——「打個響指」 。它到底憑借什麽被「委以重任」為控制器材的觸發條件?又能帶來怎樣的驚喜?
響指一打,器材懂你
小米澎湃OS的推出,讓器材互聯進入「主動智能」時代。突破性的 Xiaomi HyperMind 全器材思考中樞可以讓你身邊的器材成為感知世界的觸角。統一思考,多維感知判斷,主動學習使用者習慣,真正把小米生態中的各類器材打通,並以人為中心提供主動服務,讓器材更懂人。 「打個響指」就是基於 Xiaomi HyperMind 架構下推出的新功能。
目前,市面上常見的互動式語音指令,都需要多輪對話操作。而此次隨著小米澎湃OS一起推出的「打個響指」功能,一個響指,就能讓多器材自主執行。 不僅操作流程簡單、直接,還能指令直達、主動感知,讓家聞「聲」而應!
作為 行業正選的使用使用者動作喚醒+辨識+觸發操作的技術 ,相比於傳統的語音喚醒和下達指令而言,不僅是喚醒方式上的一個創新,更是小米在聲音事件感知、通用聲音辨識上先進能力的體現。
而我們在眾多聲音情境中選擇響指聲辨識的原因,不僅是「響指」聲音具有場景特殊性,不太容易被誤觸發、或被環境中的其他聲音模擬,而且打響指聯動米家本身就很酷!能給使用者帶來更好的使用體驗、更高的辨識準確度。
通常情況下,大家在喚醒小愛同學下達相應的指令時,都需要先進行喚醒、再等待小愛同學回應、再下達指令、再等待小愛同學執行等步驟,而打響指技術則完全不需要這一系列流程。
你只需要有一個 Xiaomi Sound 音箱,在米家 App 中設定好功能的自動化指令,音箱在開啟狀態下,會自動、持續感知周圍的環境聲音。打響指這一指令,只要在音箱方圓3米範圍內,就能被精準辨識和捕捉到,即可快速觸發各類操作,喚醒準確率高達 96%。
套用演示:
此外,響指辨識的演算法完全在音箱端實作了本地部署,所有的聲音在音箱內即完成了處理,不會上傳雲端,使用者不必有私密泄露的擔心和困擾。
而為了避免誤辨識,負責這項演算法的小米AI實驗室也做了諸多最佳化,例如:在檢測到周圍播放音樂或者影片時,自動暫時遮蔽響指辨識功能,防止音樂或電影裏的響指觸發誤辨識;在檢測到類似於響指的聲音時,演算法會自動做兩次鑒別操作,確保只有真正的響指聲音才會喚醒;演算法加入了對於聲音距離的判斷機制,防止窗外的某些聲音誤觸發等等......
使用小tips:
玩轉技術,多器材自主執行
歷經十余年的積累,讓小米的技術研發已經從套用層面更多轉向了底層技術層面,其中 AI 領域是小米長期持續投入的底層賽道之一。
而小米 AI 實驗室下的聲學語音部門已具備從硬件到軟件基礎層,再到軟件套用層的全鏈路聲音演算法能力,覆蓋聲音的理解與生成,其麥克風陣列拾音、語音辨識、聲紋辨識、語音喚醒、語音合成等能力服務於數億小米使用者。
響指檢測的誕生,是基於小米持續研發的音訊標記技術。該技術的目標是對音訊作多標簽分類,使電腦能夠理解音訊內容,可套用於音訊搜尋、危險事件辨識、機器故障監測、輔助無障礙等廣泛場景。
音訊標記演算法可以辨識廣泛的聲音,有助於讓環境中的聲音也能用文字等其他模態同等地表達,讓聲音被「看」見。
小米聲學語音技術架構
▍場景一:使用無障礙
語音喚醒雖是市面上使用最多的,但並不適用於所有使用者。例如對於言語障礙使用者而言,無法直接語音喚醒小愛同學,且需要在手機上進行多次操作又較為繁瑣。「打個響指」功能對其而言,就是一個很好的「小幫手」,能夠主動感知、一次操作即可控制家庭器材,幫助他們向周圍的器材直接下達指令,讓生活更方便。
▍場景二:生活總會有驚喜
要說生活中什麽東西,能令人一直銘記,想起來時嘴角又不自覺上揚。我想,應該是一場足夠用心和有序又順利的驚喜。在一個充滿浪漫氛圍的場景下,正深情地告白時,突然喊小愛同學幫忙開啟燈光、播放音樂......這種煞風景的畫面,光是腦補就覺得能尷尬到想直接原地隱身。那若是在告白前,將氛圍燈、音樂等都提前設定好,現場部份環節交由響指來配合自動執行,那一切安排盡在掌握當中,留下美好又驚喜的回憶皆有可能了!一個響指,氛圍感拉滿!
▍場景三:閉麥時間到
下班回家,已經處於低電量模式下的我們,可能只想「閉麥」,獨處修身養息。這時,只需站在玄關處打個響指,就能下達已經在後台設定好的相關指令,完成開燈、拉窗簾、開啟加濕器、開啟空氣凈化器、開啟音箱播放音樂這一系列操作,無需再與小愛同學進行多輪對話和等待執行,直接進入個人放松模式。
深耕底層技術,AI 賦能產品
音訊標記技術,是小米 AI 實驗室研發積累的基礎技術之一,它能夠辨識上百種自然聲音,響指聲只是其中之一 。在深耕 AI 技術能力的過程中,小米 AI 實驗室聲學語音團隊長久的積累和沈澱,讓音訊標記技術能夠輕松實作技術的另一種玩法創新。同時,也在不斷地認真聆聽、洞察不同使用者人群的真實需求,做出讓更多人能夠享受到主動、智能化的科技生活的產品。
除此之外,還能讓機器能夠聽懂人類語言,理解自然界的千千萬萬種聲音。就如同小米的人形機器人一般,它具備84種語意理解能力,幫助機器人認識周圍的聲音並做出反應,大幅提升了機器人的感知能力。
同時, 音訊標記技術賦能於「小米聞聲」 ,幫助無障礙人群用眼睛「看」到聲音。它可以監測 14 種對聽力障礙使用者重要的環境音,包括火警、嬰兒啼哭等,並以手機通知欄進行文字推播。這讓聽力障礙使用者得以「看見」生活中的聲音,與普通人一樣享受智能生活的便捷。不光是手機,小米手環、手表也可以同步顯示和接收這樣的聲音資訊。
也如同 Xiaomi Sound 音箱的環境音辨識功能,實作遠端家庭守護、家庭&家人狀態監控。
去年9月,小米的音訊標記演算法重新整理了國際學術界的最好成績,把 AudioSet 公開數據集上的 mAP 指標首次推進到 50 以上。尤其值得一提的是,我們還釋出了一個 mini 版模型,該模型的參數量僅為同行的約十分之一,卻仍然在效能上領先。同時,我們也將模型訓練程式碼和預訓練模型開放出來,供同行研究者們免費使用。該成果對應的論文已被國際頂級語音會議 ICASSP 接收。
模型連結: https://huggingface.co/mispeech
論文連結: https://arxiv.org/abs/2308.11957
-
做最酷的產品,是小米三大鐵律之一。
打響指這一趣味的互動方式,是我們基於底層技術的一次全新嘗試,希望給大家的生活帶來更多的樂趣。
在未來,我們會讓打響指功能覆蓋到更多機型和載體上,支持多器材協同,在不同的房間打響指,觸發不同房間裏的器材的不同操作,以及增加和聲音關聯的操作。小米工程師將持續在曠野中探索技術之路,挖掘其更趣味、溫暖等特質的一面,為使用者帶來更加便捷的智能生活體驗。