打個響指，讓家聞 「 聲 」 而應

2024-02-03數碼

提到「打響指」這個限定的聲音情境，你的腦海中會聯想到什麽？

是電影中，打個響指讓願望實作、反派團瞬間被全滅、主角即將展現高光時刻；還是正發著呆，被好友一個響指喚醒回神；魔術師施展魔法，憑空變出鮮花......

在這裏，就要和各位介紹一個 能聽懂你所想，且能聯動米家操作的新功能——「打個響指」 。它到底憑借什麽被「委以重任」為控制器材的觸發條件？又能帶來怎樣的驚喜？

響指一打，器材懂你

小米澎湃OS的推出，讓器材互聯進入「主動智能」時代。突破性的 Xiaomi HyperMind 全器材思考中樞可以讓你身邊的器材成為感知世界的觸角。統一思考，多維感知判斷，主動學習使用者習慣，真正把小米生態中的各類器材打通，並以人為中心提供主動服務，讓器材更懂人。 「打個響指」就是基於 Xiaomi HyperMind 架構下推出的新功能。

目前，市面上常見的互動式語音指令，都需要多輪對話操作。而此次隨著小米澎湃OS一起推出的「打個響指」功能，一個響指，就能讓多器材自主執行。 不僅操作流程簡單、直接，還能指令直達、主動感知，讓家聞「聲」而應！

作為 行業正選的使用使用者動作喚醒+辨識+觸發操作的技術 ，相比於傳統的語音喚醒和下達指令而言，不僅是喚醒方式上的一個創新，更是小米在聲音事件感知、通用聲音辨識上先進能力的體現。

而我們在眾多聲音情境中選擇響指聲辨識的原因，不僅是「響指」聲音具有場景特殊性，不太容易被誤觸發、或被環境中的其他聲音模擬，而且打響指聯動米家本身就很酷！能給使用者帶來更好的使用體驗、更高的辨識準確度。

通常情況下，大家在喚醒小愛同學下達相應的指令時，都需要先進行喚醒、再等待小愛同學回應、再下達指令、再等待小愛同學執行等步驟，而打響指技術則完全不需要這一系列流程。

你只需要有一個 Xiaomi Sound 音箱，在米家 App 中設定好功能的自動化指令，音箱在開啟狀態下，會自動、持續感知周圍的環境聲音。打響指這一指令，只要在音箱方圓3米範圍內，就能被精準辨識和捕捉到，即可快速觸發各類操作，喚醒準確率高達 96%。

套用演示：

以打響指觸發單個器材為例：米家 App 連線到客廳的音箱，並在 App 中設定開燈，執行方式：響指檢測。就能在回家後，隨手一個響指，開啟客廳的燈。

以打響指觸發多個器材為例：米家 App 連線到主臥的音箱，並在 App 中設定拉開窗簾、開啟空氣凈化器、開啟加濕器等一系列操作。這樣，就能在剛起床時，慵懶地打個響指賴會兒床，等待指令一項項地執行：開啟窗簾迎接朝陽，呼吸一口新鮮空氣、感受濕潤的早晨........，慢慢醒神。

此外，響指辨識的演算法完全在音箱端實作了本地部署，所有的聲音在音箱內即完成了處理，不會上傳雲端，使用者不必有私密泄露的擔心和困擾。

而為了避免誤辨識，負責這項演算法的小米AI實驗室也做了諸多最佳化，例如：在檢測到周圍播放音樂或者影片時，自動暫時遮蔽響指辨識功能，防止音樂或電影裏的響指觸發誤辨識；在檢測到類似於響指的聲音時，演算法會自動做兩次鑒別操作，確保只有真正的響指聲音才會喚醒；演算法加入了對於聲音距離的判斷機制，防止窗外的某些聲音誤觸發等等......

使用小tips：

喚醒\下達指令方式：打個響指；

實作流程：開啟米家 App ，點選右上角建立自動化，添加觸發條件中選擇器材，再選擇音箱，環境音檢測中選擇打響指，再添加需要關聯操作的器材和其自動化指令，即可完成所有設定；

喚醒位置區間：音箱3米範圍內，可在不同房間放置音箱+關聯不同房間的器材，並設定不同觸發指令哦；

指令實作時間：1s內判斷完成，2s內上傳執行；

喚醒器材數量設定：單個或多個，無限制，使用者可隨意設定。

玩轉技術，多器材自主執行

歷經十余年的積累，讓小米的技術研發已經從套用層面更多轉向了底層技術層面，其中 AI 領域是小米長期持續投入的底層賽道之一。

而小米 AI 實驗室下的聲學語音部門已具備從硬件到軟件基礎層，再到軟件套用層的全鏈路聲音演算法能力，覆蓋聲音的理解與生成，其麥克風陣列拾音、語音辨識、聲紋辨識、語音喚醒、語音合成等能力服務於數億小米使用者。

響指檢測的誕生，是基於小米持續研發的音訊標記技術。該技術的目標是對音訊作多標簽分類，使電腦能夠理解音訊內容，可套用於音訊搜尋、危險事件辨識、機器故障監測、輔助無障礙等廣泛場景。

音訊標記演算法可以辨識廣泛的聲音，有助於讓環境中的聲音也能用文字等其他模態同等地表達，讓聲音被「看」見。

小米聲學語音技術架構

▍場景一：使用無障礙

語音喚醒雖是市面上使用最多的，但並不適用於所有使用者。例如對於言語障礙使用者而言，無法直接語音喚醒小愛同學，且需要在手機上進行多次操作又較為繁瑣。「打個響指」功能對其而言，就是一個很好的「小幫手」，能夠主動感知、一次操作即可控制家庭器材，幫助他們向周圍的器材直接下達指令，讓生活更方便。

▍場景二：生活總會有驚喜

要說生活中什麽東西，能令人一直銘記，想起來時嘴角又不自覺上揚。我想，應該是一場足夠用心和有序又順利的驚喜。在一個充滿浪漫氛圍的場景下，正深情地告白時，突然喊小愛同學幫忙開啟燈光、播放音樂......這種煞風景的畫面，光是腦補就覺得能尷尬到想直接原地隱身。那若是在告白前，將氛圍燈、音樂等都提前設定好，現場部份環節交由響指來配合自動執行，那一切安排盡在掌握當中，留下美好又驚喜的回憶皆有可能了！一個響指，氛圍感拉滿！

▍場景三：閉麥時間到

下班回家，已經處於低電量模式下的我們，可能只想「閉麥」，獨處修身養息。這時，只需站在玄關處打個響指，就能下達已經在後台設定好的相關指令，完成開燈、拉窗簾、開啟加濕器、開啟空氣凈化器、開啟音箱播放音樂這一系列操作，無需再與小愛同學進行多輪對話和等待執行，直接進入個人放松模式。

深耕底層技術，AI 賦能產品

音訊標記技術，是小米 AI 實驗室研發積累的基礎技術之一，它能夠辨識上百種自然聲音，響指聲只是其中之一 。在深耕 AI 技術能力的過程中，小米 AI 實驗室聲學語音團隊長久的積累和沈澱，讓音訊標記技術能夠輕松實作技術的另一種玩法創新。同時，也在不斷地認真聆聽、洞察不同使用者人群的真實需求，做出讓更多人能夠享受到主動、智能化的科技生活的產品。

除此之外，還能讓機器能夠聽懂人類語言，理解自然界的千千萬萬種聲音。就如同小米的人形機器人一般，它具備84種語意理解能力，幫助機器人認識周圍的聲音並做出反應，大幅提升了機器人的感知能力。

同時， 音訊標記技術賦能於「小米聞聲」 ，幫助無障礙人群用眼睛「看」到聲音。它可以監測 14 種對聽力障礙使用者重要的環境音，包括火警、嬰兒啼哭等，並以手機通知欄進行文字推播。這讓聽力障礙使用者得以「看見」生活中的聲音，與普通人一樣享受智能生活的便捷。不光是手機，小米手環、手表也可以同步顯示和接收這樣的聲音資訊。

也如同 Xiaomi Sound 音箱的環境音辨識功能，實作遠端家庭守護、家庭&家人狀態監控。

去年9月，小米的音訊標記演算法重新整理了國際學術界的最好成績，把 AudioSet 公開數據集上的 mAP 指標首次推進到 50 以上。尤其值得一提的是，我們還釋出了一個 mini 版模型，該模型的參數量僅為同行的約十分之一，卻仍然在效能上領先。同時，我們也將模型訓練程式碼和預訓練模型開放出來，供同行研究者們免費使用。該成果對應的論文已被國際頂級語音會議 ICASSP 接收。

模型連結： https://huggingface.co/mispeech

論文連結： https://arxiv.org/abs/2308.11957