當前位置: 華文世界 > 科學

中國科大-雲知聲聯合團隊斬獲CVPR2024三項季軍

2024-07-09科學

近日, IEEE/CVF電腦視覺國際頂級會議——CVPR 2024公布第六屆開放環境下情感行為分析國際挑戰賽(The 6th Workshop and Competition on Affective Behavior Analysis in-the-wild,簡稱ABAW6)成績。由中國科學技術大學資訊學院自動化系於俊老師帶隊的中國科學技術大學與雲知聲共同組隊,一舉奪得人臉情緒辨識(Expression Recognition, EXPR)、復合情緒辨識(Compound Expression Recognition, CE)、情緒模仿強度估計(Emotional Mimicry Intensity Estimation, EMI)三個賽道季軍。以此競賽為基礎,聯合團隊將最新的研究成果整理成多篇學術論文,並在 CVPR workshop 上發表和分享。

CVPR會議是由IEEE主辦的電腦視覺和模式辨識領域的國際學術盛會,其匯集了全球該領域內最前沿的研究成果和技術進展,是全球電腦視覺領域的三大頂級會議之一。

ABAW賽事是專註於開放環境下(in-the-wild)的情感行為分析的國際賽事,其致力於推動電腦視覺技術在開放環境下對人類情感行為的分析能力,進而增強人機互動系統在多樣化場景中的套用性和適應力,至今已成功舉辦六屆,成為全球範圍內學術翹楚與業界巨頭的匯聚之地,吸引了包括南加州大學、中國科學技術大學、南洋理工大學、萊斯特大學、清華大學、天翼雲、俄羅斯科學院、加拿大蒙特利爾電腦研究所、美國普渡大學等在內的諸多研究團隊和行業專家參與其中。在最新一屆的賽事中,中國科大-雲知聲聯合團隊從眾多實力強勁的參賽隊伍中脫穎而出,充分展現其在情感行為分析賽道的領先實力。

人類情感行為分析旨在透過多種模態資訊(視覺、聽覺、文本等模態)來捕獲人類有關表情和情緒的狀態,從而分析人類內心的潛在目的或心理狀況。該領域致力於自動辨識、理解和解釋人類情感表達和行為,以及將其套用於情感辨識、人機互動、心理健康等領域。

人類情感行為分析是一門跨學科領域,它綜合運用視覺、聽覺、文本等多種模態資訊來捕捉和解析人類表情和情緒狀態,以此實作對人類情感表達和行為的自動檢測、深入理解與精確解釋,進而推動情感辨識、人機互動、心理健康監測等一系列套用的發展。

ABAW6涵蓋了面部表情分析相關的多個挑戰專案,包括AU、EXPR和VA三個傳統挑戰賽道,此外,今年ABAW6還新增了混合情緒辨識(CE)和情緒模仿強度估計(EMI)兩個全新賽道——CE賽道提供56個無任何標註的影片,要求參賽者利用已有的數據資源和預訓練模型預測其中的7種混合情緒;而EMI賽道則要求參賽者分析模仿者的影片,以推斷原始「源」影片中所表達的情感強度。五個賽道各有千秋,擁有各自獨特套用價值的同時,也帶來不同的挑戰。

針對EXPR賽道數據集規模有限的挑戰,研究團隊采用了半監督學習技術。該技術透過為未標記的面部數據生成表情類別偽標簽,擴充了訓練數據集,從而提升了模型的泛化能力和辨識精度。同時,研究團隊針對數據集中的類別不平衡問題和半監督學習中可能存在的數據偏差,引入了去偏反饋學習策略,有效提升了模型的穩健性和準確性。為了進一步彌補僅從靜態影像獲取特征的局限性,研究團隊還引入了時間編碼器(Temporal Encoder)。該元件能夠學習和捕捉相鄰表情影像特征之間的時間關系,從而增強了模型對面部表情隨時間變化的動態理解能力。

針對CE賽道人類情緒表達變得復雜的挑戰,需要同時考慮局部和全域的面部表情來做出判斷,研究團隊提出了一種基於整合學習的解決方案,采用摺積網絡、視覺Transformer和多尺度局部註意網絡分別訓練三個表情分類模型,並透過後期融合技術將它們的輸出合並,以綜合考量局部和全域表情特征,從而顯著提升了在RAF-DB數據集上的辨識準確度。此外,方法還展示了在C-EXPR-DB數據集上部份區域實作零樣本學習的能力,為復合表情辨識的進一步研究和套用提供了新的方法和視角。

針對EMI賽道數據集中情感表達的復雜性和多樣性的挑戰,研究團隊基於ResNet18和面部動作單元(AUs)提取了豐富的雙鍊結視覺特征用於影片模態,以及基於Wav2Vec2.0提取了有效的單鍊結音訊特征用於音訊模態。這使我們能夠獲得視聽模態下綜合的情感特征。此外,透過後期融合策略,我們對視覺和聲學模型的預測進行了平均,從而更準確地估計了視聽情感模仿強度。

作為這些成果的延續與總結,研究團隊將這些研究成果整理成四篇學術論文,並於國際頂級(CVPR)會議上發表。

繼2023年釋出山海大模型以來,雲知聲持續推動AGI技術在智慧物聯、智慧醫療等領域全面套用。基於山海大模型,雲知聲持續拓展智能體(Agent)、檢索增強生成(RAG)及多模態融合能力,積極探索更廣泛的套用場景,並先後入選北京市通用人工智能十大模型夥伴及大模型十大套用案例,成為大模型領域的佼佼者。這次技術評測,是雲知聲多模態能力拓展的重要階段性成果。

展望未來,中國科大-雲知聲聯合團隊將繼續秉持技術創新的精神,積極推動情感行為分析技術的研發與升級,打造更加真實、生動且富有情感溫度的人機智能對話世界。