邁向AGI關鍵一步，雲知聲推出山海多模態大模型

2024-08-26科技

今年5月中旬，OpenAI推出GPT-4o，憑借突破性的智慧互動能力，顛覆了我們對人機互動的認知，掀起多模態大模型的新浪潮。

3個月後的今天，雲知聲推出山海多模態大模型，迎來屬於我們的「Her時代」。透過整合跨模態資訊，山海多模態大模型能夠接收文本、音訊、影像等多種形式作為輸入，並即時生成文本、音訊和影像的任意組合輸出，帶來即時多模態擬人互動體驗，開啟AGI新範式。

能聽會說，更「聲」動的語音互動

即時秒回，自由插話

山海語音互動與現實對話中人類的響應時間相似，使用者幾乎感知不到延遲，為使用者提供了幾乎無感知的流暢體驗。此外，山海支持對話隨時打斷，使用者可在對話中靈活插話，無需等待，互動過程自然不受阻礙。

感知情緒，表達情緒

在智慧語音技術的加持下，山海不僅能透過語音文本判斷使用者情緒，更能細致捕捉使用者語音的語氣、節奏和音調等微妙變化，從而更準確地感知對方情緒狀態，並像人類一樣予以適當的情感反饋。無論是安慰、鼓勵還是幽默，山海都能與使用者形成情感共鳴，提供貼心的情感支持。

音色自由切換，打造專屬聲音

對話過程中，山海不僅可以模仿人類的自然語言特征，包括停頓、呼吸甚至笑聲等副語言元素，提升對話互動的真實感和沈浸感，還能夠根據使用者的個人化需求，自由切換音色，增強對話的生動性和趣味性。

基於雲知聲聲音複制技術，山海能夠全面學習使用者的音色、風格，一句話復刻使用者聲音，音色高保真還原，語氣、語調、情感也堪比真人，輕松打造使用者專屬聲音。

看得見讀得懂，更直覺的視覺互動

視覺場景理解，「看見」人類世界

透過網路攝影機，山海能夠「看見」周圍環境，實作所見即所得的精準辨識——從場景理解分析到物體資訊描述，山海都能精準「拿捏」。

對於目標物體上的文字，山海不僅限於基礎的OCR文字辨識，更能夠結合影像和文字，提供易於理解的總結，表現出更接近人類的認知能力。例如，當演示者用手機對準一台投影機時，山海可以準確描述出物體，並辨識、總結出投影機包裝盒上的文字資訊，提供全面而深入的分析。

影像創意生成，構築個性藝術

在影像生成技術的加持下，山海能夠根據使用者指令快速建立視覺內容，並深入理解使用者對背景的日常化要求，透過影像編輯和最佳化技術，提供符合個人化需求的客製畫面，確保滿足使用者的創意和展示需求。

基於出色的多模態互動能力，山海多模態大模型能夠根據不同的場景和需求，模擬出各種人物性格和對話風格。無論是溫柔的助手、風趣的朋友，還是專業的顧問，山海都能遊刃有余地切換身份，提供個人化且富有情感的互動體驗。

此次推出多模態大模型，標誌著山海正朝著更深層次的自然語言理解和多模態互動不斷發展，也預示著雲知聲"Her時代"的到來。

2023年5月，雲知聲釋出山海大模型，交出其在AGI領域的第一張答卷。自釋出以來，山海大模型始終保持高速叠代，其在SuperCLUE中文大模型基準測評、MedBench中文醫療大模型評測、CCKS 2023醫療大模型評測等權威賽事上屢獲佳績，展現出全面的通用能力和卓越的專業能力，穩居全球大模型第一梯隊。雲知聲深知，山海的語言理解、知識儲備和邏輯推理能力至關重要，但推動其邁進AGI的關鍵，在於其多模態互動能力的發展——這將讓山海不僅局限於單向的資訊處理，而是真正成為一個能夠深入理解世界、與人類進行自然而富有洞察力的交流的智慧夥伴。

正是基於這樣的願景，雲知聲在不斷提升山海大模型自然語言處理能力的同時，也在積極發展多模態能力。在CVPR 2024開放環境情感行為分析競賽中，雲知聲一舉奪得了人臉情緒辨識（Expression Recognition）、復合情緒辨識（Compound Expression Recognition）、情緒模仿強度估計（Emotional Mimicry Intensity Estimation）三個賽道的季軍，展現出卓越的情感分析能力。

未來，隨著多模態的深入發展，山海不僅能說能聽會看，還將拓展即時語言轉譯、面部情緒分析等更深入的多模態能力，全方位滿足人們工作、社交、娛樂等多樣話需求，成為生活中不可或缺的一部份。