當前位置: 華文世界 > 科技

邁向AGI關鍵一步,雲知聲推出山海多模態大模型

2024-08-26科技

今年5月中旬,OpenAI推出GPT-4o,憑借突破性的智慧互動能力,顛覆了我們對人機互動的認知,掀起多模態大模型的新浪潮。

3個月後的今天,雲知聲推出山海多模態大模型,迎來屬於我們的「Her時代」。透過整合跨模態資訊,山海多模態大模型能夠接收文本、音訊、影像等多種形式作為輸入,並即時生成文本、音訊和影像的任意組合輸出,帶來即時多模態擬人互動體驗,開啟AGI新範式。

能聽會說,更「聲」動的語音互動

即時秒回,自由插話

山海語音互動與現實對話中人類的響應時間相似,使用者幾乎感知不到延遲,為使用者提供了幾乎無感知的流暢體驗。此外,山海支持對話隨時打斷,使用者可在對話中靈活插話,無需等待,互動過程自然不受阻礙。

感知情緒,表達情緒

在智慧語音技術的加持下,山海不僅能透過語音文本判斷使用者情緒,更能細致捕捉使用者語音的語氣、節奏和音調等微妙變化,從而更準確地感知對方情緒狀態,並像人類一樣予以適當的情感反饋。無論是安慰、鼓勵還是幽默,山海都能與使用者形成情感共鳴,提供貼心的情感支持。

音色自由切換,打造專屬聲音

對話過程中,山海不僅可以模仿人類的自然語言特征,包括停頓、呼吸甚至笑聲等副語言元素,提升對話互動的真實感和沈浸感,還能夠根據使用者的個人化需求,自由切換音色,增強對話的生動性和趣味性。

基於雲知聲聲音複制技術,山海能夠全面學習使用者的音色、風格,一句話復刻使用者聲音,音色高保真還原,語氣、語調、情感也堪比真人,輕松打造使用者專屬聲音。

看得見讀得懂,更直覺的視覺互動

視覺場景理解,「看見」人類世界

透過網路攝影機,山海能夠「看見」周圍環境,實作所見即所得的精準辨識——從場景理解分析到物體資訊描述,山海都能精準「拿捏」。

對於目標物體上的文字,山海不僅限於基礎的OCR文字辨識,更能夠結合影像和文字,提供易於理解的總結,表現出更接近人類的認知能力。例如,當演示者用手機對準一台投影機時,山海可以準確描述出物體,並辨識、總結出投影機包裝盒上的文字資訊,提供全面而深入的分析。

影像創意生成,構築個性藝術

在影像生成技術的加持下,山海能夠根據使用者指令快速建立視覺內容,並深入理解使用者對背景的日常化要求,透過影像編輯和最佳化技術,提供符合個人化需求的客製畫面,確保滿足使用者的創意和展示需求。

基於出色的多模態互動能力,山海多模態大模型能夠根據不同的場景和需求,模擬出各種人物性格和對話風格。無論是溫柔的助手、風趣的朋友,還是專業的顧問,山海都能遊刃有余地切換身份,提供個人化且富有情感的互動體驗。

此次推出多模態大模型,標誌著山海正朝著更深層次的自然語言理解和多模態互動不斷發展,也預示著雲知聲"Her時代"的到來。

2023年5月,雲知聲釋出山海大模型,交出其在AGI領域的第一張答卷。自釋出以來,山海大模型始終保持高速叠代,其在SuperCLUE中文大模型基準測評、MedBench中文醫療大模型評測、CCKS 2023醫療大模型評測等權威賽事上屢獲佳績,展現出全面的通用能力和卓越的專業能力,穩居全球大模型第一梯隊。雲知聲深知,山海的語言理解、知識儲備和邏輯推理能力至關重要,但推動其邁進AGI的關鍵,在於其多模態互動能力的發展——這將讓山海不僅局限於單向的資訊處理,而是真正成為一個能夠深入理解世界、與人類進行自然而富有洞察力的交流的智慧夥伴。

正是基於這樣的願景,雲知聲在不斷提升山海大模型自然語言處理能力的同時,也在積極發展多模態能力。在CVPR 2024開放環境情感行為分析競賽中,雲知聲一舉奪得了人臉情緒辨識(Expression Recognition)、復合情緒辨識(Compound Expression Recognition)、情緒模仿強度估計(Emotional Mimicry Intensity Estimation)三個賽道的季軍,展現出卓越的情感分析能力。

未來,隨著多模態的深入發展,山海不僅能說能聽會看,還將拓展即時語言轉譯、面部情緒分析等更深入的多模態能力,全方位滿足人們工作、社交、娛樂等多樣話需求,成為生活中不可或缺的一部份。