國產3D虛擬人版【Her】「殺向」杜拜

2024-10-20科技

衡宇發自 Gitex 量子位 | 公眾號 QbitAI

好久沒出門，AI產品的世界已經快進到這個樣子了？

在全球三大IT展之一的GITEX GLOBAL 上，量子位在某個展台，先後體驗了和Chatbot聊天、用AI建立屬於自己的3D數碼人形象、和3D形象即時語言、肢體互動。

也就是說，【Her】有了3D虛擬人版。

旁邊的展商過來神神秘秘說了句：

看上去是三個功能體驗，但以後，這三個功能在產品裏是要合並到一起的。

量子位還沒反應過來，展商又補了一句：

創立這些數碼形象，是希望以後使用者下線後，ta們的數碼形象還能接著在社區裏幫ta們聊天，減少自己聊聊到不合適的好友浪費時間的情況。

啊……這……我……行吧，有了AI，和人聊天都有預制版了。

如果我說這家展商是個中國公司，也許不少朋友立馬能猜出來。

沒錯，它就是Soul 。

量子位在現場拉著Soul的工作人員大聊特聊了一番，其中不僅僅有Soul AI某子板塊負責人和他的組員，還被量子位捉到了這家公司的CTO陶明。

△Soul CTO陶明

這麽好的機會，那還等什麽？體驗完展台互動，直接再安排庫庫一頓聊。

Gitex展會，Soul它Show了啥？

整個Soul的展位上，主要互動區擺著三塊體驗螢幕。

面向展位從左至右，分別可以體驗：

左邊螢幕：與自己建立的3D數碼人流暢互動中間螢幕：建立能語音文本對話、多語言交流的逼真3D數碼人形象右邊螢幕：和聊天機器人語音或文本聊天

量子位在這個展台前站了很久，發現在此駐足的人，更喜歡體驗左邊和中間的兩個功能。

而且大家去Soul展台體驗，仿佛有一個無形的規則，那就是選擇先在中間的螢幕前探索Soul的即時3D建模功能。

掰開了講，那就是現場拍一張體驗者的照片，在幾秒鐘的時間內，透過分析90多個面部形狀參數和6個內容參數，快速重建虛擬的面部特征，完成虛擬3D形象的生成。

然後，體驗者就可以與3D形象對話了。

但光有語言的交流還不夠——

到這個時候，大家就會（不自覺地）挪到左邊那塊螢幕前面。

螢幕上也是自己創造出的虛擬3D形象。基於即時的人體動作辨識、數碼還原以及多模態對話互動能力，現場可以實作3D虛擬人與真人的沈浸式互動。

多沈浸呢？由於配備了即時運動跟蹤，你可以說一些話or擺動身體、四肢，來與螢幕那頭的ta低延遲互動。

值得多提一嘴，得益於Soul自家多模態AI模型在背後的支持，這兩個螢幕承載的AI體驗，允許語音、文本和物理互動同時進行。

AI社交，場景、模型的認知與感知都很重要

盡管這家公司已經推出了Soul海外版，但參加本次Gitex，其實是Soul在海外展會上的第一次亮相，

「從體驗層面來說，海外產品希望給使用者端創造更好的黏性。」Soul CTO陶明解釋道，「主要還是以Soul這個主平台，來傳遞我們關於AIGC+社交的概念。」

陶明表示，以他所見，AI+社交這條賽道，無論國內外市場，都要有兩個必要條件。

一，是要持續地繼續往前發展。

二，是探索的場景和業務，其實作在還不是很明朗。

而Soul擁有的，是「人機對話」這個基礎點（或者稱為原子能力）。

在Soul的理念中，因為使用者和業務之間其實存在鴻溝，所以要做的事不是把原子能力直接推向使用者，而是要建一個AI being和Human being共存的社區。

單點的聊天會在這個社區發生，但是社區無法靠單點聊天維持，「大模型六小強做的一些AI聊天產品，都有支持單點聊天的能力，但持續的聊天難以為繼，這就是因為任何AI不在場景裏，人機單點聊天其實門檻很高。」

Soul更希望打造不同的場景（比如語聊房），利用一些規則和策略，讓人和AI在一起社交，過程難辨真人還是AI。

這裏的社交不會局限在聊天這一件事情上，AI NPC和真人使用者共同做同一件事，也很容易構建彼此之間的連結。

如陶明所說，Soul的AI+社交理念，最基礎的一點是「必須要保證人和AI在同一時空下」。類似於現實世界和現實世界的仿真，人和人的仿真對AI和人建立聯系非常重要。

「如果只是單純聊天這件事，不太成立……一定要要發現場景，才能夠說能讓使用者有更好的體驗。」

這一方面，Soul是怎麽基於理念來設計產品的呢？

舉幾個例子。

第一個

，在人和人、人和AI的互動過程當中去打造更多的場景。

比如使用者和AI聊天，你發一張照片讓它知道你感冒了，然後就能圍繞感冒這個話題繼續對話，而不是非要硬找話題。

第二個

，和AI語音通話時，它聽到你周圍的環境音，判斷你在咖啡館或者音樂派對上，話題也能自然而然地展開了。

這就不難理解為什麽Soul在大模型方面堅持GPT-4o的方向，因為團隊認為一個AI，應當具有統一的感知能力和認知能力。

純有認知能力，並不能給使用者帶來價值，因為使用者是希望被感知到的。

而o1的方向同樣重要，因為o1加強了大模型的認知能力，其實就能給使用者帶來很好的體驗。

社交平台做AI【Her】會有什麽不一樣嗎？

在社交平台這條賽道上，Soul是絕對的頭部梯隊玩家。很多人不知道的是，它也是國內最早將AI融入社互動動的平台之一。

App上線之初，Soul就開始搭建一些AI能力的基礎建設，兩個基於AI的引擎。

一個是靈犀引擎，基於Soul使用者站內全場景畫像的智能推薦系統，透過AI技術，持續挖掘有效特征，透過演算法方式提高使用者在內容方向的消費和互動體驗，提高使用者建立關系的效率和質素。

另一個是NAWA引擎，為集AI、渲染與影像處理於一體的整合化SDK，提供AR影片技術、基於多模態感知與驅動的互動技術和基於重建的虛擬形象技術，能夠輸出包含Avatar表情驅動、美顏美妝、卡通化等數十種影像處理與2D/3D渲染能力的引擎。用它建立的個人化3D頭像表現力更強，還能動起來。

2020年（ChatGPT掀起大浪之前），Soul就開始啟動對AIGC相關的演算法研發工作，並在智能對話、影像生成、語音&音樂生成等方面有了能力積累。

Soul在多模態領域發力很早，2023年Soul就推出自研垂類語言大模型Soul X，垂直套用於平台上多元社互動動場景。

例如智能對話機器人「AI茍蛋」、AI輔助聊天、虛擬陪伴等諸多工具和功能什麽的。

△在Soul上開啟AI輔助聊天

當時的Soul是這麽說的：

AIGC帶給社交的不僅僅是互動效率、互動質素和互動體驗的提升，同時以智能體和虛擬人為代表的互動物件也在發生變革，這意味著社交出現代際的叠代，社交的範圍也會被重新定義，社交產品的形態也在發生改變。

今年，Soul持續開搞「AIGC+社交」。

目標很明確：

在有技術能力基礎、有使用者實際需求、認準「模應一體」方向的情況下，推動AIGC和社交場景的深度融合。

Soul推出了最新的端到端多模態AI模型，該模型整合了文本、語音和視覺互動，具備超低延遲、聲音擬真、情緒感知等特點。

端到端尤其顯著地降低了聊天的延遲。

陶明披露，Soul現在的語音對話延遲不到200毫秒，「這不再像以前那樣是一個連續的過程，我們首先生成文本和影像，然後將它們轉換為語音。現在，我們將語音和 NLP 統一到一個整合流程中，從而消除了滯後問題。」

而同時期的「數碼孿生」功能，則允許使用者根據過去的互動或自訂設定，建立自己的個人化虛擬版本。

現在，剛剛在Gitex上秀了一把的Soul，又快宣布自己的新進展了。

陶明表示，預計到了11月，平台將推出全雙工影片通話能力， Soul的AI NPC就能「看得見了」。

也就是說，下個月，使用者們就能在Soul裏即時和AI的影片聊天了，對方還是有形象、有表情、有記憶，會對前幾天不經意咳嗽過一句的你，說感冒好了沒有的那種。

這就很【Her】！

之前國內外很多團隊都發過各種版本的【Her】，但這次的期待有所不同——

不是在期待語音是否最逼真、延遲是否最低，口型是否對得最好，而是期待，加入AI元素的社交平台公司，熟諳搞社交那一套，在這個人機互動的產品/功能上，會不會有特別的設計。

不過時間還沒到，只有先期待一波咯～

關於Gitex

Soul參加的這個海外展會，GITEX GLOBAL全球三大IT展之一，本周五在阿聯酋杜拜落下帷幕。

這是第44屆GITEX GLOBAL，不出意外創下新高，規模迄今為止最大：

吸引了超過6500家參展商、1800家初創企業、1200名投資者以及來自180多個國家的政府參與。

連杜拜王室也組團蒞臨現場視察……

這陣仗，讓本來就肩膀挨著肩膀的場館現場更是水泄不通了。

盡管如此，量子位還是拿出go shopping的激情，在二十幾個展館裏一個挨一個地認真逛。

終於，不僅打卡了很多中國企業出海來參展的展台，比如阿裏、華為、騰訊、塗鴉智能、普渡機器人等等；

也看到了全球範圍內很多AI公司的身影出現在現場，比如英國AI獨角獸Builder.ai（對沒錯，背後微軟支持，但創始人一直官司不斷的那家）、中國的智譜華章等。

當然，如果對電子方面感興趣的朋友們，一定會逛得更快樂，現場連表情最豐富的機器人阿美卡和小鵬的飛行汽車都有，還有很多沒太看明白設計（但中東土豪們肯定喜歡）的飛行器。

不簡單啊不簡單。