當前位置: 華文世界 > 科技

國產3D虛擬人版【Her】「殺向」杜拜

2024-10-20科技
衡宇 發自 Gitex 量子位 | 公眾號 QbitAI
好久沒出門,AI產品的世界已經快進到這個樣子了?
在全球三大IT展之一的GITEX GLOBAL 上,量子位在某個展台,先後體驗了和Chatbot聊天、用AI建立屬於自己的3D數碼人形象、和3D形象即時語言、肢體互動。
也就是說,【Her】有了3D虛擬人版 。
旁邊的展商過來神神秘秘說了句:
看上去是三個功能體驗,但以後,這三個功能在產品裏是要合並到一起的。
量子位還沒反應過來,展商又補了一句:
創立這些數碼形象,是希望以後使用者下線後,ta們的數碼形象還能接著在社區裏幫ta們聊天,減少自己聊聊到不合適的好友浪費時間的情況。
啊……這……我……行吧,有了AI,和人聊天都有預制版了 。
如果我說這家展商是個中國公司,也許不少朋友立馬能猜出來。
沒錯,它就是Soul 。
量子位在現場拉著Soul的工作人員大聊特聊了一番,其中不僅僅有Soul AI某子板塊負責人和他的組員,還被量子位捉到了這家公司的CTO陶明。
△Soul CTO陶明
這麽好的機會,那還等什麽?體驗完展台互動,直接再安排庫庫一頓聊。
Gitex展會,Soul它Show了啥?
整個Soul的展位上,主要互動區擺著三塊體驗螢幕。
面向展位從左至右,分別可以體驗:
左邊螢幕: 與自己建立的3D數碼人流暢互動 中間螢幕: 建立能語音文本對話、多語言交流的逼真3D數碼人形象 右邊螢幕: 和聊天機器人語音或文本聊天
量子位在這個展台前站了很久,發現在此駐足的人,更喜歡體驗左邊和中間的兩個功能。
而且大家去Soul展台體驗,仿佛有一個無形的規則,那就是選擇先在中間的螢幕前探索Soul的即時3D建模功能。
掰開了講,那就是現場拍一張體驗者的照片,在幾秒鐘的時間內,透過分析90多個面部形狀參數和6個內容參數,快速重建虛擬的面部特征,完成虛擬3D形象的生成。
然後,體驗者就可以與3D形象對話了。
但光有語言的交流還不夠——
到這個時候,大家就會(不自覺地)挪到左邊那塊螢幕前面。
螢幕上也是自己創造出的虛擬3D形象。基於即時的人體動作辨識、數碼還原以及多模態對話互動能力,現場可以實作3D虛擬人與真人的沈浸式互動。
多沈浸呢?由於配備了即時運動跟蹤,你可以說一些話or擺動身體、四肢,來與螢幕那頭的ta低延遲互動。
值得多提一嘴,得益於Soul自家多模態AI模型在背後的支持,這兩個螢幕承載的AI體驗,允許語音、文本和物理互動同時進行。
AI社交,場景、模型的認知與感知都很重要
盡管這家公司已經推出了Soul海外版,但參加本次Gitex,其實是Soul在海外展會上的第一次亮相,
「從體驗層面來說,海外產品希望給使用者端創造更好的黏性。」Soul CTO陶明解釋道,「主要還是以Soul這個主平台,來傳遞我們關於AIGC+社交的概念。」
陶明表示,以他所見,AI+社交這條賽道,無論國內外市場,都要有兩個必要條件。
一,是要持續地繼續往前發展。
二,是探索的場景和業務,其實作在還不是很明朗。
而Soul擁有的,是「人機對話」這個基礎點(或者稱為原子能力) 。
在Soul的理念中,因為使用者和業務之間其實存在鴻溝,所以要做的事不是把原子能力直接推向使用者,而是要建一個AI being和Human being共存的社區。
單點的聊天會在這個社區發生,但是社區無法靠單點聊天維持,「大模型六小強做的一些AI聊天產品,都有支持單點聊天的能力,但持續的聊天難以為繼,這就是因為任何AI不在場景裏,人機單點聊天其實門檻很高。」
Soul更希望打造不同的場景(比如語聊房),利用一些規則和策略,讓人和AI在一起社交,過程難辨真人還是AI。
這裏的社交不會局限在聊天這一件事情上,AI NPC和真人使用者共同做同一件事,也很容易構建彼此之間的連結。
如陶明所說,Soul的AI+社交理念,最基礎的一點是「必須要保證人和AI在同一時空下」 。類似於現實世界和現實世界的仿真,人和人的仿真對AI和人建立聯系非常重要。
「如果只是單純聊天這件事,不太成立……一定要要發現場景,才能夠說能讓使用者有更好的體驗。」
這一方面,Soul是怎麽基於理念來設計產品的呢?
舉幾個例子。
第一個
,在人和人、人和AI的互動過程當中去打造更多的場景。
比如使用者和AI聊天,你發一張照片讓它知道你感冒了,然後就能圍繞感冒這個話題繼續對話,而不是非要硬找話題。
第二個
,和AI語音通話時,它聽到你周圍的環境音,判斷你在咖啡館或者音樂派對上,話題也能自然而然地展開了。
這就不難理解為什麽Soul在大模型方面堅持GPT-4o的方向 ,因為團隊認為一個AI,應當具有統一的感知能力和認知能力。
純有認知能力,並不能給使用者帶來價值,因為使用者是希望被感知到的。
而o1的方向同樣重要 ,因為o1加強了大模型的認知能力,其實就能給使用者帶來很好的體驗。
社交平台做AI【Her】會有什麽不一樣嗎?
在社交平台這條賽道上,Soul是絕對的頭部梯隊玩家。很多人不知道的是,它也是國內最早將AI融入社互動動的平台之一。
App上線之初,Soul就開始搭建一些AI能力的基礎建設,兩個基於AI的引擎。
一個是靈犀引擎 ,基於Soul使用者站內全場景畫像的智能推薦系統,透過AI技術,持續挖掘有效特征,透過演算法方式提高使用者在內容方向的消費和互動體驗,提高使用者建立關系的效率和質素。
另一個是NAWA引擎 ,為集AI、渲染與影像處理於一體的整合化SDK,提供AR影片技術、基於多模態感知與驅動的互動技術和基於重建的虛擬形象技術,能夠輸出包含Avatar表情驅動、美顏美妝、卡通化等數十種影像處理與2D/3D渲染能力的引擎。用它建立的個人化3D頭像表現力更強,還能動起來。
2020年(ChatGPT掀起大浪之前),Soul就開始啟動對AIGC相關的演算法研發工作,並在智能對話、影像生成、語音&音樂生成等方面有了能力積累。
Soul在多模態領域發力很早,2023年Soul就推出自研垂類語言大模型Soul X,垂直套用於平台上多元社互動動場景。
例如智能對話機器人「AI茍蛋」、AI輔助聊天、虛擬陪伴等諸多工具和功能什麽的。
△在Soul上開啟AI輔助聊天
當時的Soul是這麽說的:
AIGC帶給社交的不僅僅是互動效率、互動質素和互動體驗的提升,同時以智能體和虛擬人為代表的互動物件也在發生變革 ,這意味著社交出現代際的叠代,社交的範圍也會被重新定義,社交產品的形態也在發生改變。
今年,Soul持續開搞「AIGC+社交」。
目標很明確:
在有技術能力基礎、有使用者實際需求、認準「模應一體」方向的情況下,推動AIGC和社交場景的深度融合。
Soul推出了最新的端到端多模態AI模型,該模型整合了文本、語音和視覺互動,具備超低延遲、聲音擬真、情緒感知等特點。
端到端尤其顯著地降低了聊天的延遲。
陶明披露,Soul現在的語音對話延遲不到200毫秒,「這不再像以前那樣是一個連續的過程,我們首先生成文本和影像,然後將它們轉換為語音。現在,我們將語音和 NLP 統一到一個整合流程中,從而消除了滯後問題。」
而同時期的「數碼孿生」功能,則允許使用者根據過去的互動或自訂設定,建立自己的個人化虛擬版本。
現在,剛剛在Gitex上秀了一把的Soul,又快宣布自己的新進展了。
陶明表示,預計到了11月,平台將推出全雙工影片通話能力, Soul的AI NPC就能「看得見了」。
也就是說,下個月,使用者們就能在Soul裏即時和AI的影片聊天了,對方還是有形象、有表情、有記憶,會對前幾天不經意咳嗽過一句的你,說感冒好了沒有的那種。
這就很【Her】!
之前國內外很多團隊都發過各種版本的【Her】,但這次的期待有所不同——
不是在期待語音是否最逼真、延遲是否最低,口型是否對得最好,而是期待,加入AI元素的社交平台公司,熟諳搞社交那一套,在這個人機互動的產品/功能上,會不會有特別的設計。
不過時間還沒到,只有先期待一波咯~
關於Gitex
Soul參加的這個海外展會,GITEX GLOBAL全球三大IT展之一,本周五在阿聯酋杜拜落下帷幕。
這是第44屆GITEX GLOBAL,不出意外創下新高,規模迄今為止最大:
吸引了超過6500家參展商、1800家初創企業、1200名投資者以及來自180多個國家的政府參與。
連杜拜王室也組團蒞臨現場視察……
這陣仗,讓本來就肩膀挨著肩膀的場館現場更是水泄不通了。
盡管如此,量子位還是拿出go shopping的激情,在二十幾個展館裏一個挨一個地認真逛。
終於,不僅打卡了很多中國企業出海來參展的展台,比如阿裏、華為、騰訊、塗鴉智能、普渡機器人等等;
也看到了全球範圍內很多AI公司的身影出現在現場,比如英國AI獨角獸Builder.ai(對沒錯,背後微軟支持,但創始人一直官司不斷的那家)、中國的智譜華章等。
當然,如果對電子方面感興趣的朋友們,一定會逛得更快樂,現場連表情最豐富的機器人阿美卡和小鵬的飛行汽車都有,還有很多沒太看明白設計(但中東土豪們肯定喜歡)的飛行器。
不簡單啊不簡單。