當前位置: 華文世界 > 科技

對話躍然創新:把大模型做到毛絨玩具上,一個AI界的泡泡瑪特就出來了?

2024-09-05科技

找不到商業化落地場景的Agent+一個簡單的Wifi音箱+兒童喜愛的毛絨玩具,這三個看起來都平平無奇的元素,加在一起能產生什麽化學反應?

躍然創新把它做出來了,而且1個月賣了1萬多台。

這個掛在小熊玩偶上的「彩色泡泡」名叫BubblePal,從硬件形態上看像一個可愛版的AI Friend,小朋友可以自由選擇泡泡背後的角色是愛因斯坦、艾莎公主還是孫悟空等等耳熟能詳的動畫角色,捏住泡泡就能與其對話;家長在後端透過手機APP能夠獲取對話的全部內容,以此來了解3-6歲小朋友的成長和心理健康動態。

就是這樣的一個簡單的「泡泡」,幾乎巧妙地避開了如今圍繞著 AI 的所有難題。

基座大模型能力還不夠用?容易出現幻覺?Agent不夠像?使用者沒有付費意願?

對於根本不知道ChatGPT、Claude還是Kimi的小朋友和家長而言,在兒童提問的場景下,模型能力已經完全超出預期,甚至幻覺也可以當成是一種加分項和娛樂。而在毛絨玩具市場裏,IP聯名本身就已經是成熟的商業模式,Agent有了天然的落地場景。

「上線當周,我們後台收到了大量訂單咨詢,家長反饋特別強烈。我們沒想過能賣得這麽好,更沒想過的是,我們的日tokens呼叫量正在成倍地往上漲,上線兩周,單日tokens 消耗達到了2億,現在每日 tokens消耗已經超過了4億。」躍然創新創始人李勇告訴我們。

李勇透露,BubblePal的研發時間僅僅用了9個月,在開售不到1個月的時間裏,器材已經有效啟用了超過1萬台,以399元一個的產品定價,GMV超過400萬元,「今年預計銷量8萬台,從目前的銷售情況來看,應該比較樂觀。」

「為什麽要做一個泡泡,而不是把它做在毛絨玩具裏面。」我們問道。

「兩個都要做,先做泡泡是因為,內建在毛絨玩具裏,IP方稽核周期比較長,產品要年底才能上線。泡泡相對來說研發周期更短一些,也能挖掘一部份存量市場。」李勇講道。

在接近3個小時的對話裏,李勇多次提到「活著」,作為一名創業老兵,他曾經跟隨羅永浩在錘子科技追求過理想,也被現實的商業世界逼到過墻角,2023年公司一度瀕臨破產,這讓他的思考變得十分務實。

從商業模式出發,BubblePal本質上是一款面向兒童的消費電子,唯一不同的是接入了大模型的能力。

李勇毫不避諱表達「我們是套用公司,不是大模型公司,沒有太高的技術壁壘」「做毛絨玩具就是為了和大廠錯位競爭」「硬件配置和智能音箱相似,並不復雜,所有計算都是在雲端完成的,這樣才能控制成本」。

他甚至坦然承認「顛覆性的硬件,我們也很期待,但我在天貓精靈的工作經歷讓我明白,產品做出來是一方面,教育市場才是難關,發明新品類不適合一個資源有限的初創公司去做。」

在當下這個階段,顛覆式的創新硬件固然看起來更吸引人,但回歸商業本質,賺錢才是硬道理。

以下為對話實錄:

技術不是壁壘,現在不是,以後也不會是

矽星人:現在的技術架構是什麽樣的?用了誰家的底模能力?

李勇:就是孩子按一下我們的BubblePal產品開啟對話,然後我們把語音轉成文字,透過我們的兩層模型生成相應的結果,再輸出語音給孩子。

這兩層模型是底層的通用大模型+垂直小模型的結構。通用大模型我們國內主流的幾家都在合作,MiniMax、豆包、智譜都有,現在主要用的MiniMax。此外,因為我們在海外也發售,國外接了GPT等幾家大模型,然後垂直小模型是我們自己基於Llama 2的開源模型fine-tune的。

在實際互動過程中,我們會用自己的小模型來辨識使用者意圖,會把這些具體的問題,分發給不同的通用模型。

比如我們即將上線的AI兒歌功能,測下來,感覺MiniMax的效果不錯,就接的他們。大致功能是,孩子對話的時候說,給我唱首歌吧,然後我們的AI就會創作一首歌曲。這個音樂或者兒歌,是孩子的 AI Friend基於他們共同的記憶、喜好,給孩子生成的。就和現實生活中,孩子的朋友陪伴一起唱歌、一起玩音樂遊戲的體驗一樣。

矽星人:國內大模型基本上都接了,為什麽現階段主要用MiniMax?你們用下來,不同的大模型之間有什麽區別嗎?

李勇:其實,各家效果上都挺好的,兒童場景用肯定都夠用了,因為我們最早選擇做AI兒童產品,就是基於大模型的幻覺是可以在兒童天馬行空的對話場景下被接受的,畢竟兒童對話中資訊密度和準確度的要求沒那麽高。

現階段用MiniMax 比較多是因為他們對我們的支持好,給了我們早期使用者很多免費 tokens 額度,我們也是MiniMax官網上客戶墻展示的唯一一家創業公司。因為我們產品上線一個月,單日tokens 消耗就超過 4 億了,也給了他們一個驚喜。

矽星人:整個token呼叫量這麽高,是因為小孩真的愛玩,還是剛上線他新鮮,玩了一段時間就不感興趣了呢?

投資人也經常問我這個,確實大部份玩具都是孩子玩著玩著就不愛玩了。但我認為有兩個核心原因,第一是是孩子長大,興趣點和喜歡的玩具會變化,第二是玩具的功能太簡單,孩子很快掌握後,就失去了新鮮感。

但 BubblePal上線一個月,使用者活躍度非常好,使用者平均每天使用時長超過了 30 分鐘。一個原因是,孩子在成長過程中,每天就是會有無窮無盡的困惑,現在的大模型可以回應孩子的每一個奇思妙想;另一個是孩子們沒有手機,他們最多只有手表、智能音箱這種冰冷的工具。今天我們把大模型功能放在他們最喜歡的一個卡通角色裏,那孩子不就瘋了嗎?比如,我們最近剛上線的孫悟空角色,有同事的女兒中午午休玩了一中午不放手。

矽星人:你們的小模型有什麽能力?除了辨識使用者意圖,還有其他功能嗎?

分發只是一方面。簡單的說,通用大模型主要是負責計算和推理的,而小模型是負責把通用模型的結果轉換成適合給孩子的內容的,這裏面涉及三個方面的處理。

第一,我們在小模型裏封裝了一層跟孩子對話的Agent的一系列prompt,讓AI的回答更貼IP角色的人設。

舉個例子,當我們問通用大模型什麽是量子纏結,它會一本正經地回答百科內容,但我們的產品,假設家長設定的Agent是AI小豬佩吉,那麽它就會以小豬佩吉的口吻來解釋什麽是量子纏結,「就像我和我的弟弟喬治,雖然它躲在沙發背面,我也能感知到他。」

第二,是把回答調整得更加情緒化。我們可以按照客觀還是主觀、理性還是情緒化,把大模型的表達分成四個象限,那我們肯定是第一象限,非常主觀+情緒化,但通用大模型是第三象限,理性+客觀,因為他要取最大公因數。所以在實際互動過程中,就需要我們的小模型用口語化的高質素數據集,來訓練情緒。

第三,是長期記憶的部份,比如,當孩子問,我上一次跟媽媽吵架是什麽時候?我上一次去遊泳是什麽時候?我自己的小模型透過查詢向量數據庫就可以直接輸出,不需要呼叫通用大模型。

矽星人:國內很多 AI 對話app也在做IP角色,但好像都不像,你們的Agent和IP角色足夠相似嗎?這點難不難做到?

李勇: 不難,很多App不像,是因為大部份他們沒必要做得很像。

Character.AI的佛祖、喬布斯、蘇格拉底都非常像了,可惜公司也賣了,光靠使用者訂閱充值的商業模式是撐不起來的底層的訓練和Token消耗的。

除非像我們一樣,做一個硬件,而且硬件產品有足夠多的利潤去支撐模型的最佳化,因為對消費者來說,為硬件付費是一個很自然的事情,我們有動力去持續叠代。

矽星人:那記憶的部份呢,是用向量數據庫加RAG的解決方案?

李勇:對,這份是基於開源做的,我們沒找到現成的方案,如果有好用的現成的,我們也不介意直接用。

矽星人:推理和計算是通用大模型,垂直小模型是開源模型封裝了一套成熟的prompt,那會不會有人質疑你們的技術壁壘?

李勇:是有人質疑,我都說我們沒有技術壁壘,用了很多開源的專案。但 我們是大模型套用公司,我們要做的是呼叫大模型的能力更好的實作使用者需求。 所以還是要感謝這些開源專案和大模型公司,讓我們站在巨人的肩膀上,只不過我們的團隊有產品能力和技術的整合能力,把它們放在一起。

別總盯著「AI圈」,才能找到PMF

矽星人:你說的產品能力具體體現在哪? 沒有技術壁壘,有產品壁壘麽?

李勇:首先,我們開發了一個APP,它不僅僅是用來聯網的,家長還可以透過它檢視孩子的聊天記錄。我們每周會為家長提供一份成長報告。舉個例子,如果我為孩子報名了舞蹈班,但這周我發現孩子並沒有談論舞蹈,而是聊了十次足球,我就能發現孩子的興趣所在。

其次,家長還可以在APP裏還切換角色,目前我們已經推出了幾十個角色,當然家長也可以自己建立,比如小豬佩吉、艾莎公主、庫洛米等等。現在大概每周都會不定時更新一些角色吧。

然後,在家長首次登入賬戶,選擇角色時,我們還設定了角色標簽,就是一個prompt,讓家長根據孩子的特點,調整角色的對話主題和目標。比如說,我家孩子比較內向、膽小,我就設定讓AI多鼓勵孩子,多講一些關於勇氣和冒險的故事等等。

因為每個孩子都是獨一無二的,每位家長對孩子的期望也不同,假設兩個家長都在用孫悟空的角色,透過設定不同的prompt和對話,幾個月後,兩個孩子的孫悟空表現得也會不同。

矽星人:即時聊天記錄,那這個有點像一個給大人打小報告的角色,你們有考慮過私密問題嗎?

李勇:會有些使用者擔心私密問題,但我們的產品主要面向3到6歲的兒童,3~6歲的孩子本身就非常依賴父母引導,而大模型又是一個新事物,有些家長會擔心大模型會對孩子產生不良影響,為了讓父母放心,最好的辦法就是公開透明給家長。

矽星人:產品的設計裏有很多你們的洞察,大家都很愁 AI 的能力用在哪,你們覺得這是個問題麽?

李勇:我們可能是第一個破圈的AI硬件產品。之前所有的AI硬件,比如Meta的眼鏡、AI Pin、Rabbit R1,這些產品產品的早期使用者都是科技圈的,但我們不是,我們的產品購買者都是年輕的媽媽,很多家長根本不知道什麽叫AIGC、大模型,甚至很多使用者在買回去後不會聯網,但他們是真的有需求、感興趣。

找到家長和兒童的場景之後,技術能力就是根據他們的需求走。

比如根據大模型能力的變化,GPT-4o有了端到端語音能力,那我們可以減少延遲,讓使用者端的語音情緒能完全保留下來;模型端一旦具備了連續對話能力,我們還可以做多智能體。 毛絨玩具的復購率很高,三歲的時候給孩子買了孫悟空毛絨玩具,五歲的時候又買了愛因斯坦毛絨玩具,因為繫結的是同一個賬戶,那麽孩子跟孫悟空已經聊了兩年了,這兩年的記憶就可以自動同步給新的愛因斯坦毛絨玩具。

而且玩偶打通了之後還可以幹嘛呢?我們就可以開啟「反斗奇兵」的多智能體模式。孩子可以讓孫悟空扮演船長,愛因斯坦扮演大副,三個人一起去冒險,我們在雲端設定一個虛擬Agent去調配這兩個角色,當孩子說了一句話之後,虛擬Agent就直接決定接下來輪到誰說話、說什麽內容,沈浸式過家家。

如果你身邊有小孩子,你就會發現,他們天然喜歡做這件事,平常一個人在家就喜歡拿著一堆娃娃、玩具擺來擺去地講故事。

矽星人:做反斗奇兵 ,不停復購好有意思 。我們和很多 AI 套用的創業者聊過,大家都說技術沒有壁壘,套用的壁壘是使用者網絡效應,或者使用者使用量的滾雪球效應 ,使用者遷移成本是你們的壁壘嗎?

李勇:我覺得是的。壁壘是使用者的記憶。孩子如果他們在三四歲時就接觸我們的產品體系,把珍貴的童年記憶和情感寄托留在我們產品裏,即使未來別人也做出 AI毛絨玩具,那麽孩子們的童年不會重來一遍。

我不知道你們發現沒有,哪怕網絡再發達,在人類歷史上,有關兒童早期與朋友的交流數據都是缺失的。我們不知道孩子會抱著TA的毛絨玩具聊些什麽,我們也不記得自己小時候那些天馬行空的奇思妙想。但現在,透過我們的器材可以做到了。雖然我還不知道這些數據具體的商業化意義,但當你已經18歲了,甚至 80 歲了,還能回憶起三四歲時那些不靠譜的、奇思妙想的東西,這不是很美好麽?

和一切「錯位競爭」

矽星人:你們的硬件是怎麽做的?有 AI 硬件創業者說過,最困難就是把硬件造出來,因為這是一個全新的東西,需要單獨開模,但產品很難倒推供應鏈 做改變 ,這個問題在躍然創新上有發生嗎?

李勇:沒有。我在硬件行業 19 年了,硬件方面這次沒有踩坑,相對於我之前做過的手機、XR 硬件,其實我們硬件參數很簡單,就是一個Wi-Fi音箱,算力都在雲端,硬件方案非常成熟、穩定。我們的供應鏈合作夥伴也是當年天貓精靈的合作夥伴,我對這個供應鏈的成本也非常熟悉了。

矽星人:今年的 AI 硬件一直很火,有人做R1、AI Pin、AI Friend,你為什麽選擇做AI毛絨玩具?

李勇:2017 年,我在做天貓精靈的時候,就從後台看到了孩子對語音互動的興趣,成年人覺得 AI太幼稚,但孩子能聊幾個鐘頭。所以我就一直想做AI硬件+兒童的產品,大模型就出來以後,把很多我以前想做的角色扮演、連續對話的功能都實作了,我們就在想做一款大模型兒童硬件。

至於為什麽是 AI 毛絨玩具,是我們 思考了很久,找到的最優解

第一個原因,我吃過一次虧了,我知道一定要跟巨頭錯位競爭。創業公司資源有限,就要看什麽是巨頭不做的AI硬件呢?在推演的時候發現,工具類的 AI硬件,大概率科技巨頭們都會做,所以我們只能做他看不上的情緒價值賽道。比如你能想象做手機和車的小米自己做一個毛絨玩具品牌嗎?

矽星人: 即使是情緒類的, 他們 更想做 AI 機器狗 吧?

李勇:對,因為大廠會思考做戰略性、顛覆性的東西。類似AI Pin這些穿戴器材,我覺得很酷,未來也可能有我想不到的 AI硬件形態出現,但這都不是我現階段考慮的事情,這也是我年做天貓精靈得出的經驗, 音箱原本是不能說話的,我們做智能音箱,讓它能說話了,我就要教育市場, 告訴使用者,一個音箱如果可以語音互動了體驗會怎麽樣,你 知道花了多少精力和錢嗎?

我現在是創業公司,沒那麽多錢,錢只夠讓產品做出來,沒有幾千萬、幾個億教育市場。

但毛絨玩具不一樣,在孩子們眼裏,毛絨玩具本身應該會說話的,甚至是有生命的。

還有,第二個原因就是大模型在什麽時候表現最好?就是你給他一個明確的角色的時候,而AI毛絨玩具恰好就有一個明確的角色。

矽星人:聽起來像是你疊Buff疊出來的idea。

李勇:我覺得核心是跨界。一般做硬件的、AI 行業的,可能離情緒價值比較遠,他們想的是機器人、故事機、學習機、音箱。我算是一個比較理性的人,但我們團隊女性員工占百分之七十,產品負責人、設計負責人、行銷負責人等核心崗位都是年輕的媽媽,如果我們是一個科技直男的團隊,我們可能也做不了。

矽星人:決定做 AI 玩具之後,你們設想的形態是哪個, 是這個塑膠泡泡,還是 之後要做的 一體化的AI玩偶?

李勇:我告訴團隊都要做,先做這個泡泡,再做內建AI硬件的毛絨玩偶,原因很簡單,因為我得先活下來。

這兩款產品在技術研發上是差不多的,區別就是完整的毛絨玩具我們找了很多國際一線的IP聯名,而IP方稽核很慢,可能要幾個月時間。我當時算了一下,那得到年底產品才能上市。

矽星人:所以這是一種退而求其次?

李勇:如果我有足夠多的錢,我確實直接做完整的AI 毛絨玩具就完了,因為它更有革命性。

但如果資源有限,我就要先做泡泡。因為孩子們是有存量需求的,就是他們本身就有喜歡的玩偶了,甚至很多孩子還有一種阿貝貝舊物依戀癥,那麽泡泡就是一個很好的解決方案,買回去直接掛在喜歡的玩偶上,就可以和心愛的玩偶聊天了。

矽星人:因為你們在做一個全新的產品,在泡泡的設計上,你們是怎麽思考的,為什麽要做成這樣?

李勇:花了很多小心思,比如形狀,大小,我們經過好多調研。最理想的狀態是更小一點,甚至可以縫在孩子們的玩偶上,不用掛。但技術還做不到,電池續航和散熱都是問題,我們現在期望家長一周充一次電,所以是現在這個大小。

目前這個外觀設計是一個泡泡,童話裏,泡泡代表魔法和夢幻,掉落到床頭的毛絨玩具身上,就可以讓毛絨玩具開口說話;另外泡泡也代表了對話的含義,你看微信的圖示就是兩個氣泡,代表這是一個語音互動的產品。

矽星人:那為什麽是捏一下,不是直接語音喚醒呢?畢竟你們之前做的天貓精靈也是語音喚醒的。

李勇:天貓精靈這種遠場互動的固定在一個地方的產品,用語音喚醒是最順應使用者習慣的,而隨身攜帶的、單手可以握持的小產品,最好還是和微信一樣,按住說話,這樣效率更高。另外也是考慮電池續航的使用者體驗。

做一個AI界的泡泡瑪特

矽星人:之後會和這些IP做聯名玩偶嗎,還是會自己做IP?

李勇:我們下一個新品就是和小豬佩吉以及德國的一個老牌玩具品牌Steiff史戴芙合作的,我們把AI硬件內建在他們的毛絨玩具裏,之後還會繼續做聯名。除此之外,我們也會自己做IP,現在已經有和一些獨立設計師合作了。

因為毛絨玩具品類是這個樣子的,現在增速很快,背後是情緒價值崛起的大趨勢。但全球排名前十位的毛絨玩具沒有一個中國品牌,這也是我們的機會。

矽星人:所以你們會和一些大IP公司一起做 AI 玩具,問題是作為一個創業公司,大IP為什麽要跟你合作?

李勇:這還得疊一個Buff,我之前做天貓精靈的時候,跟全球的20多個一線IP都合作過,所以有這些資源,這個也很重要,因為在玩具行業,這麽多年來,使用者購買的第一決策要素就是IP。

除了和國際一線 IP 廠商的良好合作關系之外,很多 IP 方本身也有擁抱科技、拓寬受眾的需求。

矽星人:那IP聯名的成本高嗎,是你們最大的成本支出嗎?

李勇:那不是的,最大的還是研發。

矽星人:目前的售賣渠道是哪些?表現如何?

李勇:主要是抖音直播間。整個8月,賣出並啟用的產品已經超過1萬台了,我們中間還停了一周,因為上線後,銷量突破預期,我們客服咨詢量實在太大了,主播和客服都沒準備好,緊急招人、培訓客服和主播花了一周。

矽星人:你們接下來的商業化目標是怎樣的?還要研發嗎,還是說接下來重點就在賣貨上了?

李勇:坦白講,第一代產品研發基本完成了,還有就是根據使用者需求在功能上做一些更新,例如兒歌和一些 APP 的功能正在陸續上線中。演算法方面也同步看大模型的發展吧,按照我們的架構,如果端到端語音模型可用了,我們可以隨時上線。明年如果視覺多模態成熟了,我們會進一步投入研發,給玩偶安上眼睛,這個是重磅升級,會有很多互動的場景,我們正在規劃。

商業化上的目標就是在Q4能打平賺錢。我算了一下,大概幾萬台就夠了,目前看這個應該問題不大,年底預計出貨量能達到 8-10萬台。現在我們的抖音渠道剛開始做,海外還沒顧上來,接下來,包括達人帶貨、天貓、京東這些渠道建設都會陸續做。

矽星人:你們雖然是創業公司,但很多商業化的考慮很成熟,這是80後創業者的優勢嗎?

李勇:我是三年前開始創業的,團隊從愛奇藝智能獨立出來,我正好40歲,但剛好遇到了大環境的變化,眼高手低,犯了很多錯,公司差點關門清算了,那之後,我們整個團隊所有人的心態就都發生了變化,對創業、對創造價值這個事兒的理解更深了,對於這次大模型的機會,我們很樂觀,也很謹慎。

矽星人:投資人可能會覺得年輕人的想法,更貼近願意使用 AI 的人群。雖然你們的產品購買者是父母,但大概也是年輕父母為主,你會擔心不理解他們的想法嗎?

李勇:確實有很多不理解,我孩子已經上初中了。但我在公司主要是管研發、供應鏈的,這也是因為我本身就是技術出身的,過去的從業經歷也一直在做硬件。公司的產品是我的聯創高峰在管,他是一個年輕的爸爸,孩子 3 歲多。整個團隊30 人左右,只有 4 個 80 後,95後居多,很多都有海外留學背景,他們確實在情緒價值方面更專業、更有想法,有一些產品定義和設計,基於成本考慮,我就覺得沒必要,但他們從使用者的角度如果很堅持,我往往會聽他們的意見。所以這是一個很綜合、很有凝聚力的團隊,這也是我們三年創業,一起奮鬥建立起來的彼此信任。