近日,財(cái)聯(lián)社專訪湯姆貓董事長(zhǎng)朱志剛,以下是此次專訪內(nèi)容:
15年前,一只“會(huì)說(shuō)話的貓”在智能手機(jī)屏幕上迅速走紅,以輕巧幽默的方式定義了智能手機(jī)時(shí)代“人與虛擬角色互動(dòng)”的基礎(chǔ)范式。如今,這只風(fēng)靡全球的虛擬形象正在以AI情感陪伴機(jī)器人的全新身份,試圖重構(gòu)一個(gè)巨大的潛在市場(chǎng)。
“湯姆貓AI機(jī)器人的應(yīng)用場(chǎng)景是現(xiàn)實(shí)存在且十分明確的,那就是實(shí)現(xiàn)對(duì)人類更好的陪伴與情感交流?!苯冢瑴坟埗麻L(zhǎng)朱志剛表示,湯姆貓致力于成為全球最會(huì)聊天的AI機(jī)器人。
從“會(huì)說(shuō)話的湯姆貓”到“會(huì)聊天的湯姆貓”,不只是單純的產(chǎn)品迭代,更是一次關(guān)于技術(shù)溫度和情感連接的重構(gòu)。在大模型技術(shù)不斷發(fā)展的背景下,作為IP持有方的湯姆貓公司正推動(dòng)一次底層戰(zhàn)略轉(zhuǎn)型:從以內(nèi)容和互動(dòng)為主的數(shù)字產(chǎn)品,躍升至“硬件+內(nèi)容+服務(wù)”構(gòu)建的AI陪伴版圖。
情感為基,重塑AI陪伴“剛需”
湯姆貓的進(jìn)化不是偶然。自2010年上線以來(lái),這一IP已累計(jì)獲得超過(guò)全球240億人次下載,全球月活躍用戶(MAU)最高達(dá)到4.7億人次。在朱志剛看來(lái),會(huì)說(shuō)話的湯姆貓定義了智能手機(jī)時(shí)代“人與虛擬角色互動(dòng)”的基礎(chǔ)范式,長(zhǎng)久以來(lái)用戶對(duì)湯姆貓的情感連接,不只是娛樂(lè),更是一種輕量級(jí)陪伴的情緒寄托,屬于人工智能的雛形產(chǎn)品。
“但相當(dāng)長(zhǎng)一段時(shí)間內(nèi),自然語(yǔ)言處理(NLP)與人工智能技術(shù)停滯不前,面對(duì)還不會(huì)思考的湯姆貓,公司將‘會(huì)說(shuō)話的湯姆貓’升級(jí)成‘會(huì)聊天的湯姆貓’的愿望,也遲遲難以實(shí)現(xiàn)?!?/span>
ChatGPT橫空出世帶來(lái)的興奮感,朱志剛?cè)杂洃洩q新,這意味著公司長(zhǎng)期探索的目標(biāo)——會(huì)聊天的湯姆貓,距離落地實(shí)現(xiàn)近了一大步。
然而,“會(huì)聊天”不是簡(jiǎn)單地接入大模型即可,接入大模型只是具備了知識(shí)問(wèn)答、內(nèi)容生成的能力,并不具備情感連接。人類聊天有別于其他信息傳遞的本質(zhì)特征正是情感連接。在朱志剛看來(lái),“會(huì)聊天” 的內(nèi)涵,遠(yuǎn)不止于知識(shí)與信息的傳遞,更體現(xiàn)在能讓人收獲積極的情緒體驗(yàn),進(jìn)而獲取珍貴的信任感與歸屬感。
朱志剛介紹,湯姆貓的受眾極其廣泛,比如3-12歲的兒童群體,正處于認(rèn)知快速發(fā)展期,具有強(qiáng)烈的好奇心和探索欲,提問(wèn)和對(duì)話是他們探索世界的重要方式,因此對(duì)即時(shí)互動(dòng)和響應(yīng)有較高的要求。然而現(xiàn)實(shí)是,大多數(shù)父母很難隨時(shí)回應(yīng)孩子“十萬(wàn)個(gè)為什么”的提問(wèn),這正是湯姆貓AI機(jī)器人可以承擔(dān)的角色空位,提供教育與情感支持,成為兒童時(shí)代最快樂(lè)的小伙伴。
針對(duì)老年群體,尤其是獨(dú)居老年人,AI湯姆貓的溫暖陪伴能夠?yàn)樗麄兊娜粘T鎏須g聲笑語(yǔ),幫助他們提升生活質(zhì)量和幸福感,獲得美好的情感慰藉。
針對(duì)自閉癥患者等特殊群體,湯姆貓AI機(jī)器人可用于早期干預(yù)和語(yǔ)言訓(xùn)練,同時(shí)也成為患者在封閉環(huán)境中的私交同伴,是患者信得過(guò)的朋友。
現(xiàn)在的年輕人,也可能遇到生活節(jié)奏快,離家遠(yuǎn),感到孤單需要情緒撫慰的時(shí)候,能隨時(shí)隨地有AI湯姆貓說(shuō)說(shuō)話,也可以緩解壓力??梢哉f(shuō)“人終其一生都在找一個(gè)能說(shuō)話的人?!?/span>
不滿足于“問(wèn)答準(zhǔn)確”,更追求“情感連接”,可以說(shuō),湯姆貓選擇AI陪伴機(jī)器人賽道是一種使命必然。
“當(dāng)情感陪伴垂直模型的細(xì)膩與通用大模型的深邃在湯姆貓交相融合,湯姆貓終于擁有了記憶與思考的能力,人類也將擁有最好的情感與交流的伴侶?!痹诠咀匝械那楦信惆榇怪蹦P屯懂a(chǎn)后,朱志剛即滿懷信心。
情感建模+多模態(tài)交互,打造最會(huì)聊天的機(jī)器人
“為了更精準(zhǔn)地識(shí)別用戶情緒,進(jìn)而提供必要的情感支持,公司與西湖心辰合作開(kāi)發(fā)的情感模型,專注于用戶情緒識(shí)別與長(zhǎng)期記憶功能,能主動(dòng)發(fā)起對(duì)話并根據(jù)歷史交互調(diào)整反饋策略,如根據(jù)用戶情緒狀態(tài)提供安慰或鼓勵(lì)。”朱志剛詳細(xì)介紹了從用戶的需求和體驗(yàn)入手推導(dǎo)產(chǎn)品背后的底層技術(shù)實(shí)現(xiàn)路徑。
相較于通用大模型對(duì)話助手,湯姆貓AI機(jī)器人在語(yǔ)言風(fēng)格和表達(dá)方式上更具擬人化與友好性。比如當(dāng)孩子問(wèn)“黑洞是什么”,機(jī)器人不會(huì)只用晦澀的天體物理術(shù)語(yǔ),而會(huì)說(shuō):“黑洞就像家里一個(gè)巨大的吸塵器……”甚至還會(huì)調(diào)用過(guò)往聊天中提及的寵物話題,回答“量子糾纏就像你家里的貓(雯雯)和狗(厚福),雖然相隔很遠(yuǎn),卻能感受到彼此的存在……”,如此通俗易懂的比喻幫助孩子理解科學(xué)現(xiàn)象的同時(shí)引發(fā)孩子的情感聯(lián)想。
“對(duì)于年紀(jì)小不能完整、清晰的表達(dá)的小朋友,我們首先利用語(yǔ)音識(shí)別技術(shù)(ASR)精準(zhǔn)捕捉兒童模糊發(fā)音與短詞匯,通過(guò)意圖識(shí)別模型了解孩子真正想表達(dá)的內(nèi)容,再通過(guò)大模型的上下文理解與生成能力,給出準(zhǔn)確又有趣的回答。鼓勵(lì)小朋友的每一次表達(dá),逐步培養(yǎng)邏輯性表達(dá)習(xí)慣,解決‘童言碎片化’難題,助力語(yǔ)言能力進(jìn)階?!?/span>
產(chǎn)品還具備情緒雷達(dá)和主動(dòng)聊天功能,通過(guò)語(yǔ)音識(shí)別用戶情緒,并動(dòng)態(tài)調(diào)整互動(dòng)策略,其自主研發(fā)的TTS模型經(jīng)過(guò)數(shù)千小時(shí)的訓(xùn)練,確保輸出的聲音具備IP識(shí)別度和情感感染力。如用戶情緒低落時(shí),湯姆貓機(jī)器人將用“難過(guò)的聲音”進(jìn)行共情并給予安慰,真正發(fā)揮“會(huì)聊天”的陪伴價(jià)值。
在陪伴過(guò)程中,湯姆貓AI機(jī)器人具備短期和長(zhǎng)期記憶的能力,能記住用戶的點(diǎn)點(diǎn)滴滴,并在持續(xù)對(duì)話過(guò)程中調(diào)用記憶內(nèi)容自學(xué)習(xí),越聊越懂用戶,成為用戶越來(lái)越信賴的伙伴。
為進(jìn)一步打造更加真實(shí)的聊天交互,湯姆貓AI機(jī)器人在嵌入式軟件和硬件上同樣做了諸多創(chuàng)新。該機(jī)器人產(chǎn)品可模擬豐富的表情(如眨眼、微笑)和動(dòng)作(如轉(zhuǎn)頭、耳朵擺動(dòng)),與語(yǔ)音內(nèi)容同步呈現(xiàn)擬人化互動(dòng)。例如,當(dāng)用戶表達(dá)悲傷時(shí),機(jī)器人會(huì)呈現(xiàn)“關(guān)切”表情;用戶輸入語(yǔ)音時(shí),湯姆貓機(jī)器人的耳朵會(huì)一上一下,表示其在認(rèn)真傾聽(tīng)。
同時(shí),湯姆貓AI機(jī)器人還是一個(gè)能調(diào)用大模型能力、博古通今的AI助手,其采用了MoE(Mixture of Experts)混合專家模型架構(gòu),具備根據(jù)不同任務(wù)需求選擇最優(yōu)模型組合的能力。朱志剛透露,通過(guò)MoE架構(gòu)結(jié)合外部技術(shù)資源(如豆包、DeepSeek等模型),在意圖識(shí)別等功能上形成補(bǔ)充,該模型架構(gòu)的開(kāi)放性有助于公司持續(xù)構(gòu)建“硬件+內(nèi)容+服務(wù)”的生態(tài)閉環(huán),未來(lái)更好地服務(wù)于不同年齡群體的陪伴需求。
硬件+內(nèi)容+服務(wù),一體化生態(tài)閉環(huán)成形
當(dāng)前市場(chǎng)中,很多AI玩具廠商僅通過(guò)對(duì)接大模型API來(lái)構(gòu)建對(duì)話系統(tǒng),缺乏差異化與持續(xù)運(yùn)營(yíng)能力。而湯姆貓的策略,是將IP內(nèi)容、技術(shù)架構(gòu)與硬件設(shè)計(jì)深度融合,構(gòu)建“硬件+內(nèi)容+服務(wù)”的一體化生態(tài)系統(tǒng)。
從硬件上看,產(chǎn)品采用自主設(shè)計(jì)的嵌入式系統(tǒng)與多傳感器架構(gòu);在內(nèi)容上,公司整合了過(guò)往十余年積累的動(dòng)畫(huà)、音頻、游戲互動(dòng)資源,實(shí)現(xiàn)內(nèi)容聯(lián)動(dòng)與持續(xù)更新;在服務(wù)層面,開(kāi)發(fā)了配套的APP與小程序,支持家長(zhǎng)查看孩子的聊天摘要、識(shí)別情緒變化,同時(shí)保護(hù)隱私,不記錄敏感對(duì)話數(shù)據(jù)。
此外,湯姆貓還特別關(guān)注銀發(fā)用戶群體。在產(chǎn)品中嵌入了健康知識(shí)問(wèn)答、生活提醒等功能,滿足老年人日常陪伴與輔助需求。已有用戶反饋稱:“現(xiàn)在家里有湯姆貓,連我都覺(jué)得安靜的日子變得熱鬧了?!?/span>
朱志剛透露,接下去,湯姆貓將引入更前沿的技術(shù),不斷豐富產(chǎn)品形態(tài)和功能,滿足不同用戶在不同場(chǎng)景下的使用需求,持續(xù)提升用戶體驗(yàn)。例如,通信方式上,將從WiFi+BT向4G Cat1方向演進(jìn);材質(zhì)方面,將從單一硅膠材質(zhì)向毛絨及其他材質(zhì)方向演進(jìn);大模型方面,從云端大模型向端側(cè)大模型演進(jìn),帶來(lái)隱私、安全、低延時(shí)的體驗(yàn);運(yùn)動(dòng)能力方面,從桌面向室內(nèi)自由活動(dòng)方向演進(jìn);打斷方式上,從喚醒詞打斷向語(yǔ)音打斷方向演進(jìn)。
搶灘萬(wàn)億級(jí)AI陪伴賽道,構(gòu)建面向未來(lái)的技術(shù)護(hù)城河
市場(chǎng)機(jī)構(gòu)ARK Invest預(yù)測(cè),到2030年全球AI陪伴市場(chǎng)將從當(dāng)前每年3000萬(wàn)美元躍升至700億至1500億美元,年增長(zhǎng)率預(yù)計(jì)超過(guò)200%。在這條高速成長(zhǎng)的“長(zhǎng)坡厚雪”賽道中,湯姆貓已經(jīng)率先完成技術(shù)、內(nèi)容、交互系統(tǒng)的整合閉環(huán),并實(shí)現(xiàn)了商業(yè)化落地。
朱志剛指出:“AI陪伴賽道足夠?qū)?,一個(gè)萬(wàn)億規(guī)模的市場(chǎng)容得下更多的創(chuàng)業(yè)公司投身其中。作為其中的一家創(chuàng)業(yè)公司,公司憑借全球知名的“會(huì)說(shuō)話的湯姆貓”IP形象,在全球范圍內(nèi)擁有250億的下載,積累了龐大的粉絲用戶,持續(xù)活躍10余年,天然具備用戶認(rèn)知度和親和力。湯姆貓AI機(jī)器人通過(guò)IP人設(shè)強(qiáng)化情感連接,實(shí)現(xiàn)從會(huì)說(shuō)話到會(huì)聊天的天然過(guò)渡,形成與大廠標(biāo)準(zhǔn)化產(chǎn)品的區(qū)隔?!?/span>
在構(gòu)建護(hù)城河方面,公司特別強(qiáng)調(diào)“云端一體”能力。例如在本地設(shè)備端優(yōu)化音頻處理算法,實(shí)現(xiàn)AEC(回聲消除)、AGC(自動(dòng)增益控制)和ANC(主動(dòng)降噪);在云端中間件系統(tǒng)中,構(gòu)建用戶畫(huà)像、關(guān)系圖譜、長(zhǎng)期記憶系統(tǒng)、情緒識(shí)別、TTS獨(dú)特音色,實(shí)現(xiàn)“越聊越懂你”的智能交互體驗(yàn)。
回顧整個(gè)轉(zhuǎn)型路徑,朱志剛表示:“技術(shù)上確實(shí)經(jīng)歷了很多挑戰(zhàn),但我們最終迎來(lái)了人工智能的破曉時(shí)刻。人工智能必將是人類科技發(fā)展史上具有劃時(shí)代意義的、為各個(gè)領(lǐng)域帶來(lái)顛覆性變革的成果,是非凡與無(wú)法想象的。弱水三千,只取一瓢飲,湯姆貓公司將集中力量做好會(huì)聊天的湯姆貓,并以極致親民的價(jià)格回饋客戶,讓每個(gè)人都可以享用會(huì)聊天的湯姆貓。”