就在昨天,科大讯飞首发超拟人数字人,在1024开发者节发布会上,其真实程度让人惊呼,外面的世界已经发展成这样了吗?笔者从未想过用一张照片,竟然直接上传就能生成专属数字人形象。
作为首发「超拟人数字人」,这次功能已经在科大讯飞旗下的讯飞智作产品上开通了内测通道。只要通过内测二维码,即可申请构建超自然的专属数字人形象。
要知道,过去的数字人定制,一直面临着三大挑战:费用高;定制周期长;交互存在延迟。
而这一次,只要在讯飞智作上传一张照片,你的专属数字人便跃然眼前。
那么问题来了,这次讯飞智作内测开放的「超拟人数字人」到底有什么突出亮点?
直观感受是:我们即将迎来人人拥有数字人的时代。
便捷个性定制,打造专属形象
仅需上传一张照片,就能瞬间拥有自己个性化虚拟形象的体验,这是笔者此前从未想过的。这或许是数字人从B端走向C端的关键技术创新。
当下数字人随处可见,虽然形象及使用场景逐渐多元,但公版形象在个性化上仍存在不足。
定制一个个性化的数字人往往需要长时间的数据采集流程,而且在录制过程中对于定制者的表情变化和动作表达有较高的要求。
而在此次讯飞智作开通的超拟人数字人的内测通道里,咔嚓拍摄一张照片,大模型就能自动生成驱动口唇、表情、动作,并充分匹配上传文本。
以往的数字人定制数据采集需要专门的制作团队制作数月,在这之后,还需要专业的技术人员专门进行调优。而讯飞智作内测通道里,由一张照片就能生成的超拟人数字人极大缩短了数字人定制的周期,让普通人拥有专属的数字形象成为可能。
讯飞智作小程序内测页面
面部情感丰富,表达更灵动
此前,笔者总是感觉数字人表情很生硬。面对问题,数字人似乎在对着我们读课文。但这次在讯飞智作上测试的超拟人数字人,表情变化及情绪反馈让人眼前一亮。
无论问她什么,超拟人数字人都做到变化自如,基于问题变化,情绪及表情反馈仿佛如真人一般。在1024开发者节发布会现场,超拟人数字人还可以现场卖萌。当听说自己刚刚的表现被几百万人看到,她会立刻呈现吃惊表情。
超拟人数字人1024讯飞开发者节现场卖萌
为了搞清这次超拟人数字人为什么如此通人性,笔者查阅很多资料后发现,主要是因为它采用的是大语言模型(LLM)的多模态交互技术,贯穿文本、语音和数字人,这种情感贯穿的多模态交互不仅是口唇同步,更能感知情绪波动,让表达更灵动。
实时可交互,响应时间快
不知道大家有没有发现,之前我们和很多数字人交流沟通的时候能把人气个半死。有时候它听不到你的声音,有时候又答非所问。如果你在它说话的时候突然打断它,它甚至会已读乱回。
但这次在讯飞智作内测的超拟人数字人,交互的快速响应着实让人眼前一亮。即使随时打断、插话,超拟人数字人依旧能做到秒回,这个快速反应能力,感觉胜过好多真人。
在1024讯飞开发者节发布会现场,讯飞研究院院长刘聪尝试让超拟人数字人针对镜头识别的化妆品给一些意见,超拟人数字人立刻识别眼霜的品牌、功效,甚至在刘聪院士选择买大瓶装的时候还能立刻提出「那可不是眼霜哦,那是人参面霜,用来滋润面部皮肤的」。
超拟人数字人1024讯飞开发者节现场片段
此次讯飞超拟人数字人采用了动作表征抽取技术,将视频维度进行了有效压缩。正是这种技术的加持与创新,才让此次在内测体验时感觉和一个朋友在一个空间沉浸交流。
而这次在讯飞智作上进行内测体验一张照片生成超拟人数字人时,笔者还顺带体验了讯飞智作整体产品。除了定制自己的数字人形象,还有一句话复刻声音、AI配音、AIGC内容生产等诸多功能,可以高效解决很多需要音视频的场景需求,期待之后会有更多的技术创新。