(网经社讯)核心观点
1.虚拟数字人的三大特征是虚拟化、NLP\CV\语音等多种技术共同成熟、高度拟人化。在技术层面上分为灵活的真人驱动型和基于深度学习的计算驱动型。
2.在2030年,我国虚拟数字人整体市场规模将达到2700亿。身份型虚拟数字人约1750亿。服务型虚拟数字人总规模超过950亿。目前市场仍处于前期培育阶段。
3.虚拟数字人的应用可分为服务型虚拟人和身份型虚拟人。替代真人服务中的虚拟主播和虚拟IP中的虚拟偶像是目前的市场热点。
4.虚拟数字人产业链。各厂商规划在未来对核心技术进行外包。
6. 国内外在细分市场上的竞争差异较大,具体包含技术层面、商业模式、细分市场及发展路线。
7. 行业门槛及瓶颈主要来源于三方面:上限偏高的技术及美术门槛;客户积累带来的业务认知;在各细分市场亟待实现的标准化复制。
虚拟数字人定义
虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。
其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。在试用了相关产品后,我们认为,“人”是其中的核心的因素。高度拟人化为用户带来的亲切感、关怀感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验,将成为虚拟数字人在各个场景中取代真人,完成语音交互方式升级的重要标准。
虚拟—存在于非物理世界中,不同场景实现难度不同
目前,虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APP、小程序、软硬一体显示设备。在未来,VR设备与全息投影也将成为其重要存在方式。
需注意的是,尽管其存在方式均在非物理世界中,由于各场景所需的时延(如直播等实时场景要求低时延,但内容生成场景无该要求)、驱动方式(计算驱动对模型的深度学习能力有极高要求)等不同,对技术、运营等要求差异较大。
数字—依托多项技术存在,相关技术成熟成为其发展重要推动力
虚拟数字人是典型的多技术综合产物。除CG建模+真人驱动的类别外,多模态技术与深度学习成为其核心点。该部分将在技术中详细展开。多位从业人员认为,虚拟数字人近年的发展来源于CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动捕等相关技术的共同成熟。
人—在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线
外表:虚拟数字人的面部长相和整体形象。会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发等细节的建模)、渲染水平、设计审美等影响。
行为:虚拟数字人的面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制调节等)、驱动模型类别(精细面部肌肉驱动、语音合成模型中对语气词、韵律的处理等)、训练数据、驱动模型精度等影响。
交互:虚拟数字人与现实世界的交互水平,包括回答内容、肢体反应等,会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识库等影响。