北京易橙天下科技有限公司

数字人的技术发展与多场景应用研究

2025-10-24 17:41

2025年6月15日，罗永浩数字的首播吸引了超1300万人次观看，GMV突破5500万元，部分3C、食品等核心品类商品带货单量超罗永浩5月真人首秀同期数据，创下数字人直播带货新纪录。直播中，两位数字人在交互动作、内容生成和用户响应等方面高度拟真。这一事件不仅刷新了行业认知，也凸显了数字人作为新型内容生产力的巨大潜能。

一、数字人直播背后的关键技术

数字人直播方案重点包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新技术，实现了数字人“神、形、音、容、话”的高度统一。

第一，语言模型驱动下的多模态协同机制构建了剧本生成的基础。

在数字人直播系统中，剧本生成是构建高度拟真化交互体验的基础环节，其核心在于语言模型驱动下的多模态协同，具体而言，这一过程由三大模块构成：台词生成、多模驱动和动态交互。

台词生成不仅需完成内容输出，还需贴合主播人设与语言风格。系统通过风格建模和人设建模，确保语言表达的个性化与一致性。在多主播场景中，还需实现语义逻辑、语调节奏和情感风格的整体协调。为提升台词的真实性与内容深度，系统引入内容规划、知识增强与事实校验机制，以降低AI幻觉的风险。以罗永浩数字人为例，依托文心大模型4.5 Turbo，结合真人语料进行语风提炼和训练优化，实现语言逻辑与表达习惯的精准模拟。

多模驱动确保语言生成与音视频输出的高度耦合。语言模型在生成台词的同时，同步输出与内容关联的多维标签，如语音情绪、语调控制、面部动作与肢体表现等指令。这些标签为语音合成和视频生成提供精确参数，使得语调过渡自然、唇动与语音同步、动作表情富有表现力，从而实现“声、形、意”的有机统一，提升整体呈现的真实感与沉浸感。

动态交互功能是数字人“类人化”体验的关键所在。系统不仅能理解用户输入，还可结合上下文、主播人设、语义走向等多模信息进行实时决策，从而生成既贴合语境又具有情感色彩的个性化回应。

第二，语音合成技术的不断进步提升数字人的表达自然性。

随着数字人技术的不断扩展，语音合成的自然性正成为影响用户沉浸体验与情感联结的重要因素。在直播语境中，观众不再满足于听到字正腔圆的朗读，而更期望主播声音具备情绪波动与个性风格，从而增强互动的真实感与说服力。

然而，传统语音合成系统普遍存在表达方式机械、情绪层次单一等问题，难以应对直播中情境变化，缺乏情感张力，影响用户体验。为解决这一问题，百度推出了“文本自控的语音合成”技术方案。该方案以大语言模型为基础，将语音合成过程与剧本内容、主播人设和语义语调标签深度融合，在完成“说什么”的基础上进一步优化“怎么说”的表达方式。具体而言，系统会在语音生成过程中引入语义理解、主播风格建模以及细粒度韵律控制机制，实现语音内容与情绪表达的协同生成。例如，在产品介绍环节中，数字人主播可以根据语境自然调整语调，从平静的娓娓道来过渡到激昂的情绪高涨，语言的感染力与推动力都有提升和增强。

第三，超拟真长视频生成技术提升了沉浸式视觉输出的整体一致性。

在数字人直播中，形象生成与驱动是当前技术难度最高的环节。与音频或文本相比，视频生成不仅涉及图像建模与运动控制，还需在较长时间跨度内维持高度一致性，确保数字人形象、动作与语音精准同步。

针对这些难题，百度构建了“高一致性超拟真数字人长视频生成”技术体系。该方案将剧本、语音、历史视频数据与骨骼动作等多模信号作为输入，通过多模态视频分析与理解，分别生成具有高表现力的片段、复杂“人—物—场”交互片段以及大动作大表情片段，并在长时序上进行统一调度，从而保证语音、口型、表情与动作始终保持高度同步，实现真正的“音、容、话”一致。在罗永浩数字人直播实践中，系统通过对人物与商品进行独立建模，有效保障了长时间互动中的人设稳定、动作准确与语义同步，呈现出高度协调、仿真度极高的直播体验。[1]

二、数字人逐渐走向大规模应用

随着人工智能、虚拟建模等技术不断成熟，数字人逐渐从实验室走向应用场，其商业化与场景落地速度显著加快。如今的数字人正以更强的实用性与适应性，被应用于多类传播与服务场景中。从内容产业到公共服务，从品牌营销到文化传播，数字人正以“全天候、可控化、高效率”的优势，逐步嵌入社会运行的多个维度，释放出巨大潜能。

第一，数字人已加速渗透至多个行业场景，形成多场景布局的新格局。

随着人工智能技术的不断演进，数字人不局限于直播带货场景，而是加速向更多领域渗透，呈现出多点开花的发展态势，其灵活的形象呈现方式、不断优化的交互能力以及持续在线的工作特性，使其成为各行业数字化转型的新载体。

在客户服务领域，数字人被应用于智能客服系统中，充当虚拟客服24小时不间断提供咨询解答、业务办理等服务，显著提升服务效率并降低人力成本。

在政务服务与城市管理场景中，数字人被应用于智慧政务大厅、政策宣讲平台及导览系统中，通过可视化界面为群众提供政策讲解、业务引导和流程提示，有效缓解线下窗口压力，提升政务服务智能化水平。

在教育培训领域，数字人正逐步替代传统录播课程角色，承担在线教学、答疑与情境互动等任务。其生动的形象和互动性为教育内容增添了趣味性与沉浸感，尤其在语言教学、职业培训等需要高频互动的课程中展现出明显优势。

在文旅展示中，数字人被打造为虚拟导游，可以提供路线规划、景点讲解等互动服务，根据游客的兴趣和时间，为其规划最佳的游览路线。在景点讲解方面，生动详细地介绍景点的历史文化和特色，提升景区的知名度和吸引力。

数字人以其高度拟真的形象表现与多模态交互能力，正悄然改变着各行各业与用户之间的连接方式。在这些应用场景中，数字人不仅作为传播者承担起信息传递、服务引导、知识普及等功能，更逐渐演化为一种承载品牌形象、优化用户体验、提升服务效能的智能化界面。这种深度融合不仅推动了行业服务模式的革新，也为人工智能与社会生活的结合打开了更加广阔的想象空间。

第二，主流媒体顺应数字化改革，积极拥抱虚拟数字人技术。

2021年，国家广电总局发布《广播电视网络视听“十四五”科技发展规划》，提出要在新闻、气象、综艺科教等领域大力推广虚拟主播，并探索将虚拟主播引入到节目互动中，增强节目的个性化、趣味性。[2]

在媒体融合持续深化的背景下，数字化转型成为主流媒体发展的重要议题。虚拟数字人作为人工智能与传播实践结合的产物，正逐步成为媒体提升传播力与互动性的有力工具。近年来，主流媒体积极探索数字人在新闻播报、政务服务、直播带货、文旅推广等场景中的应用。

2025年春节期间，杭州文广集团打造的数字人新闻主播实现了零失误播报联播节目，引发广泛关注。杭州日报报业集团构建起涵盖新闻、直播、文旅宣传等多元场景的数字人矩阵，呈现出较强的系统化应用能力。

北京广播电视台推出的“时间小妮”，通过其在新闻与政务服务中的精准播报与自然表达，也获得了良好的用户反馈。“申雅”“谷小雨”“小漾”“橙双双”等数字人形象，分别由上海、浙江、湖南等广电系统打造，不仅在外形与语音设计上体现出强烈的个性化，还在互动机制上紧贴年轻用户喜好，成为地方主流媒体拓展年轻受众、增强平台吸引力的重要抓手。

陕西台的“未央”和河南台的“金凤公主”等虚拟主播将地域文化元素融入形象设计，兼具传播与文化传承功能，开辟了“虚拟+文化”的创新路径。

第三，数字人推动主流媒体实现内容价值的重构与传播方式的升级。

一是解放生产力，提升内容生产效能。传统媒体的内容生产往往受制于人力资源、时间安排与现场条件，而数字人的引入则极大缓解了这些限制。虚拟主播可实现7×24小时不间断播报，显著提升信息更新频率与时效性。同时，通过与新闻写作、编辑流程的系统集成，数字人还可实现自动化新闻生成与播报，大幅降低内容制作成本。

二是拓展表达方式，构建沉浸式传播体验。数字人具备可视化、可互动的传播特征，打破了传统媒体单向输出的局限。借助虚拟形象的多样设计与真实语音的合成能力，数字人可在不同场景中灵活切换身份，呈现更具亲和力和趣味性的内容表现。在新闻播报、专题讲解、直播互动等多种应用中，数字人可实现虚实融合的沉浸式表达，提升用户的观看体验和情感共鸣。对年轻受众而言，这种新颖的传播方式不仅更具吸引力，也增强了他们对媒体内容的关注度和黏性。

三是推动传媒业智能化系统升级。虚拟数字人的应用不仅体现在前端内容输出，更倒逼主流媒体在全链条流程上进行智能化升级。从内容策划、语料管理、语音图像合成到分发调度、用户反馈分析，数字人系统的落地建设需要媒体机构全面优化数据采集、算法训练、技术部署等环节，推动形成更加智能化、平台化的生产与运营体系。通过引入AI智能中台、内容知识图谱与大模型接口，媒体逐步具备了构建可持续“人机协同”的内容生产系统的能力，为未来信息传播生态的重构奠定基础。[3]

三、结语

数字人正在深度嵌入多类传播与服务场景，展现出广泛的应用潜力与发展前景。无论是在内容生成、情境交互，还是在形象建构与系统集成方面，数字人都为行业注入了新的动能与可能。未来，如何在更多行业落地中实现持续价值释放，将是学界与业界共同关注的核心议题。在新质生产力持续推进的背景下，数字人将成为推动社会信息化与智能化跃升的重要媒介形态。

本文内容来源于：全中看传媒作者：郭全中、顾可欣（郭全中，中央民族大学新闻与传播学院教授，博士生导师，互联网平台企业发展与治理研究中心主任；顾可欣，中央民族大学新闻与传播学院硕士研究生。）