2025年6月15日, 罗永浩数字的首播吸引了超1300万人次观看,GMV突破5500万元,部分3C、食品等核心品类商品带货单量超罗永浩5月真人首秀同期数据,创下数字人直播带货新纪录。直播中,两位数字人在交互动作、内容生成和用户响应等方面高度拟真。这一事件不仅刷新了行业认知,也凸显了数字人作为新型内容生产力的巨大潜能。
一、数字人直播背后的关键技术
数字人直播方案重点包含剧本驱动的数字人多模协同、融合多模规划与深度思考的剧本生成、动态决策的实时交互、文本自控的语音合成、高一致性超拟真数字人长视频生成五项创新技术,实现了数字人“神、形、音、容、话”的高度统一。
第一,语言模型驱动下的多模态协同机制构建了剧本生成的基础。
在数字人直播系统中,剧本生成是构建高度拟真化交互体验的基础环节,其核心在于语言模型驱动下的多模态协同,具体而言,这一过程由三大模块构成:台词生成、多模驱动和动态交互。
台词生成不仅需完成内容输出,还需贴合主播人设与语言风格。系统通过风格建模和人设建模,确保语言表达的个性化与一致性。在多主播场景中,还需实现语义逻辑、语调节奏和情感风格的整体协调。为提升台词的真实性与内容深度,系统引入内容规划、知识增强与事实校验机制,以降低AI幻觉的风险。以罗永浩数字人为例,依托文心大模型4.5 Turbo,结合真人语料进行语风提炼和训练优化,实现语言逻辑与表达习惯的精准模拟。
多模驱动确保语言生成与音视频输出的高度耦合。语言模型在生成台词的同时,同步输出与内容关联的多维标签,如语音情绪、语调控制、面部动作与肢体表现等指令。这些标签为语音合成和视频生成提供精确参数,使得语调过渡自然、唇动与语音同步、动作表情富有表现力,从而实现“声、形、意”的有机统一,提升整体呈现的真实感与沉浸感。
动态交互功能是数字人“类人化”体验的关键所在。系统不仅能理解用户输入,还可结合上下文、主播人设、语义走向等多模信息进行实时决策,从而生成既贴合语境又具有情感色彩的个性化回应。
第二,语音合成技术的不断进步提升数字人的表达自然性。
随着数字人技术的不断扩展,语音合成的自然性正成为影响用户沉浸体验与情感联结的重要因素。在直播语境中,观众不再满足于听到字正腔圆的朗读,而更期望主播声音具备情绪波动与个性风格,从而增强互动的真实感与说服力。
然而,传统语音合成系统普遍存在表达方式机械、情绪层次单一等问题,难以应对直播中情境变化,缺乏情感张力,影响用户体验。为解决这一问题,百度推出了“文本自控的语音合成”技术方案。该方案以大语言模型为基础,将语音合成过程与剧本内容、主播人设和语义语调标签深度融合,在完成“说什么”的基础上进一步优化“怎么说”的表达方式。具体而言,系统会在语音生成过程中引入语义理解、主播风格建模以及细粒度韵律控制机制,实现语音内容与情绪表达的协同生成。例如,在产品介绍环节中,数字人主播可以根据语境自然调整语调,从平静的娓娓道来过渡到激昂的情绪高涨,语言的感染力与推动力都有提升和增强。
第三,超拟真长视频生成技术提升了沉浸式视觉输出的整体一致性。
在数字人直播中,形象生成与驱动是当前技术难度最高的环节。与音频或文本相比,视频生成不仅涉及图像建模与运动控制,还需在较长时间跨度内维持高度一致性,确保数字人形象、动作与语音精准同步。
针对这些难题,百度构建了“高一致性超拟真数字人长视频生成”技术体系。该方案将剧本、语音、历史视频数据与骨骼动作等多模信号作为输入,通过多模态视频分析与理解,分别生成具有高表现力的片段、复杂“人—物—场”交互片段以及大动作大表情片段,并在长时序上进行统一调度,从而保证语音、口型、表情与动作始终保持高度同步,实现真正的“音、容、话”一致。在罗永浩数字人直播实践中,系统通过对人物与商品进行独立建模,有效保障了长时间互动中的人设稳定、动作准确与语义同步,呈现出高度协调、仿真度极高的直播体验。[1]
二、数字人逐渐走向大规模应用
随着人工智能、虚拟建模等技术不断成熟,数字人逐渐从实验室走向应用场,其商业化与场景落地速度显著加快。如今的数字人正以更强的实用性与适应性,被应用于多类传播与服务场景中。从内容产业到公共服务,从品牌营销到文化传播,数字人正以“全天候、可控化、高效率”的优势,逐步嵌入社会运行的多个维度,释放出巨大潜能。
第一,数字人已加速渗透至多个行业场景,形成多场景布局的新格局。
随着人工智能技术的不断演进,数字人不局限于直播带货场景,而是加速向更多领域渗透,呈现出多点开花的发展态势,其灵活的形象呈现方式、不断优化的交互能力以及持续在线的工作特性,使其成为各行业数字化转型的新载体。
在客户服务领域,数字人被应用于智能客服系统中,充当虚拟客服24小时不间断提供咨询解答、业务办理等服务,显著提升服务效率并降低人力成本。
在政务服务与城市管理场景中,数字人被应用于智慧政务大厅、政策宣讲平台及导览系统中,通过可视化界面为群众提供政策讲解、业务引导和流程提示,有效缓解线下窗口压力,提升政务服务智能化水平。
在教育培训领域,数字人正逐步替代传统录播课程角色,承担在线教学、答疑与情境互动等任务。其生动的形象和互动性为教育内容增添了趣味性与沉浸感,尤其在语言教学、职业培训等需要高频互动的课程中展现出明显优势。
在文旅展示中,数字人被打造为虚拟导游,可以提供路线规划、景点讲解等互动服务,根据游客的兴趣和时间,为其规划最佳的游览路线。在景点讲解方面,生动详细地介绍景点的历史文化和特色,提升景区的知名度和吸引力。
数字人以其高度拟真的形象表现与多模态交互能力,正悄然改变着各行各业与用户之间的连接方式。在这些应用场景中,数字人不仅作为传播者承担起信息传递、服务引导、知识普及等功能,更逐渐演化为一种承载品牌形象、优化用户体验、提升服务效能的智能化界面。这种深度融合不仅推动了行业服务模式的革新,也为人工智能与社会生活的结合打开了更加广阔的想象空间。
第二,主流媒体顺应数字化改革,积极拥抱虚拟数字人技术。
2021年,国家广电总局发布《广播电视网络视听“十四五”科技发展规划》,提出要在新闻、气象、综艺科教等领域大力推广虚拟主播,并探索将虚拟主播引入到节目互动中,增强节目的个性化、趣味性。[2]
在媒体融合持续深化的背景下,数字化转型成为主流媒体发展的重要议题。虚拟数字人作为人工智能与传播实践结合的产物,正逐步成为媒体提升传播力与互动性的有力工具。近年来,主流媒体积极探索数字人在新闻播报、政务服务、直播带货、文旅推广等场景中的应用。
2025年春节期间,杭州文广集团打造的数字人新闻主播实现了零失误播报联播节目,引发广泛关注。杭州日报报业集团构建起涵盖新闻、直播、文旅宣传等多元场景的数字人矩阵,呈现出较强的系统化应用能力。
北京广播电视台推出的“时间小妮”,通过其在新闻与政务服务中的精准播报与自然表达,也获得了良好的用户反馈。“申雅”“谷小雨”“小漾”“橙双双”等数字人形象,分别由上海、浙江、湖南等广电系统打造,不仅在外形与语音设计上体现出强烈的个性化,还在互动机制上紧贴年轻用户喜好,成为地方主流媒体拓展年轻受众、增强平台吸引力的重要抓手。
陕西台的“未央”和河南台的“金凤公主”等虚拟主播将地域文化元素融入形象设计,兼具传播与文化传承功能,开辟了“虚拟+文化”的创新路径。
第三,数字人推动主流媒体实现内容价值的重构与传播方式的升级。
一是解放生产力,提升内容生产效能。传统媒体的内容生产往往受制于人力资源、时间安排与现场条件,而数字人的引入则极大缓解了这些限制。虚拟主播可实现7×24小时不间断播报,显著提升信息更新频率与时效性。同时,通过与新闻写作、编辑流程的系统集成,数字人还可实现自动化新闻生成与播报,大幅降低内容制作成本。
二是拓展表达方式,构建沉浸式传播体验。数字人具备可视化、可互动的传播特征,打破了传统媒体单向输出的局限。借助虚拟形象的多样设计与真实语音的合成能力,数字人可在不同场景中灵活切换身份,呈现更具亲和力和趣味性的内容表现。在新闻播报、专题讲解、直播互动等多种应用中,数字人可实现虚实融合的沉浸式表达,提升用户的观看体验和情感共鸣。对年轻受众而言,这种新颖的传播方式不仅更具吸引力,也增强了他们对媒体内容的关注度和黏性。
三是推动传媒业智能化系统升级。虚拟数字人的应用不仅体现在前端内容输出,更倒逼主流媒体在全链条流程上进行智能化升级。从内容策划、语料管理、语音图像合成到分发调度、用户反馈分析,数字人系统的落地建设需要媒体机构全面优化数据采集、算法训练、技术部署等环节,推动形成更加智能化、平台化的生产与运营体系。通过引入AI智能中台、内容知识图谱与大模型接口,媒体逐步具备了构建可持续“人机协同”的内容生产系统的能力,为未来信息传播生态的重构奠定基础。[3]
三、结语
数字人正在深度嵌入多类传播与服务场景,展现出广泛的应用潜力与发展前景。无论是在内容生成、情境交互,还是在形象建构与系统集成方面,数字人都为行业注入了新的动能与可能。未来,如何在更多行业落地中实现持续价值释放,将是学界与业界共同关注的核心议题。在新质生产力持续推进的背景下,数字人将成为推动社会信息化与智能化跃升的重要媒介形态。
本文内容来源于:全中看传媒 作者:郭全中、顾可欣 (郭全中,中央民族大学新闻与传播学院教授,博士生导师,互联网平台企业发展与治理研究中心主任;顾可欣,中央民族大学新闻与传播学院硕士研究生。)
