导读:
在今天,广电视听行业的视听数据不再是内容传播后的反馈依据,已逐渐成为深度嵌入内容生产、精准分发、产业运营全流程的关键要素。高质量数据集建设也成为激活视听资产、重塑行业底座的重要路径。广电视听的优质节目因其权威、规范、语义完整等特质,成为构建高质量AI训练数据集的核心资产。
为释放数据价值,行业需破解版权与流通难题,通过建立“受控共享、授权调用、合规交易”的新机制,推动视听资产合规、高效地转化为数据要素。在近期举办的第三十二届中国国际广播电视信息网络展览会(CCBN2026)视听数据论坛上,业内专家围绕高质量数据集建设、视听资产流通和数据要素化策略进行讨论,为观察这一趋势提供了专业指引。
一、战略引领:政策部署深化,高质量数据集成为广电行业转型重要引擎
当前人工智能技术的应用已深度融入各行各业的发展之中。依托国家级顶层部署与广电行业专项政策导向,加快筑牢数据支撑体系,已成为广电视听行业智能化转型的新抓手。
随着国家数据战略政策的持续加码,高质量数据集已从技术配套资源上升为推动“人工智能+”落地、影响数据要素价值释放的基础性制度安排。国家数据局近日向社会征求《关于推进行业高质量数据集建设行动的实施方案(征求意见稿)》(后简称《方案》)意见的公告,其中以场景需求为牵引,覆盖18个重点领域,推进文本、图像、音频、视频等多模态数据资产化建设;同时推动构建符合结构完整性、内容多样性、标注准确性、模型适配性等质量标准、满足人工智能就绪(AI-Ready)的行业高质量数据集。国家“十五五”规划纲要也明确提出,要加快建设人工智能语料库,面向能源、交通、制造、教育、健康、金融等领域建设高质量数据集,从大方向上敦促视听行业的发展亦要充分利用其优势,重点关注数据侧体系的建设工作。
放眼视听行业格局,政策信号同样十分明确。2026年全国广播电视工作会议明确将“深化人工智能创新融合应用”列为重点任务之一,明确提出要构建高质量视听数据集,创新典型应用场景,推动健康规范发展。在CCBN2026开幕式暨主题报告会上,行业进一步提出面向AI新时代要打造“算力+平台+数据+模型+服务”一体化智慧生态,把“建好高质量数据集、开发行业特色大模型、构建开放共享的智能体生态”放在突出位置。制度层面的持续铺垫,印证高质量数据集的建设正在成为大模型竞逐背景下的关键变量,也是广电视听跟上“人工智能+”时代脚步的新动力。
然而,究竟何为高质量数据集?数据是大模型的“养料”,数据集则是服务模型训练的数据集合,而“高质量”则意味着其必须具备更好的结构完整性、内容多样性、标注准确性和模型适配性,呈现出动态化、工程化、垂直化、多模态的特征。在人工智能深度发展的当下,业内已逐步形成共识:相较于海量数据的基础性积累,高质量数据集对大模型能力提升与效能优化更为关键。因此对于广电视听行业而言,真正需要夯实的,正是这样一种适配智能时代发展需求的新型数据底座。
二、资产激活:数据与广电视听内容双向赋能,拓展行业高质量发展空间
(一)数据已成为广电视听内容提质增效的关键生产要素
数据正在成为内容创作提质增效的重要标尺。如以中国视听大数据(CVB)为代表的国家级数据平台,通过真实、连续、多维的收视数据形成反馈机制,为判断不同类别视听内容传播效果和观众视听行为偏好提供基础依据。
数据已深度嵌入选题策划、脚本生产、素材管理和效果评估等环节。例如宁波广电集团打造“基于多智能体协同的短视频智创平台”,构建创意生成、脚本撰写、自动化成片和多维数据评估的端到端全链路;江苏有线智能化内容生产中心也通过用户画像和数据挖掘,在策划环节快速生成匹配受众喜好的创意方案,提升内容生产的响应速度和匹配精度。
数据作为重要链接纽带,正在重构广电内容与用户之间的连接方式。基于数据的用户洞察正在重塑传播链路,实现从“千人一面”到“千人千面”的精准连接。例如,河北IPTV自建广告业务系统,其核心能力正是基于观看数据创建用户画像,并据此实现区域、时间、人群、内容的四维精准定向投放,让企业的每一分预算都“有的放矢”。CVB数据也显示,理论节目《这就是中国》通过用户画像分析向一线城市青年定向推送相关内容,其在一线城市的收视率达三线城市的5.9倍。数据既能帮助好内容被生产出来,也能帮助好内容找到真正需要的观众,进而推动广电视听内容的资产化、精品化和高效传播。
数据作为新型产业资产,开拓广电跨界融合与价值转化空间。当前,广电产业的数据价值进一步进入资产化运营、产业协同和场景拓展环节,成为培育“广电+”新业态的重要支点。其一,视听数据资产化正在开辟产业价值转化的新空间。2025年10月,“北京视听数据可信空间”在朝阳区启动建设,推动广电机构和影视企业盘活存量视听资源。其二,数据能力正在拓宽广电产业服务边界,推动“广电+教育”“广电+文旅”“广电+政务”等融合场景落地。长沙广电“我的长沙”App依托用户画像与行为数据,构建包含7500多类三级标签、总量超2.2亿条的用户标签体系,基于用户办事行为自动推送资讯的点击率达45%,较全量推送提升8至10倍,充分印证了数据推动用户资源和公共服务资源的协同转化,持续拓展广电跨界融合与产业增值空间。
(二)广电行业以丰富的视听资产反哺高质量数据集建设
广电视听节目具有来源权威、制作规范、类型丰富、语义完整等优势,是训练视听大模型、提升多模态理解能力的重要“优质资产”。例如,新闻节目具有正式规范的语言风格、清晰的叙事逻辑和严谨的时间线,能够帮助模型学习语言规范性,提高对事实的判断能力和对事件的识别能力;纪录片具备画面与解说词高度对应的特点,能够训练模型视觉画面与语言的对齐度,片中涉及到的大量自然环境声也有助于模型精进音频识别能力;影视剧和动画片能够提供多样化的人类动作场景、人物关系和连续叙事结构,对训练长视频理解、角色一致性跟踪和动作识别模型具有重要价值;体育节目则因动作行为清晰、运动节奏快、镜头变化密集,能够有效支撑模型的细粒度动作识别和时间感知训练。
广电行业在高质量数据集建设方面秉持标准先行的观念,着眼整合多元生态运营。广播电视人工智能应用国家广播电视总局重点实验室正牵头研制视听节目人工智能训练数据规范,围绕基础信息、内容语义、视觉与音频特征、版权信息等维度进行全方位描述,并从完整性、准确性、一致性、时效性和适用性等方面开展质量评价。未来,广电行业应以资源盘点为基础、以应用场景为牵引、以版权合规为底线、以授权合作为机制,推动优质视听内容有序、规范融入人工智能训练、创作全链条中,实现良性互动,共同降低合规风险,促进行业平稳健康发展。
由此可见,广电视听内容与数据在智能传播环境中形成了相互激活、彼此赋能的共生关系。数据作为新的生产要素,正在进入内容创作、传播分发和产业运营全过程,推动广电内容更精准地生产、更有效地触达、更充分地转化;广电行业长期积累的优质内容资源,也凭借权威性、规范性和高语义价值,反哺高质量数据集建设。二者之间的相互助力,正在推动视听资源由存量内容转化为活性资产,为广电视听行业高质量发展筑牢更加坚实的行业底座。
三、破局攻坚:加强治理创新机制,推动视听数据合规流通
AI时代,广电视听数据开发正在进入规则密集成型的新阶段。眼下,一边是版权合规和责任界定等问题仍待厘清,另一边则是数据流通、调用和交易机制尚未真正打通。如何破解这些难点?下一步能否真正释放视听数据资产的价值?关键在于治理规则与产业机制是否能够协同落地。
当前最突出的问题,首先是视听数据版权关系的复合性与合规边界的不确定性。视听数据天然叠加作品、表演、录音录像等多重权利结构,一旦进入模型训练、内容生成和二次分发等新环节中,其授权链条更长,责任界定更为复杂。2025年,国家版权局印发《关于加快推进版权事业高质量发展的意见》,明确提出“健全区块链、大数据、云计算、人工智能等新兴领域、新兴业态版权保护制度,完善体育赛事节目、综艺节目、网络直播等领域版权保护制度”,这为视听数据开发必须同步嵌入版权确权、授权、追溯与保护的全流程治理机制,提供了明确的政策指引。
其次,建立高质量数据集的关键是让数据合规流通。数据不流通,视听资产就难以转化为真正的数据要素;但无边界的流通,又会带来数据安全与合规风险。基于此,国家数据局对《关于加快公共数据资源开发利用的意见》的解读中明确提出,要促进公共数据合规高效流通使用,严控未依法依规公开的原始公共数据直接进入市场;2025年形成的公共数据开发利用“1+3”政策体系,则进一步从登记管理、授权运营、价格形成等方面对数据资源开发利用提供了政策支撑。
对广电视听行业而言,未来的数据开发工作应更加注重安全性与可持续性,避免以原始素材简单外流、一次性交付和事后追责等粗放方式展开,加快在安全域内加快形成“受控共享、授权调用、合规交易”的新机制。其一,应以资源盘点和元数据标准化为前提,对节目资源进行分级分类,推动共享对象由原始素材转向目录、标签、索引等元数据,实现数据“看得见、找得到、可匹配”的受控共享。其二,应围绕模型训练、内容审核、智能推荐等具体场景,建立按用途、按权限调用的数据授权使用准则,并通过水印追踪等信息化方式实现全过程可追溯。其三,还需完善标准合同、收益分配和责任追究机制,明确可交易对象、使用边界、计费方式与违约责任,进一步厘清视听数据流通的权责边界,规范流通秩序,保障数据价值长效、平稳、合规地释放。
本文内容来源于:国家广电智库 作者:朱文清 国家广电总局发展研究中心;魏琪 北京师范大学戏剧与影视专业2024级硕士研究生
