本文转自:人民网-上海频道配资平台在线咨询
马作鹏
大家每天刷视频,欣赏美景美食、动人故事。那么,AI看这些视频,会看到什么呢?
视频,不仅包含了丰富的故事内容和视觉信息,还融合了时间序列特征,能够提供动态、连续的时空表达。视频,是一种信息密度极高的数据类型,能够为AI提供更加全面的世界认知,因此其在人工智能训练中的价值极其重要。
7月26日,2025年世界人工智能大会在上海开幕。顾海民摄
2025年世界人工智能大会(WAIC 2025)期间,传播内容认知全国重点实验室(人民网)学术带头人张冬明带着最新研究成果《视频语料建设框架》参会,分享了如何构建高质量的视频语料。
张冬明指出,通过足够的人工智能计算和整合,视频将从以往的内容载体变成未来的信息载体。整个社会未来所需要的,不仅是利用人工智能生成视频,也需要从海量的视频中获得数据,搭建成数据底座,赋能更多应用场景。这正是人民网提出《视频语料建设框架》的必要性和紧迫性所在。
视频语料建设是一项系统工程,旨在构建高质量、多维度、可复用的时空数据库,为 AI 理解世界、预测世界,并学习与世界交互提供“教材”。
张冬明强调,视频语料库建设应坚持主流价值导向,遵循质量优先原则,保证语料的真实准确、均衡多样。未来,视频语料也将针对不同领域的需求,建设定制化语料包:
在教育领域,视频语料能够提供“课堂互动”“实验操作” 等语料,用于开发智能教学分析系统;再如,视频语料可用于智能交通领域,提供“雨雪天气路况”“复杂路口行人行为”等语料,用于训练车辆环境感知模型;还有在医疗领域,视频语料能够捕捉医生诊疗、手术操作、患者行为等动态过程,为模型提供多模态、时序性强的医学实践数据支撑……
可以预见,视频语料的应用场景,将随着人工智能训练的实际需要而不断丰富。
张冬明表示,人民网《视频语料建设框架》通过系统化地采集、处理、管理、应用全流程设计,确保语料能有效支撑 AI 认知世界、赋能行业应用。同时,需结合技术发展和需求变化持续优化框架,让视频语料库成为动态生长的“孪生世界”,引导人工智能理解、预测、融入世界。
据悉,《视频语料建设框架》源自人民网7年来“用主流价值导向驾驭算法”的探索。
早在2019年,人民网就提出,视频不仅是内容载体,更是包含了大量数据的信息载体。人工智能时代,建设“全程媒体、全员媒体、全效媒体、全息媒体”,亟待用足够的智能技术、计算资源,把视频中的时空数据挖掘出来、运用起来。
2019年11月,科技部批准由人民日报社主管、依托人民网建设传播内容认知国家重点实验室。2022年5月,实验室改组为首批20家全国重点实验室之一。这标志着人民网成为人工智能领域的国家战略科技力量。
2023年初,人民网启动“主流价值语料库”建设。依托党报党网长期积累的新闻报道、理论评论、政策文献等优质资源,人民网团队经科学采样归集、清洗标注、多轮审核,下足“笨功夫”“苦功夫”,精心打造了有效帮助AI对齐政治方向、舆论导向、价值取向、文化传承的主流价值语料库,总体规模超过300T,其中基础语料超300亿字、问答语料超30万对。
【附】视频语料建设框架 (简版)
传播内容认知全国重点实验室(人民网)认为,高质量的视频语料在 AI 通用世界模型构建中具有不可替代的核心价值,其本质是为模型提供了接近人类认知世界的“动态全景数据”。
视频语料建设是一项系统性工程,旨在构建高质量、多维度、可复用的时空数据库,为 AI 理解、预测世界,并学习如何与世界交互提供学习资料。
视频语料库建设应坚持主流价值导向,遵循质量优先原则,保证语料的真实准确、均衡多样。视频语料采集及标注中应确保视频语料“三性”,包括:1.复用性:构建标准化、可扩展的语料体系,实现语料的高效管理、复用与共享,降低重复建设成本;2融合性:兼顾视频中的视觉、听觉、文本等信息,确保语料的信息完整性;3.合规性:严格遵守数据安全与隐私保护法规,获取视频素材时获得合法授权,对敏感信息进行脱敏处理。
视频语料采集源包括:公开授权资源、行业合作资源、定制化拍摄、用户生成内容、AI模型生成等类型。
根据应用需求,明确语料的核心维度,包括:价值观维度、场景维度、主体维度、多模态维度,确保采集的多样性。
视频语料处理的一般处理流程包括:格式标准化、质量优化、脱敏处理、镜头分割等。
视频标注是视频语料 “赋能” AI 的核心,但过分标注不仅严重增加标注成本,也未必有助于AI技术的健康发展,应积极创新标注工具、标注模式,采用人在回路的迭代式标注体系,发展自动模型标注和人工反馈的半自动标注体系,在语料标注实践中采用领域可迁移标注体系,建立通用层预标注和领域层适配标注相结合的标注模式,使得标注信息可重复利用,提高视频数据质量。
规模化、高质量视频语料能为模型提供丰富的多模态感知输入与真实世界中“状态-行为-结果”链条的数据基础,使模型能够学习环境动态、因果关系与长期演化规律。通过对连续视频中状态变化、行为决策及其后果的建模,世界模型得以在抽象层面模拟现实,具备对未来情境的预测能力与对环境的内在理解,从而支持具身智能体在复杂、多变的真实世界中进行高质量的认知、推理与规划。
视频语料建设框架通过系统化地采集、处理、管理、应用全流程设计配资平台在线咨询,确保语料能有效支撑 AI 认知世界、赋能行业应用。同时,需结合技术发展和需求变化持续优化框架,让视频语料库成为动态生长的 “孪生世界”,引导人工智能理解、预测、融入世界。
满盈网配资提示:文章来自网络,不代表本站观点。