配资平台在线咨询《视频语料建设框架》亮相世界人工智能大会

本文转自：人民网-上海频道配资平台在线咨询

马作鹏

大家每天刷视频，欣赏美景美食、动人故事。那么，AI看这些视频，会看到什么呢？

视频，不仅包含了丰富的故事内容和视觉信息，还融合了时间序列特征，能够提供动态、连续的时空表达。视频，是一种信息密度极高的数据类型，能够为AI提供更加全面的世界认知，因此其在人工智能训练中的价值极其重要。

7月26日，2025年世界人工智能大会在上海开幕。顾海民摄

2025年世界人工智能大会（WAIC 2025）期间，传播内容认知全国重点实验室（人民网）学术带头人张冬明带着最新研究成果《视频语料建设框架》参会，分享了如何构建高质量的视频语料。

张冬明指出，通过足够的人工智能计算和整合，视频将从以往的内容载体变成未来的信息载体。整个社会未来所需要的，不仅是利用人工智能生成视频，也需要从海量的视频中获得数据，搭建成数据底座，赋能更多应用场景。这正是人民网提出《视频语料建设框架》的必要性和紧迫性所在。

视频语料建设是一项系统工程，旨在构建高质量、多维度、可复用的时空数据库，为 AI 理解世界、预测世界，并学习与世界交互提供“教材”。

张冬明强调，视频语料库建设应坚持主流价值导向，遵循质量优先原则，保证语料的真实准确、均衡多样。未来，视频语料也将针对不同领域的需求，建设定制化语料包：

在教育领域，视频语料能够提供“课堂互动”“实验操作” 等语料，用于开发智能教学分析系统；再如，视频语料可用于智能交通领域，提供“雨雪天气路况”“复杂路口行人行为”等语料，用于训练车辆环境感知模型；还有在医疗领域，视频语料能够捕捉医生诊疗、手术操作、患者行为等动态过程，为模型提供多模态、时序性强的医学实践数据支撑……

可以预见，视频语料的应用场景，将随着人工智能训练的实际需要而不断丰富。

张冬明表示，人民网《视频语料建设框架》通过系统化地采集、处理、管理、应用全流程设计，确保语料能有效支撑 AI 认知世界、赋能行业应用。同时，需结合技术发展和需求变化持续优化框架，让视频语料库成为动态生长的“孪生世界”，引导人工智能理解、预测、融入世界。

据悉，《视频语料建设框架》源自人民网7年来“用主流价值导向驾驭算法”的探索。

早在2019年，人民网就提出，视频不仅是内容载体，更是包含了大量数据的信息载体。人工智能时代，建设“全程媒体、全员媒体、全效媒体、全息媒体”，亟待用足够的智能技术、计算资源，把视频中的时空数据挖掘出来、运用起来。

2019年11月，科技部批准由人民日报社主管、依托人民网建设传播内容认知国家重点实验室。2022年5月，实验室改组为首批20家全国重点实验室之一。这标志着人民网成为人工智能领域的国家战略科技力量。

2023年初，人民网启动“主流价值语料库”建设。依托党报党网长期积累的新闻报道、理论评论、政策文献等优质资源，人民网团队经科学采样归集、清洗标注、多轮审核，下足“笨功夫”“苦功夫”，精心打造了有效帮助AI对齐政治方向、舆论导向、价值取向、文化传承的主流价值语料库，总体规模超过300T，其中基础语料超300亿字、问答语料超30万对。

【附】视频语料建设框架（简版）

传播内容认知全国重点实验室（人民网）认为，高质量的视频语料在 AI 通用世界模型构建中具有不可替代的核心价值，其本质是为模型提供了接近人类认知世界的“动态全景数据”。

视频语料建设是一项系统性工程，旨在构建高质量、多维度、可复用的时空数据库，为 AI 理解、预测世界，并学习如何与世界交互提供学习资料。

视频语料库建设应坚持主流价值导向，遵循质量优先原则，保证语料的真实准确、均衡多样。视频语料采集及标注中应确保视频语料“三性”，包括：1.复用性：构建标准化、可扩展的语料体系，实现语料的高效管理、复用与共享，降低重复建设成本；2融合性：兼顾视频中的视觉、听觉、文本等信息，确保语料的信息完整性；3.合规性：严格遵守数据安全与隐私保护法规，获取视频素材时获得合法授权，对敏感信息进行脱敏处理。

视频语料采集源包括：公开授权资源、行业合作资源、定制化拍摄、用户生成内容、AI模型生成等类型。

根据应用需求，明确语料的核心维度，包括：价值观维度、场景维度、主体维度、多模态维度，确保采集的多样性。

视频语料处理的一般处理流程包括：格式标准化、质量优化、脱敏处理、镜头分割等。

视频标注是视频语料 “赋能” AI 的核心，但过分标注不仅严重增加标注成本，也未必有助于AI技术的健康发展，应积极创新标注工具、标注模式，采用人在回路的迭代式标注体系，发展自动模型标注和人工反馈的半自动标注体系，在语料标注实践中采用领域可迁移标注体系，建立通用层预标注和领域层适配标注相结合的标注模式，使得标注信息可重复利用，提高视频数据质量。

规模化、高质量视频语料能为模型提供丰富的多模态感知输入与真实世界中“状态-行为-结果”链条的数据基础，使模型能够学习环境动态、因果关系与长期演化规律。通过对连续视频中状态变化、行为决策及其后果的建模，世界模型得以在抽象层面模拟现实，具备对未来情境的预测能力与对环境的内在理解，从而支持具身智能体在复杂、多变的真实世界中进行高质量的认知、推理与规划。

视频语料建设框架通过系统化地采集、处理、管理、应用全流程设计配资平台在线咨询，确保语料能有效支撑 AI 认知世界、赋能行业应用。同时，需结合技术发展和需求变化持续优化框架，让视频语料库成为动态生长的 “孪生世界”，引导人工智能理解、预测、融入世界。

满盈网配资提示：文章来自网络，不代表本站观点。