• AI对话
  • AI绘画
  • AI办公
  • AI语音
  • AI视频
  • 智能体
  • AI最新资讯
  • 协会动态
  • 图片广场
  • 智能体广场
  • AI学院
  • AI教育
  • AI商城

AI门户

logo
      首页
    • AI工具
    • AI资讯
    • AI社区
    • AI商业
    • APP
登录
首页 > 教育 > 教育详情

【标准信息】重点标准宣介 | 人工智能大模型评测系列标准

发布时间:2025-12-30

工业和信息化部人工智能标准化技术委员会按照《国家人工智能产业综合标准化体系建设指南(2024版)》制定了2025年立项指南和工作计划,凝练形成大模型、软硬件协同、工程化、智能体、具身智能、人形机器人、高质量数据集、应用成熟度、人工智能安全、产业界定及测算十个重点方向。MIIT/TC1将陆续对人工智能重点标准进行宣介,本期介绍人工智能大模型评测系列标准。

一、大模型评测面临的主要问题

近年来,大模型技术加速迭代,应用场景持续拓宽,但评测体系滞后已成为制约产业落地的关键瓶颈。从供给侧看,传统大模型评测多依赖单一任务或静态指标,缺乏统一方法论和跨模型可比性,导致研发过度聚焦“刷榜”而忽视真实能力提升。从需求侧看,评测普遍忽视推理效率、资源消耗、任务适配度等工程化指标,难以支撑企业选型与实际部署,造成“测用脱节”。从产业侧看,标准缺失导致评测结果难以有效衔接行业应用、生态协同与监管治理,制约大模型在关键领域的规模化落地与高质量发展。人工智能大模型评测系列标准构建了覆盖能力、场景与服务的系统性评测体系,有效弥合技术发展与产业应用之间的鸿沟。

二、大模型评测重要标准列表

目前已围绕大模型基准测试、大模型开发、大模型能力、大模型运营、大模型应用、大模型可信、大模型分类分级、端侧大模型、代码大模型、多模态大模型、多模态理解大模型等重点方向开展标准研制,未来将持续完善相关标准体系。

三、重点标准:《人工智能 关键基础技术 大模型基准测试》

《人工智能 关键基础技术 大模型基准测试》围绕大模型的基准测试指标和基准测试执行方法,为研发、应用及研究大模型的机构提供参考,指导大模型研发方建立大模型基准测试能力,对大模型能力进行验证和指引提升方向,支持大模型应用方对大模型进行选型、验收等工作,支撑大模型研究方对大模型能力进行持续性监控,该标准已于2025年11月3日完成报批。

《人工智能 关键基础技术 大模型基准测试》标准规定了大模型基准测试的总体技术要求,涵盖基准测试指标构建和基准测试执行方法两方面的技术规范。基准测试指标规定了大模型能力评估的技术要求,覆盖单模态与多模态两大方向。单模态方向聚焦大语言模型,涵盖理解、生成、推理、通识、学科、记忆、多语言、长文本、代码和角色对话等任务;多模态方向聚焦视觉语言模型和语音语言模型,涵盖视觉理解、视觉生成、视觉推理、视觉检索、美学理解、媒体创作,以及语音识别、语音合成、语音理解、声音复刻、音乐生成、音乐信息检索和实时语音交互等任务。基准测试执行方法规定了测试流程技术要求,包括测试需求分析、测试数据构建、测试环境准备、基准测试执行、内容质量评估等关键阶段的能力要求。

四、重点标准:《大规模预训练模型技术和应用评估方法》系列标准

《大规模预训练模型技术和应用评估方法》系列标准以“四横一纵”为核心思路,紧扣大模型“建、用、管”全生命周期的产业共性需求,聚焦模型化、能力化、工程化、产业化与安全可信五大维度,从开发、能力、运营、应用到可信五个方向构建标准,为产业各方快速打造“功能完备、应用广泛、运营高效、安全可信”的基础大模型提供一站式指引,助力大模型技术加速走向规模化应用,该系列标准已于2025年11月27日正式发布。

《大规模预训练模型技术和应用评估方法》系列标准围绕模型开发、模型能力、模型应用、可信要求、模型运营五个核心方面展开。模型开发规定了大模型在开发过程中的能力要求,旨在评估数据管理、模型训练、模型管理和模型部署四大维度的规范性与成熟度;模型能力规定了大模型的技术和服务能力要求,旨在通过智能语义、视觉、语音及跨模态等多方面任务评估大模型的技术能力,以及大模型在服务稳定性、鲁棒性、响应时间、开放程度和并发性等方面的服务成熟度;模型应用规定了大模型在应用阶段的能力要求,旨在评估工程路径、运营能力、管理能力和服务能力等方面的成熟度,包括大模型的知识库管理、工具链完备性及应用服务的安全可靠性;可信要求规定了大模型全生命周期的可信能力要求,旨在评估技术层面的数据可信、算法模型可信、基础设施可信能力,以及业务层面的应用可控性和业务可信度;模型运营规定了大模型工程化落地和运营阶段的能力要求,旨在评估数据工程、模型调优、模型交付、服务运营以及平台资源管理调度等方面的能力。

五、标准应用情况

目前,大模型评测系列标准已在阿里、百度、华为、百度、腾讯、科大讯飞、中科院等100余家单位应用,全面支撑大模型的研发、优化与评估等关键环节,为大模型技术研发方和行业应用方提供科学、可靠的选型依据与性能优化支撑。

基于大模型评测系列标准,中国信通院还联合多家头部大模型企业、用户单位和科研机构共同构建了“方升”大模型基准测试体系。经过两年多建设,已经具备语言、多模态、代码、智能体等模型的基准测试能力,数据集规模达到780万条。已形成以两个月为周期对国内外大模型常态化能力监测机制,累计完成10轮测试,测试模型次数超过1100次。

此外,大模型评测标准已深度赋能重点行业实践,支撑政务、电力、高端装备制造等领域构建适配自身需求的评测基准:在政务行业,标准支撑北京市政数局形成面向政务大模型的能力评估框架;在电力行业,标准支撑中国南方电网构建系统化的大模型测试体系;在高端装备制造业,标准推动中国中车建立专业化评测规范,同时支撑中关村科学城开展行业大模型测试验证工作,切实推动评测标准在真实场景中落地应用,形成“通用标准—行业适配—效能评估”的闭环实践路径。

有意向参与标准工作的企业请与标准编制工作组联系:

标准部常务副部长郑美惠 17820723480

标准化工程师杨铭源 13378049306

标准化工程师曾君豪 19256691589

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

生态伙伴

AI门户是一款精品AI工具聚合平台。在这里,你可以找到全网最新的热门AI工具。
无论是你是公司创始人,市场人员,文职人员,还是开发人员,你都能在这里找到适合自己的AI工具。
利用AI工具,你可以大幅提高工作效率,从容不迫的获得职场优势。
AI不是淘汰人,而是淘汰不会用AI的人。选择AI门户,获取一站式AI工具分发便利服务。
你还等什么?和AI门户一起探索AI工具吧。

AI门户新媒体矩阵等你来关注

商务合作:

版权所有@2023 ​深圳市人工智能产业协会、深圳市宝安区低空无人系统产业协会       技术支持:​深圳市网新新思软件有限公司       粤ICP备19099358号-2       粤公网安备44030502010453号

