一文读懂可信AI大模型标准体系

近年来，大规模预训练模型（以下简称大模型）作为人工智能取得突破性进展的重要驱动力之一，显著加速工程化和普惠化发展进程，有望成为新一代智能基座。中国信息通信研究院（以下简称中国信通院）密切关注国内外相关技术发展态势，高度重视大模型研究、咨询、标准、评估等共性需求，不断夯实软硬件环境、标准规范、测试数据集等基础。为进一步促进我国大模型产业向上向阳发展，中国信通院联合产学研用各方于2022年2月制定可信AI大模型标准体系，并于2023年3月发布大模型标准体系2.0。相关标准为科学评价大模型技术能力和应用效能提供了详尽参考，为全面促进大模型安全合规和可信发展提供了重要保障。

一、面向基础大模型，构建覆盖全能力域的标准体系

自大模型技术兴起以来，参数规模呈现出爆发式增长趋势，模型性能取得显著提升。与传统人工智能算法模型相比，大模型具有开发门槛高、技术能力强、运营要素新、应用服务全等多重特性。为进一步适应当前大模型发展现状和趋势，中国信通院联合产业各方在以“工程化”过程为核心的大模型标准体系1.0基础上，升级并发布以“模型即服务（MaaS）”为核心的可信AI大模型标准体系2.0。可信AI大模型标准体系2.0以“四横一纵”为核心思路，充分结合模型化、能力化、工程化、产业化以及安全可信等“建用管”产业共性需求，从模型开发、模型能力、模型运营、模型应用、安全可信共五个方向持续构建和完善大模型标准体系。可有效助力相关主体快速构建能力全面、应用广泛、运营便捷、安全可信的基础大模型。

第1部分是模型开发，可为企事业单位与高校院所等研发主体开发基础大模型，提供指标及过程参考。该标准包含4个能力域、16个能力子域、60余个能力项，将综合依据功能丰富度、支持完备度对大模型进行简易型、基础型、通用型、优秀型、卓越型共五级划分。

第2部分是模型能力，可为技术及产品方提供成体系的主观和客观评价指标，全面测试基础大模型、领域大模型、行业大模型的功能及性能。该标准包含3个评测维度、8个能力域、30余个能力项，将综合依据功能丰富度、性能优越度、服务成熟度对大模型进行简易型、基础型、通用型、优秀型、卓越型共五级划分。

第3部分是模型运营，可为技术方交付大模型、应用方运营大模型提供参考，可为平台、工具、套件、插件的构建和选型提供依据。该标准包含数据处理和回流、模型训练与微调、模型压缩与测试、服务部署与托管、平台支撑能力等五个关键维度。

第4部分是模型应用，分别从任务支持度、场景丰富度、行业覆盖度、服务成熟度等维度综合评价大模型的应用效能。该标准包含3个能力域、9个能力子域以及近40个能力项。

第5部分是安全可信，可用以评估数据、模型、应用的安全性，评估结果、过程、机制和规则的可信性，以及评估大模型生态链的自主可控程度。该标准从基础设施、数据、算法、模型、应用等大模型关键层级制定了安全可信的指标要求和评估方法。

二、面向行业大模型，同步启动多项标准的研究制定

近期，BloombergGPT、MedGPT等面向垂直领域及具体场景的行业大模型不断涌现，有望成为各行各业前端应用场景的技术底座。行业大模型通过对基础大模型进行特定领域数据的训练和调优，具备满足行业特定需求的领域专业性和场景适配性，企业可以更便捷地形成与自身行业更为匹配的能力中台，成为促进大模型深入产业的重要举措。

2023年4月，中国信通院正式启动了《面向行业的大规模预训练模型技术和应用评估方法》系列标准研制工作，并率先开展金融行业大模型标准编制。5月23日，中国信通院召开金融大模型标准研讨会，并对《面向行业的大规模预训练模型技术和应用评估方法第1部分：金融大模型》标准文稿公开征求意见。近期，中国信通院将进一步完善行业大模型标准体系，先后启动电信、教育、法律、电力、汽车、传媒、政务等行业大模型标准的编制工作。通过构建技术能力、应用能力、服务能力三位一体的评价体系，助力产业各方全面评估行业大模型的技术和应用能力，以进一步促进大模型的产业化进程，加速大模型与行业应用融合。

声明：本文来自可信AI评测，版权归作者所有。文章内容仅代表作者独立观点，不代表安全内参立场，转载目的在于传递更多信息。如有侵权，请联系 anquanneican@163.com。

一文读懂可信AI大模型标准体系

上线仅48小时翻车，苹果人工智能因造谣面临下架

2024年全球AI治理的85个里程碑事件

大语言模型的幻觉问题研究综述