我国人工智能大模型首部国家标准正式实施

近日，我国首部聚焦通用大模型的国家标准正式实施。公开报道显示，GB/T 45288《人工智能大模型》系列国家标准被定位为产业的“统一规范”，核心是补齐大模型产业一直缺的三件事：通用要求、评测方法、服务能力评价。

GB/T 45288分为三个部分：

GB/T 45288.1-2025《人工智能大模型第1部分：通用要求》

GB/T 45288.2-2025《人工智能大模型第2部分：评测指标与方法》

GB/T 45288.3-2025《人工智能大模型第3部分：服务能力成熟度评估》

在第1部分里，“大模型”被定义为：基于大量数据训练、具备复杂计算架构、可处理复杂任务并具有一定泛化性的深度学习模型；并给出一个重要注释：参数量一般不低于1亿。这意味着，未来在企业对外宣传、招采文件、评测口径里，“大模型”会更容易形成统一边界，减少“各说各话”。

如图一所示，第一部分还从功能视角指出大模型参考架构包含：资源池、工具、数据资源、模型、行业应用、服务平台/组件等层次，并解释了每一层典型组成：资源池（算力/存储/网络与虚拟化调度）、工具（数据工具/模型工具）、数据资源（通用/领域/私有）、模型（基础大模型与定制化大模型）、以及贯穿全流程的服务平台（编排、部署、推理、运维和管理）。

第2部分确立了评测指标并描述评测方法，如表一所示，该表清晰地把能力评测分为两大块：理解能力评测指标与生成能力评测指标，并给出评测方法（数据集、评测环境、评测工具、实施流程），同时在附录中区分客观与主观评测的计算方法。这会直接影响三类人：

甲方采购/招标：以后更容易把“能测、可复现”的指标写进招标与验收；

乙方厂商：更难只靠 demo 讲故事，得准备方法与证据；

内部治理团队：可以把“幻觉、内容安全、稳定性”等从泛泛而谈，变成可追踪的指标体系。

第3部分是服务能力成熟度评估。这对行业的信号是：大模型竞争会从“参数/指标”扩展到“服务与交付”。未来更像软件与云服务：SLA、运维、变更、风险控制、持续迭代，都会被放进评价体系。

总结

总体来看，GB/T 45288《人工智能大模型》系列国标的实施，实质上是在给大模型产业建立一套“可对齐、可验收、可运营”的共同语言。对企业来说，最稳的落地路径是尽快建立“架构盘点→评测门禁→上线SLA与风控→持续复评”的闭环：采购看评测方法与报告，自研补齐数据/工具链/运维治理，才能把大模型从“能用”真正推进到“可用、可管、可持续”。

·公众号简介·

《数字经济与管理》公众号依托北京工业大学区块链研究中心，发起人：李健，杨震，徐大川，张文，李永武。本公众号将致力于打造“数字经济、金融科技和智慧管理”等领域的兼具学术与科普双重特征的社交媒体沟通传播平台。

本公众号发布文章已经原作者授权，转载自“《数字经济与管理》公众号”及原创作者。

编辑：金子姗、赵劲博

审核：李健权沛