宏观经济与投资策略观察

  • 首页
  • 金融科技与未来
  • 商业与行业洞见
  • 宏观经济瞭望台
  • 市场与投资策略
  • 理财与个人成长
  • 读者问答
  • 联系我们
宏观经济与投资策略观察

我国人工智能大模型首部国家标准正式实施

置顶• 2026-02-23

转载自 数字经济与管理 

近日,我国首部聚焦通用大模型的国家标准正式实施。公开报道显示,GB/T 45288《人工智能大模型》系列国家标准被定位为产业的“统一规范”,核心是补齐大模型产业一直缺的三件事:通用要求、评测方法、服务能力评价。

GB/T 45288分为三个部分:

GB/T 45288.1-2025《人工智能大模型第1部分:通用要求》

GB/T 45288.2-2025《人工智能大模型第2部分:评测指标与方法》

GB/T 45288.3-2025《人工智能大模型第3部分:服务能力成熟度评估》

在第1部分里,“大模型”被定义为:基于大量数据训练、具备复杂计算架构、可处理复杂任务并具有一定泛化性的深度学习模型;并给出一个重要注释:参数量一般不低于1亿。这意味着,未来在企业对外宣传、招采文件、评测口径里,“大模型”会更容易形成统一边界,减少“各说各话”。

如图一所示,第一部分还从功能视角指出大模型参考架构包含:资源池、工具、数据资源、模型、行业应用、服务平台/组件等层次,并解释了每一层典型组成:资源池(算力/存储/网络与虚拟化调度)、工具(数据工具/模型工具)、数据资源(通用/领域/私有)、模型(基础大模型与定制化大模型)、以及贯穿全流程的服务平台(编排、部署、推理、运维和管理)。图片

第2部分确立了评测指标并描述评测方法,如表一所示,该表清晰地把能力评测分为两大块:理解能力评测指标与生成能力评测指标,并给出评测方法(数据集、评测环境、评测工具、实施流程),同时在附录中区分客观与主观评测的计算方法。这会直接影响三类人:

甲方采购/招标:以后更容易把“能测、可复现”的指标写进招标与验收;

乙方厂商:更难只靠 demo 讲故事,得准备方法与证据;

内部治理团队:可以把“幻觉、内容安全、稳定性”等从泛泛而谈,变成可追踪的指标体系。图片

第3部分是服务能力成熟度评估。这对行业的信号是:大模型竞争会从“参数/指标”扩展到“服务与交付”。未来更像软件与云服务:SLA、运维、变更、风险控制、持续迭代,都会被放进评价体系。图片

总结

总体来看,GB/T 45288《人工智能 大模型》系列国标的实施,实质上是在给大模型产业建立一套“可对齐、可验收、可运营”的共同语言。对企业来说,最稳的落地路径是尽快建立“架构盘点→评测门禁→上线SLA与风控→持续复评”的闭环:采购看评测方法与报告,自研补齐数据/工具链/运维治理,才能把大模型从“能用”真正推进到“可用、可管、可持续”。

·公众号简介·

《数字经济与管理》公众号依托北京工业大学区块链研究中心,发起人:李健,杨震,徐大川,张文,李永武。本公众号将致力于打造“数字经济、金融科技和智慧管理”等领域的兼具学术与科普双重特征的社交媒体沟通传播平台。

本公众号发布文章已经原作者授权,转载自“《数字经济与管理》公众号”及原创作者。图片

编辑:金子姗、赵劲博

审核:李健 权沛

0
评论 (0)
再想想
Copyright © 2026 宏观经济与投资策略观察. Designed by jinronglawyer.