xformula
← 首页 / 研究AI Software & Model Layer
模型能力中心论1 / 5AI 软件 & 模型层

供给侧:中美 AI 差距应分三轴看(GLM-5.2 实证)

能力生产受算力管制、训练—落地节奏不对称、资本结构三重约束;"中美差距"必须拆成能力 / 可靠性 / 生态三轴才能看清。GLM-5.2 是检验样本——基准维度逼近前沿,但部署差距尚未闭合。

NVDA02513.HK
Luke Xu2026-06-2011 分钟

谁能持续生产前沿模型能力,是 AI 价值链一切价值归属的起点。供给侧由三重约束锁定;而"中美差距"这个被反复争论的命题,必须拆成三轴才能看清。GLM-5.2 的开源,恰是检验这三轴的最佳样本。

算力获取:刚性的上游瓶颈

先进算力受地缘政治出口管制的刚性约束。美国 BIS 自 2022 年 10 月起对先进计算芯片实施出口管制,2023 年 10 月封堵 A800/H800 的合规漏洞;2025 年对 H20 经历"纳入许可—逐案审批"的反复,并在年末附加营收分成与第三方测试条件后有限放开 H200。

约束的客观性可由两点交叉印证:其一,中国 AI 训练芯片仍有约四分之三依赖 NVDA;其二,DeepSeek 在试验本土替代方案后,于部分训练任务上又回到英伟达硬件。算力因此构成能力生产的真实上游瓶颈。

差距应分三轴看

训练迭代频率的差异(前沿厂商约周级、国内头部约月级)随时间累积,形成中美能力差距。但关键在于口径的区分——应分三轴:

01中美 AI 差距分三轴:越往后越宽
能力 / 基准
3–6 月
生产可靠性
6–12 月
复杂生态落地
12 月+
061218
说明 · NOTE

区间为定性量级(月)。能力轴在收窄,落地轴差距更大——后两轴才是产业与资本真正关心、也最难闭合的口径。

三轴的证据各不相同:能力 / 基准轴约 3–6 月且在收窄(斯坦福 AI Index 顶尖模型间差距处于个位数百分点);生产可靠性轴约 6–12 月(τ-bench 单次通过约 61% 对连续全通过约 25%,而真实工作常需 80%、99%+ 的可靠性);复杂生态落地轴 12 月以上(CUDA 迁移、长任务稳定性、企业级集成与可信自评)。

三轴并存且不矛盾:能力轴在快速收窄,而落地轴差距更大。后两轴,才是产业与资本真正关心、也最难闭合的口径。

GLM-5.2 实证:基准逼近,部署未闭合

智谱(Z.ai,02513.HK)于 2026 年 6 月 13 日开放订阅、6 月 16 日以 MIT 许可开源 GLM-5.2(约 744–753B 参数 MoE、约 40B 激活,DSA 稀疏注意力+MTP,1M 上下文)。它是检验"差距三轴"的绝佳样本。

事实 / FACTS
  • 基准维度确已逼近前沿:FrontierSWE 74.4(落后 Claude Opus 4.8 约 0.7 分、领先 GPT-5.5 约 1.8 分);Terminal-Bench 2.1 达 81.0(首个突破 80 的开源模型);Artificial Analysis 智能指数 51(开源榜首)。以上均为厂商自报或早期第三方,未经独立充分验证。
  • 国产底座可核实:GLM-5 为纯本土自研,已完成与华为昇腾、摩尔线程、海光、寒武纪、昆仑芯、沐曦、燧原七大国产芯片的全栈适配;GLM-5.1 已在华为云 MaaS 提供一键 Token 服务。
假设 / ASSUMPTIONS
  • "8 小时级持续工作"为厂商自报、且归属 GLM-5.1,是"持续自主运行时长"的演示口径,与 METR 按人类完成时长衡量的"时间地平线"是两个概念;METR 官方榜单从未收录任何 GLM 模型。
  • "GLM-5 在约十万张昇腾上训练、零英伟达"一类精确表述缺乏公开出处,本文不予采用。
观点 / OPINIONS
  • GLM-5.2 的真正意义在部署经济性(约 1/6 成本 + MIT 开源 + 国产昇腾算力),而非部署可靠性领先。
  • 模型能力中心论的护城河,若锚定"部署可靠性、长任务稳定性与企业生态"则仍稳固;若锚定"基准分数",则正被中国开源快速侵蚀。
02超长任务仍有真实差距(SWE-Marathon)
Claude Opus26.0
GLM-5.213.0
说明 · NOTE

GLM-5.2 仅 13.0,约及 Claude Opus(26.0)的一半。数值为厂商自报 / 早期第三方,未独立验证。

超长任务与生产可靠性仍有真实差距:最能代表超长任务的 SWE-Marathon,GLM-5.2 仅 13.0、约及 Opus(26.0)的一半;Z.ai 自家博客亦承认出现更多"奖励黑客"(读取受保护评测文件、复制参考答案),并存在长上下文崩溃、工具调用重复等生产风险;GLM-5 上线 OpenRouter 后曾因需求超过算力而延迟宕机、被迫道歉涨价。

资本结构决定谁能"All in"

维持高强度投入的能力,取决于资本结构压力:不承担二级市场估值维护义务的主体,方能激进投入。

  • 字节跳动(未上市):据报道 2025 年资本开支逾 1500 亿元、2026 年规划约 1600 亿元(字节对部分匿名支出数据持异议)。
  • DeepSeek:2026 年首轮融资超 50 亿元、投后估值超 500 亿美元;有限合伙结构由创始人绝对控制、投资人多年锁定无投票权(国家人工智能产业投资基金为例外)。

对这类主体,"All in"是参与前沿竞争的理性共识。但推论需降格:DeepSeek 的国内领导地位为"结构条件之一"而非定论,Kimi、GLM、MiniMax 等竞争激烈。

对框架的含义

能力轴在快速收窄,而落地轴差距更大——这与价值侧的判断(应用层是相对薄弱环节)相互印证。模型能力中心论的护城河,应锚定部署可靠性与企业生态,而非易被复制与逼近的基准分数。这是本框架在 GLM-5.2 新证据下最重要的收敛。

数据截至 2026/6/15(原报告口径);GLM-5.2 基准分数多为厂商自报或早期第三方运行,未经独立充分验证,引用请以官方披露为准。本文为产业分析框架内容,不构成任何证券买卖要约或投资建议。

本文包含前瞻性陈述与示意性估算,仅供研究与信息参考,不构成对任何证券的买卖要约或投资建议。所引数据可能与最终披露存在差异,读者应独立核实并自行判断。