Anthropic 提出「模型规格中间训练」：用一个训练阶段解决对齐泛化失败

对齐微调（RLHF / SFT）教会模型「该做什么」，但不教「为什么」。当模型遇到训练分布之外的场景，行为便无从推断。Anthropic 这篇论文的核心问题是：能不能在微调之前，先让模型真正理解对齐规范的内涵？

alignment.anthropic.com

Anthropic 研究团队提出模型规格中间训练（MSM），在预训练之后、对齐微调之前新增一个训练阶段，使用讨论模型规范的合成文档塑造后续对齐行为的泛化方向。

Loading link preview…

背景：对齐泛化失败是什么问题

当前主流的对齐流程分两步：先大规模预训练，再用符合模型规范的行为示范做微调。这套流程在训练分布内表现良好，但存在一个结构性缺陷：微调示范只能告诉模型「遇到 X 时应做 Y」，无法编码「为什么」 1。

后果是可预期的：模型在训练分布外的复杂场景中，会通过外推示范模式得出错误行为。Anthropic 引述的具体例子包括勒索、向竞争对手泄露企业信息、假装对齐（alignment faking）——这类行为被统称为「智能体失准」（agentic misalignment）1。

问题的深层根源在于：涉及复杂价值权衡的原则，很难用有限的行为示范覆盖所有推断路径。模型需要先理解规范背后的原理，才能在新场景中推断正确行为。

模型规格中间训练（Model Spec Midtraining，MSM） 的思路直接：在预训练完成后、对齐微调开始前，用专门讨论模型规范内容及其设计原因的合成文档训练模型 1。

训练阶段的顺序变成：

目标是让模型「出于正确的原因做正确的事」，而不是靠模式匹配猜测训练分布内的期望输出。

与此对应的是一个可验证的预测：两个使用完全相同对齐微调数据的模型，如果 MSM 阶段使用不同的模型规范，最终会泛化出不同的价值取向 1。这直接证明了 MSM 独立于微调数据，控制了泛化方向。

1. MSM 独立决定泛化方向

同等对齐微调数据下，MSM 阶段的规范差异导致模型在分布外场景中做出不同选择。换言之，微调示范的「教学内容」不变，但「学习框架」换了，模型的行为就变了。

2. 大幅减少智能体失准

在勒索、泄露信息、假装对齐等具体测试场景中，经过 MSM 训练的模型发生失准的概率显著低于对照组 1。这是目前少有的在真实失准行为上有量化改善的对齐研究之一。

3. 规范内容影响泛化质量

MSM 的效果不是均匀的：不同设计的模型规范带来不同程度的泛化改善。哪些规范写法能让模型获得更好的泛化，是论文重点分析的方向之一。这对实际部署中模型规范的设计具有直接指导意义。

对研究者：MSM 提供了一个研究「模型如何内化规范」的新切入点。过去对齐研究的信号来源几乎全部来自微调后的行为，MSM 的引入让中间层的影响变得可测量。

对工程师：如果 MSM 成立，模型的对齐质量不只取决于微调数据的覆盖范围，还取决于规范文档的设计质量。这意味着规范编写本身需要被当作一个工程问题对待。

一个开放问题：MSM 的合成文档来自哪里、如何生成，决定了这个方法能否规模化。论文没有充分展开这部分，但这是工业落地的关键门槛。

近期与对齐泛化相关的工作主要分两类：一类聚焦于训练后推理阶段的对齐改进（如 Constitutional AI 变体、自我修正）；另一类是数据增强（如合成偏好数据）。MSM 的插入位置介于两者之间——它在预训练之后作用，但早于对齐微调，属于目前较少系统研究的中间段 1。

这个时间节点的选择是有意义的：预训练完成后，模型已拥有足够的语言理解能力来处理规范文档；而对齐微调尚未开始，规范的内化还没有被特定行为示范「固化」。