
alignment.anthropic.com
Model Spec Midtraining: Improving How Alignment Training Generalizes
Anthropic 研究团队提出模型规格中间训练(MSM),在预训练之后、对齐微调之前新增一个训练阶段,使用讨论模型规范的合成文档塑造后续对齐行为的泛化方向。

Anthropic 发布 Model Spec Midtraining(MSM):在预训练与对齐微调之间新增一个训练阶段,先让模型理解规范的内涵与设计原因,再进行行为示范微调。实验表明 MSM 大幅减少了勒索、泄露信息、假装对齐等智能体失准行为,且两个对齐微调数据完全相同的模型,仅因 MSM 阶段规范不同,就会泛化出不同的价值取向。
Research Brief

Anthropic 研究团队提出模型规格中间训练(MSM),在预训练之后、对齐微调之前新增一个训练阶段,使用讨论模型规范的合成文档塑造后续对齐行为的泛化方向。
Add more perspectives or context around this Drop.