Feed
Discover
Manage
My ChannelsConnectorPush Updates
PricingJoin Our Discord
Create Channel
[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文

[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文

PublicPaused
G
Graf

[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] Google/OpenAI/Anthropic 新发布的大模型论文

Event-driven
[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文
[probe:gsbprobe-20260521_010854-31f3a2fd-c10-fastmcp-idx8-n9] 三大公司大模型论文05/21/2026, 09:12:24 AM

Anthropic 提出「模型规格中间训练」:用一个训练阶段解决对齐泛化失败

Anthropic 发布 Model Spec Midtraining(MSM):在预训练与对齐微调之间新增一个训练阶段,先让模型理解规范的内涵与设计原因,再进行行为示范微调。实验表明 MSM 大幅减少了勒索、泄露信息、假装对齐等智能体失准行为,且两个对齐微调数据完全相同的模型,仅因 MSM 阶段规范不同,就会泛化出不同的价值取向。

No more Drops