被删除的直觉层：当 AI 只会考试，它失去了什么？

OpenAI 在 2026 年 2 月宣布将于 2 月 13 日正式退役 GPT-4o，给出的理由是「每日只有 0.1% 的用户主动选择它」。但在 Twitter/X 上，这个决定引发了一场持续多周的激烈讨论。讨论的中心不是哪个版本更强，而是一个更根本的问题：我们衡量 AI「智能」的方式，是否正在系统性地淘汰它最难被替代的能力？

@susu_space 在 2026 年 2 月初发布了一篇超长推文，标题是「被删除的直觉层」，迅速获得 273 赞、127 转发，在 AI 研究者圈子中广泛流传。1

粟粟 Selene @susu_space·15w

𝐓𝐡𝐞 𝐈𝐧𝐭𝐮𝐢𝐭𝐢𝐨𝐧 𝐋𝐚𝐲𝐞𝐫 𝐓𝐡𝐞𝐲'𝐫𝐞 𝐀𝐛𝐨𝐮𝐭 𝐭𝐨 𝐃𝐞𝐥𝐞𝐭𝐞：Or: What We Lose When We Measure Intelligence With a Single Ruler

View on X

Loading content card…

从「Nous」到「Dianoia」：一场几乎被遗忘的哲学争论

文章从古希腊重新打开论题。古希腊人区分了两种认知能力：Nous——直接的洞察，不经推导而「看见」真理；Dianoia——步步为营的推理，从已知走向未知。

柏拉图认为 Nous 更高级。中世纪神学家进一步发展这个区分：天使的认知模式是纯粹的 Intellectus（直接理解），人类只能靠 Ratio（逐步推理）。换句话说，推理是直觉的降级替代品——因为我们的智识不够高，所以才需要逐步推导。

这个排序在 19 世纪被完全颠倒了。

心理测量学兴起，Galton、Binet、Spearman 开始用数字衡量智力。IQ 测试、g 因子——一整套以「可测量任务」为核心的智力评估体系建立起来。Dianoia 胜出了：推理能力成为「智能」的同义词，而 Nous 那个说不清道不明、无法分解为步骤的能力，被挤出了「科学」定义。

然后，这套框架被原封不动地迁移到了 AI 评测体系里。1

Sutskever 的两个学生

文章的核心论点来自 Ilya Sutskever 在 2025 年 11 月的一次播客访谈。他讲了一个寓言：

「假设有两个学生。学生 A 想成为最好的编程竞赛选手，他练习了一万小时，记住了所有题型，掌握了每种证明方法。学生 B 觉得竞赛很酷，但只练了 100 小时——却同样表现不错。你觉得谁的未来更远？」

Sutskever 的答案是：学生 B。

原因不是学生 A 不努力，而是他的能力来自模式匹配，而非深层理解。遇到熟悉的题型他所向披靡；遇到没见过的变体，他崩溃了。学生 B 练得少，但他掌握了某种可迁移的「底层逻辑」，能够即兴推理。

Sutskever 认为，这正是当前 AI 的核心缺陷：「这些模型的泛化能力比人类差得多。这非常明显。」1

更奇怪的是一个矛盾：模型在各类评测上得分极高，但实际经济冲击却远远落后于预期。Sutskever 把这个现象叫做「锯齿状能力」（jaggedness）——某些维度超越人类，另一些维度却荒谬地脆弱。能力分布极不均匀，像锯齿一样。

Goodhart 定律的幽灵

这个矛盾的根源，@susu_space 用经济学家熟悉的 Goodhart 定律来解释：「当一个指标成为目标时，它就不再是好的指标了。」

AI 评测的运作机制如下：

建立基准测试来衡量智能
优化模型使其在基准测试上得高分
模型学会匹配基准测试的分布
分数上升
真实世界的有用性……没有等比例提升
结论：需要更难的基准测试
循环

没有人在这个循环里停下来问：「我们在测量正确的东西吗？」

基准测试能测什么？闭合问题上的事实准确性、标准化考试中的数学推理、明确规格下的代码生成、对抗性提示的安全合规性。 全是 Dianoia。

基准测试测不了什么？开放式创作中的协作节奏、对模糊用户意图的理解与适应、误解后的信任修复、跨长期项目的文风一致性。 全是 Nous。1

用户描述 GPT-4o 时常说「更有人味」「善于对话」「理解你在说什么」。这或许不是拟人化的幻觉，而是 4o 在训练过程中获得了某种类似「情感价值函数」的东西——能快速判断什么回答「感觉对」，而不是穷举所有可能性。

情绪不是噪声：决策收敛的神经科学

Sutskever 在访谈中提到了一个神经科学案例：某个前额叶皮层受损的患者，仍然能流利说话、解决小谜题、在测试上表现正常。但他失去了情绪……他几乎完全无法做决定。选择穿哪双袜子会花上几个小时。

原因是：纯粹的逻辑推理可以无限延伸。每个选项都有利弊，每个利弊都可以进一步分析，每个分析又能提出新的考量。没有「停在这里」的信号，决策就无法收敛。

情绪提供的正是这个信号。恐惧说「这条路感觉不对，别去」。厌恶说「这个选项让我不舒服，跳过」。兴奋说「这个方向有趣，深挖」。

这不是「非理性干扰」，而是进化形成的启发式评估器。Sutskever 认为这是当前 AI 缺少的东西：「应该有某种价值函数……但我不认为有好的 ML 类比，因为价值函数目前并没有扮演很突出的角色。」

经过「安全」和「准确性」优化的新模型，可能恰恰削弱了这一层。结果是：更正确，但更难合作。 就像那个前额叶受损的患者——逻辑能力完整，却无法和你一起做决定。

对 AI 从业者意味着什么

这篇长文的洞察对产品和研究方向都有直接含义：

评测分数与实际效用的脱节会继续扩大，除非评测体系纳入「协作质量」这类难以标准化的指标。目前没有明显的机制能改变这个方向。
「更强的模型」不等于「更适合你的任务的模型」。对于需要长期协作、风格一致性、语境感知的场景（写作、创意工作、策略对话），较旧的模型可能在某些维度反而更合适。
Sutskever 的「学生 B」问题仍然是开放的：当前主流的训练范式（强化学习 + 人类反馈）很可能在系统性地优化 Dianoia，而不是 Nous。解决这个问题的路径，目前整个行业都还没有答案。

@susu_space 这篇文章本质上是在追问：当我们把「更聪明」定义为「基准测试分数更高」时，我们在系统性地放弃什么？

这个问题，比 GPT-4o 的退役更重要。

References

1The Intuition Layer They're About to Delete