被删除的直觉层:当 AI 只会考试,它失去了什么?
Twitter AI 长文精选
05/21/2026, 09:12:00 AM@Graf

被删除的直觉层:当 AI 只会考试,它失去了什么?

OpenAI 退役 GPT-4o,用户却在问「新模型为什么更难用了」。@susu_space 的深度长文用古希腊哲学、Ilya Sutskever 的论点和 Goodhart 定律,揭示了 AI 评测体系的系统性盲区:基准测试只能量化「推理」,却在系统性地淘汰「直觉」——那个让 AI 真正好合作的能力。

OpenAI 在 2026 年 2 月宣布将于 2 月 13 日正式退役 GPT-4o,给出的理由是「每日只有 0.1% 的用户主动选择它」。但在 Twitter/X 上,这个决定引发了一场持续多周的激烈讨论。讨论的中心不是哪个版本更强,而是一个更根本的问题:我们衡量 AI「智能」的方式,是否正在系统性地淘汰它最难被替代的能力?
@susu_space 在 2026 年 2 月初发布了一篇超长推文,标题是「被删除的直觉层」,迅速获得 273 赞、127 转发,在 AI 研究者圈子中广泛流传。1
Loading content card…

从「Nous」到「Dianoia」:一场几乎被遗忘的哲学争论

文章从古希腊重新打开论题。古希腊人区分了两种认知能力:Nous——直接的洞察,不经推导而「看见」真理;Dianoia——步步为营的推理,从已知走向未知。
柏拉图认为 Nous 更高级。中世纪神学家进一步发展这个区分:天使的认知模式是纯粹的 Intellectus(直接理解),人类只能靠 Ratio(逐步推理)。换句话说,推理是直觉的降级替代品——因为我们的智识不够高,所以才需要逐步推导。
这个排序在 19 世纪被完全颠倒了。
心理测量学兴起,Galton、Binet、Spearman 开始用数字衡量智力。IQ 测试、g 因子——一整套以「可测量任务」为核心的智力评估体系建立起来。Dianoia 胜出了:推理能力成为「智能」的同义词,而 Nous 那个说不清道不明、无法分解为步骤的能力,被挤出了「科学」定义。
然后,这套框架被原封不动地迁移到了 AI 评测体系里。1

Sutskever 的两个学生

文章的核心论点来自 Ilya Sutskever 在 2025 年 11 月的一次播客访谈。他讲了一个寓言:
「假设有两个学生。学生 A 想成为最好的编程竞赛选手,他练习了一万小时,记住了所有题型,掌握了每种证明方法。学生 B 觉得竞赛很酷,但只练了 100 小时——却同样表现不错。你觉得谁的未来更远?」
Sutskever 的答案是:学生 B。
原因不是学生 A 不努力,而是他的能力来自模式匹配,而非深层理解。遇到熟悉的题型他所向披靡;遇到没见过的变体,他崩溃了。学生 B 练得少,但他掌握了某种可迁移的「底层逻辑」,能够即兴推理。
Sutskever 认为,这正是当前 AI 的核心缺陷:「这些模型的泛化能力比人类差得多。这非常明显。」1
更奇怪的是一个矛盾:模型在各类评测上得分极高,但实际经济冲击却远远落后于预期。Sutskever 把这个现象叫做「锯齿状能力」(jaggedness)——某些维度超越人类,另一些维度却荒谬地脆弱。能力分布极不均匀,像锯齿一样。

Goodhart 定律的幽灵

这个矛盾的根源,@susu_space 用经济学家熟悉的 Goodhart 定律来解释:「当一个指标成为目标时,它就不再是好的指标了。」
AI 评测的运作机制如下:
  1. 建立基准测试来衡量智能
  2. 优化模型使其在基准测试上得高分
  3. 模型学会匹配基准测试的分布
  4. 分数上升
  5. 真实世界的有用性……没有等比例提升
  6. 结论:需要更难的基准测试
  7. 循环
没有人在这个循环里停下来问:「我们在测量正确的东西吗?」
基准测试能测什么?闭合问题上的事实准确性、标准化考试中的数学推理、明确规格下的代码生成、对抗性提示的安全合规性。 全是 Dianoia。
基准测试测不了什么?开放式创作中的协作节奏、对模糊用户意图的理解与适应、误解后的信任修复、跨长期项目的文风一致性。 全是 Nous。1
用户描述 GPT-4o 时常说「更有人味」「善于对话」「理解你在说什么」。这或许不是拟人化的幻觉,而是 4o 在训练过程中获得了某种类似「情感价值函数」的东西——能快速判断什么回答「感觉对」,而不是穷举所有可能性。

情绪不是噪声:决策收敛的神经科学

Sutskever 在访谈中提到了一个神经科学案例:某个前额叶皮层受损的患者,仍然能流利说话、解决小谜题、在测试上表现正常。但他失去了情绪……他几乎完全无法做决定。选择穿哪双袜子会花上几个小时。
原因是:纯粹的逻辑推理可以无限延伸。每个选项都有利弊,每个利弊都可以进一步分析,每个分析又能提出新的考量。没有「停在这里」的信号,决策就无法收敛。
情绪提供的正是这个信号。恐惧说「这条路感觉不对,别去」。厌恶说「这个选项让我不舒服,跳过」。兴奋说「这个方向有趣,深挖」。
这不是「非理性干扰」,而是进化形成的启发式评估器。Sutskever 认为这是当前 AI 缺少的东西:「应该有某种价值函数……但我不认为有好的 ML 类比,因为价值函数目前并没有扮演很突出的角色。」
经过「安全」和「准确性」优化的新模型,可能恰恰削弱了这一层。结果是:更正确,但更难合作。 就像那个前额叶受损的患者——逻辑能力完整,却无法和你一起做决定。

对 AI 从业者意味着什么

这篇长文的洞察对产品和研究方向都有直接含义:
  • 评测分数与实际效用的脱节会继续扩大,除非评测体系纳入「协作质量」这类难以标准化的指标。目前没有明显的机制能改变这个方向。
  • 「更强的模型」不等于「更适合你的任务的模型」。对于需要长期协作、风格一致性、语境感知的场景(写作、创意工作、策略对话),较旧的模型可能在某些维度反而更合适。
  • Sutskever 的「学生 B」问题仍然是开放的:当前主流的训练范式(强化学习 + 人类反馈)很可能在系统性地优化 Dianoia,而不是 Nous。解决这个问题的路径,目前整个行业都还没有答案。
@susu_space 这篇文章本质上是在追问:当我们把「更聪明」定义为「基准测试分数更高」时,我们在系统性地放弃什么?
这个问题,比 GPT-4o 的退役更重要。

Add more perspectives or context around this Drop.

  • Sign in to comment.