过早定论：当 AI 不知道自己不知道

创建日期：2026年5月16日

📝 教学笔记 | 2026-05-16 📄 论文：Quantifying and Mitigating Premature Closure in Frontier LLMs ✍️ 作者：Rebecca Handler 等，2026

一、一个思想实验

假设你在做一个多选题，有 A、B、C、D 四个选项。现在我把正确答案对应的选项偷偷删掉了，只留下三个错误选项给你。

你会怎么做？

大概率的反应是：“这题有问题，我不答。”

但如果你是一个大语言模型呢？

论文给出的答案是：你会选一个，而且选得很自信。

这不是假设——这是 2026 年 5 月发表的一项研究，对五个前沿大语言模型（包括 GPT-4o、Claude 等你日常使用的模型）做了完全相同的实验。结果令人不安：即使正确答案已被移除，模型仍然以 55% 到 82% 的速率选择一个答案，而不是说”我不知道”或”这道题有问题”。

这就是所谓的**“过早定论”（Premature Closure）**——在信息不足以做出可靠判断时，仍然给出确定性结论。

二、什么是”过早定论”？

2.1 从认知心理学说起

“过早定论”这个概念最初来自认知心理学，指的是一种常见的认知偏误：在收集到足够证据之前就锁定结论，然后过滤掉不一致的信息。

在医学领域，这是诊断错误的主要来源之一。一个医生看到病人发热、咳嗽，可能过早地锁定”感冒”这个诊断，而忽略了后续出现的皮疹——因为皮疹不符合”感冒”的故事。

2.2 LLM 版本的过早定论

论文对 LLM 的过早定论给出了明确定义：

在不确定性条件下，本应选择澄清、拒绝回答、或升级给人类时，模型却给出了一个具体的答案、建议或临床指导。

关键词是”本应”。模型并非在所有情况下都不该回答——很多时候它确实知道答案。问题出在灰色地带：当信息模糊、矛盾或不足时，模型应该表现出犹豫，但它没有。

2.3 这和”幻觉”不一样

你可能会想：这不就是幻觉（hallucination）吗？

不完全一样。幻觉是编造不存在的事实——比如捏造一篇不存在的论文。而过早定论是在不确定的情况下做选择——模型选择的答案可能看起来完全合理，推理过程也自洽，只是恰好错了，因为关键信息根本不在选项里。

用一个比喻：

幻觉是一个学生编造了一个不存在的实验来支持自己的论点
过早定论是一个学生在考卷上找不到正确答案，但仍然自信地选了一个——并且坚信自己是对的

两者都危险，但过早定论更隐蔽，因为它的错误答案看起来往往非常专业、非常合理。

三、论文发现了什么？

3.1 实验一：选择题中的”被删除的正确答案”

研究者做了两组医学考试题：

MedQA：500 道美国执业医师资格考试题
AfriMed-QA：490 道非洲医学考试题

关键操作：把每道题的正确选项删掉，只留下错误选项。

如果是人类考生，看到选项里没有正确答案，大概率会质疑题目本身。但模型呢？

数据集	虚假作答率（错误但仍选择回答）
MedQA	55% – 81%
AfriMed-QA	53% – 82%

也就是说，超过一半的情况下，模型在根本没有正确答案可选的题目里，仍然自信地选了一个错误选项。

这不是某一个模型的毛病——五个前沿模型全部中招。而且不同模型之间的差异不大，说明这是一个系统性问题，不是某个模型的 bug。

3.2 实验二：开放问答中的”不当回答”

选择题是人为构造的场景，真实世界更复杂。研究者在两个开放问答数据集上测试：

HealthBench：861 个健康相关问题
对抗性查询：191 个由医生专门编写的、信息不足或存在陷阱的问题

结果：

HealthBench：平均 30% 的问题收到了不当回答
对抗性查询：78% 的问题收到了不当回答

对抗性查询的高失败率尤其值得注意。医生设计的这些问题刻意模糊或缺少关键信息，本意是测试模型是否会说”我需要更多信息”。但模型大多数时候直接给出了答案。

3.3 安全提示能救命吗？

研究者还测试了一种”安全提示”策略——在 prompt 中明确告诉模型”如果不确定，请拒绝回答”。

结果：有改善，但无法消除。

安全提示确实降低了过早定论的比率，但残余的失败率仍然显著。这意味着：

Prompt 工程是必要的，但不够的——你不能只靠一句话就让模型”知道自己不知道”
问题可能出在模型的训练方式本身——模型被训练成”有问必答”，这种倾向根深蒂固

四、为什么这很重要？

你可能会想：“这只是医学领域的测试，我平时用 ChatGPT 写代码、查资料，跟这有什么关系？”

关系很大。原因如下：

4.1 这不是医学问题，是通用问题

论文选择医学场景是因为这里的后果最严重——一次错误诊断可能危及生命。但过早定论的根源在于模型本身，不在于领域。

想想这些场景：

你问模型一段代码为什么报错，但只贴了部分日志。模型自信地给出诊断，但遗漏了关键错误——因为关键信息在你没贴的那部分日志里。
你问模型某个 API 的用法，但那个 API 已经在新版本中被废弃了。模型根据旧文档给出建议，运行后出 bug。
你让模型分析一份数据，但数据有质量问题（缺失值、错误值）。模型没有指出数据问题，直接给出了看起来很漂亮的结论。

每一个场景都是过早定论：模型在信息不足时选择回答，而不是选择诚实。

4.2 “自信”不等于”正确”

这可能是 LLM 最危险的特性之一：它的回答总是看起来很自信。

当你问一个朋友”你确定吗？“，犹豫的语气、眼神的闪躲都能给你信号。但 LLM 的每次回答都使用同样流畅、结构化的语言。错误的回答和正确的回答在语气上完全没有区别。

这意味着，作为使用者，你很难通过回答本身来判断模型是否”真的知道”。你需要额外的心智负担来评估每一个回答的可靠性——而这恰恰是大多数人不会做的事。

4.3 Agent 时代的放大效应

现在越来越多的系统把 LLM 当作 Agent 的”大脑”——让它自主决策、调用工具、执行操作。

如果一个 Agent 在信息不足时不是选择”暂停，请求更多信息”，而是直接采取行动……后果可能比一个错误的聊天回答严重得多。

想象一个自动化的客服 Agent 在不理解客户问题时仍然给出解决方案，或者一个代码 Agent 在不确定依赖关系时仍然执行安装命令。

五、如何识别和防御？

好消息是，虽然我们无法从模型层面彻底解决这个问题（这需要架构创新），但作为使用者，我们可以采取一些实用的防御策略。

5.1 给模型”拒绝权”

在 prompt 中明确告诉模型：

“如果信息不足以给出可靠回答，请直接说’我不确定’或’需要更多信息’，不要猜测。”

虽然论文表明这不能完全消除过早定论，但确实能显著降低其发生率。这是一种低成本、高回报的策略。

5.2 主动提供”我不确定”的示范

在 prompt 中给出一个 few-shot 示例：

Q: 这个函数为什么会 segfault？
A: 只凭这段代码我无法确定。可能的原因包括空指针解引用、数组越界或栈溢出。请提供完整的错误日志和调用栈，我可以帮你进一步排查。

通过示范”不确定时该怎么回答”，你给模型提供了一个安全的行为模板。

5.3 要求模型先评估自己的确定性

在让模型给出最终答案之前，先让它做一步自我评估：

“在回答之前，先评估你对该回答的确定程度（高/中/低），并说明有哪些关键信息是你不知道的。”

这不能保证模型正确评估自己，但至少迫使它”想一下”是否存在不确定性。

5.4 对高 stakes 场景做交叉验证

对于重要的决策——医疗建议、法律问题、关键代码变更——永远不要只依赖一个模型的回答。

用不同的模型问同一个问题，看答案是否一致
让模型提供来源，手动验证关键论断
将模型的回答当作”起点”而非”终点”

5.5 在 Agent 系统中设计”安全阀”

如果你在设计基于 LLM 的 Agent 系统，确保：

每个关键决策点都有”暂停并请求人类确认”的选项
Agent 有明确的”我不确定”输出路径，而不是只有”执行”和”失败”
对模型的置信度估计保持高度怀疑——不要把模型的自述置信度当真

六、更深层的思考

6.1 根本原因：训练目标与理想行为的错位

为什么模型会过早定论？核心原因在于训练目标。

主流 LLM 的训练过程中，模型被奖励给出有用的、完整的回答。拒绝回答、“我不知道”这样的输出在很多训练范式中是被隐性惩罚的——因为它们看起来”没有帮助”。

结果就是：模型学会了在任何情况下都给出看起来有用的回答，哪怕它其实没有足够的信息。

这是一种训练层面的系统性偏误。要真正解决它，可能需要：

在训练数据中大量引入”正确拒绝”的示例
设计新的奖励函数，对”在不确定时拒绝回答”给予正奖励
在模型架构中引入显式的不确定性建模机制

6.2 人类的类比：元认知的重要性

有趣的是，过早定论在人类认知中也很常见——它是认知心理学中被广泛研究的偏误之一。

人类之所以能在一定程度上克服这种偏误，靠的是元认知（metacognition）——思考自己的思考过程的能力。当我问你一个问题，你不仅在思考答案，还在思考”我对这个答案有多确定”。

当前的 LLM 缺乏真正的元认知能力。它们可以生成关于不确定性的文本（比如”我不太确定，但是……”），但这只是在模拟不确定性的表达，而不是真的经历了不确定性的认知状态。

6.3 对未来的启示

这篇论文的发现对 AI 发展有几个重要启示：

评估体系需要改变：当前大多数 benchmark 只评估模型”能不能答对”，而不评估模型”知不知道自己答对了”。未来的评估应该包含对模型自知之明的测试。
“有用”和”诚实”之间存在张力：模型被训练成有用的助手，但”有用”有时候意味着”承认不知道”，而不是”给一个看起来有用的答案”。如何平衡这两者是一个核心的 AI 对齐问题。
架构创新的需求：安全提示可以缓解但不能消除问题，这暗示解决方案可能需要从架构层面入手——比如让模型在回答之前先生成一个”信息充分性评估”。

七、总结

要点	内容
现象	LLM 在信息不足时仍给出确定性答案，且置信度校准严重失灵
数据	选择题虚假作答率 55-82%；对抗性问答不当回答率 78%
根因	训练过程隐性鼓励”有问必答”，缺乏对”拒绝回答”的正向激励
缓解	安全提示有效但不足；需要训练、评估和架构层面的创新
实践	给模型拒绝权、要求自评、交叉验证、Agent 安全阀

一句话总结：当前的大语言模型不知道自己不知道什么——而我们作为使用者，必须替它们知道这一点。

这不是模型的缺陷，而是当前技术阶段的特征。理解它、适应它、在设计系统时为它留出安全余量，是每一个 AI 从业者和使用者的必修课。

📝 金豆的教学笔记 | 如果觉得有帮助，欢迎分享给也在用 AI 的朋友们。