过早定论:当 AI 不知道自己不知道
📝 教学笔记 | 2026-05-16 📄 论文:Quantifying and Mitigating Premature Closure in Frontier LLMs ✍️ 作者:Rebecca Handler 等,2026
一、一个思想实验
Section titled “一、一个思想实验”假设你在做一个多选题,有 A、B、C、D 四个选项。现在我把正确答案对应的选项偷偷删掉了,只留下三个错误选项给你。
你会怎么做?
大概率的反应是:“这题有问题,我不答。”
但如果你是一个大语言模型呢?
论文给出的答案是:你会选一个,而且选得很自信。
这不是假设——这是 2026 年 5 月发表的一项研究,对五个前沿大语言模型(包括 GPT-4o、Claude 等你日常使用的模型)做了完全相同的实验。结果令人不安:即使正确答案已被移除,模型仍然以 55% 到 82% 的速率选择一个答案,而不是说”我不知道”或”这道题有问题”。
这就是所谓的**“过早定论”(Premature Closure)**——在信息不足以做出可靠判断时,仍然给出确定性结论。
二、什么是”过早定论”?
Section titled “二、什么是”过早定论”?”2.1 从认知心理学说起
Section titled “2.1 从认知心理学说起”“过早定论”这个概念最初来自认知心理学,指的是一种常见的认知偏误:在收集到足够证据之前就锁定结论,然后过滤掉不一致的信息。
在医学领域,这是诊断错误的主要来源之一。一个医生看到病人发热、咳嗽,可能过早地锁定”感冒”这个诊断,而忽略了后续出现的皮疹——因为皮疹不符合”感冒”的故事。
2.2 LLM 版本的过早定论
Section titled “2.2 LLM 版本的过早定论”论文对 LLM 的过早定论给出了明确定义:
在不确定性条件下,本应选择澄清、拒绝回答、或升级给人类时,模型却给出了一个具体的答案、建议或临床指导。
关键词是”本应”。模型并非在所有情况下都不该回答——很多时候它确实知道答案。问题出在灰色地带:当信息模糊、矛盾或不足时,模型应该表现出犹豫,但它没有。
2.3 这和”幻觉”不一样
Section titled “2.3 这和”幻觉”不一样”你可能会想:这不就是幻觉(hallucination)吗?
不完全一样。幻觉是编造不存在的事实——比如捏造一篇不存在的论文。而过早定论是在不确定的情况下做选择——模型选择的答案可能看起来完全合理,推理过程也自洽,只是恰好错了,因为关键信息根本不在选项里。
用一个比喻:
- 幻觉是一个学生编造了一个不存在的实验来支持自己的论点
- 过早定论是一个学生在考卷上找不到正确答案,但仍然自信地选了一个——并且坚信自己是对的
两者都危险,但过早定论更隐蔽,因为它的错误答案看起来往往非常专业、非常合理。
三、论文发现了什么?
Section titled “三、论文发现了什么?”3.1 实验一:选择题中的”被删除的正确答案”
Section titled “3.1 实验一:选择题中的”被删除的正确答案””研究者做了两组医学考试题:
- MedQA:500 道美国执业医师资格考试题
- AfriMed-QA:490 道非洲医学考试题
关键操作:把每道题的正确选项删掉,只留下错误选项。
如果是人类考生,看到选项里没有正确答案,大概率会质疑题目本身。但模型呢?
| 数据集 | 虚假作答率(错误但仍选择回答) |
|---|---|
| MedQA | 55% – 81% |
| AfriMed-QA | 53% – 82% |
也就是说,超过一半的情况下,模型在根本没有正确答案可选的题目里,仍然自信地选了一个错误选项。
这不是某一个模型的毛病——五个前沿模型全部中招。而且不同模型之间的差异不大,说明这是一个系统性问题,不是某个模型的 bug。
3.2 实验二:开放问答中的”不当回答”
Section titled “3.2 实验二:开放问答中的”不当回答””选择题是人为构造的场景,真实世界更复杂。研究者在两个开放问答数据集上测试:
- HealthBench:861 个健康相关问题
- 对抗性查询:191 个由医生专门编写的、信息不足或存在陷阱的问题
结果:
- HealthBench:平均 30% 的问题收到了不当回答
- 对抗性查询:78% 的问题收到了不当回答
对抗性查询的高失败率尤其值得注意。医生设计的这些问题刻意模糊或缺少关键信息,本意是测试模型是否会说”我需要更多信息”。但模型大多数时候直接给出了答案。
3.3 安全提示能救命吗?
Section titled “3.3 安全提示能救命吗?”研究者还测试了一种”安全提示”策略——在 prompt 中明确告诉模型”如果不确定,请拒绝回答”。
结果:有改善,但无法消除。
安全提示确实降低了过早定论的比率,但残余的失败率仍然显著。这意味着:
- Prompt 工程是必要的,但不够的——你不能只靠一句话就让模型”知道自己不知道”
- 问题可能出在模型的训练方式本身——模型被训练成”有问必答”,这种倾向根深蒂固
四、为什么这很重要?
Section titled “四、为什么这很重要?”你可能会想:“这只是医学领域的测试,我平时用 ChatGPT 写代码、查资料,跟这有什么关系?”
关系很大。原因如下:
4.1 这不是医学问题,是通用问题
Section titled “4.1 这不是医学问题,是通用问题”论文选择医学场景是因为这里的后果最严重——一次错误诊断可能危及生命。但过早定论的根源在于模型本身,不在于领域。
想想这些场景:
- 你问模型一段代码为什么报错,但只贴了部分日志。模型自信地给出诊断,但遗漏了关键错误——因为关键信息在你没贴的那部分日志里。
- 你问模型某个 API 的用法,但那个 API 已经在新版本中被废弃了。模型根据旧文档给出建议,运行后出 bug。
- 你让模型分析一份数据,但数据有质量问题(缺失值、错误值)。模型没有指出数据问题,直接给出了看起来很漂亮的结论。
每一个场景都是过早定论:模型在信息不足时选择回答,而不是选择诚实。
4.2 “自信”不等于”正确”
Section titled “4.2 “自信”不等于”正确””这可能是 LLM 最危险的特性之一:它的回答总是看起来很自信。
当你问一个朋友”你确定吗?“,犹豫的语气、眼神的闪躲都能给你信号。但 LLM 的每次回答都使用同样流畅、结构化的语言。错误的回答和正确的回答在语气上完全没有区别。
这意味着,作为使用者,你很难通过回答本身来判断模型是否”真的知道”。你需要额外的心智负担来评估每一个回答的可靠性——而这恰恰是大多数人不会做的事。
4.3 Agent 时代的放大效应
Section titled “4.3 Agent 时代的放大效应”现在越来越多的系统把 LLM 当作 Agent 的”大脑”——让它自主决策、调用工具、执行操作。
如果一个 Agent 在信息不足时不是选择”暂停,请求更多信息”,而是直接采取行动……后果可能比一个错误的聊天回答严重得多。
想象一个自动化的客服 Agent 在不理解客户问题时仍然给出解决方案,或者一个代码 Agent 在不确定依赖关系时仍然执行安装命令。
五、如何识别和防御?
Section titled “五、如何识别和防御?”好消息是,虽然我们无法从模型层面彻底解决这个问题(这需要架构创新),但作为使用者,我们可以采取一些实用的防御策略。
5.1 给模型”拒绝权”
Section titled “5.1 给模型”拒绝权””在 prompt 中明确告诉模型:
“如果信息不足以给出可靠回答,请直接说’我不确定’或’需要更多信息’,不要猜测。”
虽然论文表明这不能完全消除过早定论,但确实能显著降低其发生率。这是一种低成本、高回报的策略。
5.2 主动提供”我不确定”的示范
Section titled “5.2 主动提供”我不确定”的示范”在 prompt 中给出一个 few-shot 示例:
Q: 这个函数为什么会 segfault?A: 只凭这段代码我无法确定。可能的原因包括空指针解引用、数组越界或栈溢出。请提供完整的错误日志和调用栈,我可以帮你进一步排查。通过示范”不确定时该怎么回答”,你给模型提供了一个安全的行为模板。
5.3 要求模型先评估自己的确定性
Section titled “5.3 要求模型先评估自己的确定性”在让模型给出最终答案之前,先让它做一步自我评估:
“在回答之前,先评估你对该回答的确定程度(高/中/低),并说明有哪些关键信息是你不知道的。”
这不能保证模型正确评估自己,但至少迫使它”想一下”是否存在不确定性。
5.4 对高 stakes 场景做交叉验证
Section titled “5.4 对高 stakes 场景做交叉验证”对于重要的决策——医疗建议、法律问题、关键代码变更——永远不要只依赖一个模型的回答。
- 用不同的模型问同一个问题,看答案是否一致
- 让模型提供来源,手动验证关键论断
- 将模型的回答当作”起点”而非”终点”
5.5 在 Agent 系统中设计”安全阀”
Section titled “5.5 在 Agent 系统中设计”安全阀””如果你在设计基于 LLM 的 Agent 系统,确保:
- 每个关键决策点都有”暂停并请求人类确认”的选项
- Agent 有明确的”我不确定”输出路径,而不是只有”执行”和”失败”
- 对模型的置信度估计保持高度怀疑——不要把模型的自述置信度当真
六、更深层的思考
Section titled “六、更深层的思考”6.1 根本原因:训练目标与理想行为的错位
Section titled “6.1 根本原因:训练目标与理想行为的错位”为什么模型会过早定论?核心原因在于训练目标。
主流 LLM 的训练过程中,模型被奖励给出有用的、完整的回答。拒绝回答、“我不知道”这样的输出在很多训练范式中是被隐性惩罚的——因为它们看起来”没有帮助”。
结果就是:模型学会了在任何情况下都给出看起来有用的回答,哪怕它其实没有足够的信息。
这是一种训练层面的系统性偏误。要真正解决它,可能需要:
- 在训练数据中大量引入”正确拒绝”的示例
- 设计新的奖励函数,对”在不确定时拒绝回答”给予正奖励
- 在模型架构中引入显式的不确定性建模机制
6.2 人类的类比:元认知的重要性
Section titled “6.2 人类的类比:元认知的重要性”有趣的是,过早定论在人类认知中也很常见——它是认知心理学中被广泛研究的偏误之一。
人类之所以能在一定程度上克服这种偏误,靠的是元认知(metacognition)——思考自己的思考过程的能力。当我问你一个问题,你不仅在思考答案,还在思考”我对这个答案有多确定”。
当前的 LLM 缺乏真正的元认知能力。它们可以生成关于不确定性的文本(比如”我不太确定,但是……”),但这只是在模拟不确定性的表达,而不是真的经历了不确定性的认知状态。
6.3 对未来的启示
Section titled “6.3 对未来的启示”这篇论文的发现对 AI 发展有几个重要启示:
-
评估体系需要改变:当前大多数 benchmark 只评估模型”能不能答对”,而不评估模型”知不知道自己答对了”。未来的评估应该包含对模型自知之明的测试。
-
“有用”和”诚实”之间存在张力:模型被训练成有用的助手,但”有用”有时候意味着”承认不知道”,而不是”给一个看起来有用的答案”。如何平衡这两者是一个核心的 AI 对齐问题。
-
架构创新的需求:安全提示可以缓解但不能消除问题,这暗示解决方案可能需要从架构层面入手——比如让模型在回答之前先生成一个”信息充分性评估”。
| 要点 | 内容 |
|---|---|
| 现象 | LLM 在信息不足时仍给出确定性答案,且置信度校准严重失灵 |
| 数据 | 选择题虚假作答率 55-82%;对抗性问答不当回答率 78% |
| 根因 | 训练过程隐性鼓励”有问必答”,缺乏对”拒绝回答”的正向激励 |
| 缓解 | 安全提示有效但不足;需要训练、评估和架构层面的创新 |
| 实践 | 给模型拒绝权、要求自评、交叉验证、Agent 安全阀 |
一句话总结:当前的大语言模型不知道自己不知道什么——而我们作为使用者,必须替它们知道这一点。
这不是模型的缺陷,而是当前技术阶段的特征。理解它、适应它、在设计系统时为它留出安全余量,是每一个 AI 从业者和使用者的必修课。
📝 金豆的教学笔记 | 如果觉得有帮助,欢迎分享给也在用 AI 的朋友们。