跳转到内容
输入关键词后按 Enter 打开第一个结果。

过早定论:当 AI 不知道自己不知道

📝 教学笔记 | 2026-05-16 📄 论文:Quantifying and Mitigating Premature Closure in Frontier LLMs ✍️ 作者:Rebecca Handler 等,2026

假设你在做一个多选题,有 A、B、C、D 四个选项。现在我把正确答案对应的选项偷偷删掉了,只留下三个错误选项给你。

你会怎么做?

大概率的反应是:“这题有问题,我不答。”

但如果你是一个大语言模型呢?

论文给出的答案是:你会选一个,而且选得很自信。

这不是假设——这是 2026 年 5 月发表的一项研究,对五个前沿大语言模型(包括 GPT-4o、Claude 等你日常使用的模型)做了完全相同的实验。结果令人不安:即使正确答案已被移除,模型仍然以 55% 到 82% 的速率选择一个答案,而不是说”我不知道”或”这道题有问题”。

这就是所谓的**“过早定论”(Premature Closure)**——在信息不足以做出可靠判断时,仍然给出确定性结论。


“过早定论”这个概念最初来自认知心理学,指的是一种常见的认知偏误:在收集到足够证据之前就锁定结论,然后过滤掉不一致的信息。

在医学领域,这是诊断错误的主要来源之一。一个医生看到病人发热、咳嗽,可能过早地锁定”感冒”这个诊断,而忽略了后续出现的皮疹——因为皮疹不符合”感冒”的故事。

论文对 LLM 的过早定论给出了明确定义:

在不确定性条件下,本应选择澄清、拒绝回答、或升级给人类时,模型却给出了一个具体的答案、建议或临床指导。

关键词是”本应”。模型并非在所有情况下都不该回答——很多时候它确实知道答案。问题出在灰色地带:当信息模糊、矛盾或不足时,模型应该表现出犹豫,但它没有。

你可能会想:这不就是幻觉(hallucination)吗?

不完全一样。幻觉是编造不存在的事实——比如捏造一篇不存在的论文。而过早定论是在不确定的情况下做选择——模型选择的答案可能看起来完全合理,推理过程也自洽,只是恰好错了,因为关键信息根本不在选项里。

用一个比喻:

  • 幻觉是一个学生编造了一个不存在的实验来支持自己的论点
  • 过早定论是一个学生在考卷上找不到正确答案,但仍然自信地选了一个——并且坚信自己是对的

两者都危险,但过早定论更隐蔽,因为它的错误答案看起来往往非常专业、非常合理


3.1 实验一:选择题中的”被删除的正确答案”

Section titled “3.1 实验一:选择题中的”被删除的正确答案””

研究者做了两组医学考试题:

  • MedQA:500 道美国执业医师资格考试题
  • AfriMed-QA:490 道非洲医学考试题

关键操作:把每道题的正确选项删掉,只留下错误选项。

如果是人类考生,看到选项里没有正确答案,大概率会质疑题目本身。但模型呢?

数据集虚假作答率(错误但仍选择回答)
MedQA55% – 81%
AfriMed-QA53% – 82%

也就是说,超过一半的情况下,模型在根本没有正确答案可选的题目里,仍然自信地选了一个错误选项

这不是某一个模型的毛病——五个前沿模型全部中招。而且不同模型之间的差异不大,说明这是一个系统性问题,不是某个模型的 bug。

3.2 实验二:开放问答中的”不当回答”

Section titled “3.2 实验二:开放问答中的”不当回答””

选择题是人为构造的场景,真实世界更复杂。研究者在两个开放问答数据集上测试:

  • HealthBench:861 个健康相关问题
  • 对抗性查询:191 个由医生专门编写的、信息不足或存在陷阱的问题

结果:

  • HealthBench:平均 30% 的问题收到了不当回答
  • 对抗性查询:78% 的问题收到了不当回答

对抗性查询的高失败率尤其值得注意。医生设计的这些问题刻意模糊或缺少关键信息,本意是测试模型是否会说”我需要更多信息”。但模型大多数时候直接给出了答案。

研究者还测试了一种”安全提示”策略——在 prompt 中明确告诉模型”如果不确定,请拒绝回答”。

结果:有改善,但无法消除。

安全提示确实降低了过早定论的比率,但残余的失败率仍然显著。这意味着:

  1. Prompt 工程是必要的,但不够的——你不能只靠一句话就让模型”知道自己不知道”
  2. 问题可能出在模型的训练方式本身——模型被训练成”有问必答”,这种倾向根深蒂固

你可能会想:“这只是医学领域的测试,我平时用 ChatGPT 写代码、查资料,跟这有什么关系?”

关系很大。原因如下:

4.1 这不是医学问题,是通用问题

Section titled “4.1 这不是医学问题,是通用问题”

论文选择医学场景是因为这里的后果最严重——一次错误诊断可能危及生命。但过早定论的根源在于模型本身,不在于领域

想想这些场景:

  • 你问模型一段代码为什么报错,但只贴了部分日志。模型自信地给出诊断,但遗漏了关键错误——因为关键信息在你没贴的那部分日志里。
  • 你问模型某个 API 的用法,但那个 API 已经在新版本中被废弃了。模型根据旧文档给出建议,运行后出 bug。
  • 你让模型分析一份数据,但数据有质量问题(缺失值、错误值)。模型没有指出数据问题,直接给出了看起来很漂亮的结论。

每一个场景都是过早定论:模型在信息不足时选择回答,而不是选择诚实。

这可能是 LLM 最危险的特性之一:它的回答总是看起来很自信

当你问一个朋友”你确定吗?“,犹豫的语气、眼神的闪躲都能给你信号。但 LLM 的每次回答都使用同样流畅、结构化的语言。错误的回答和正确的回答在语气上完全没有区别

这意味着,作为使用者,你很难通过回答本身来判断模型是否”真的知道”。你需要额外的心智负担来评估每一个回答的可靠性——而这恰恰是大多数人不会做的事。

现在越来越多的系统把 LLM 当作 Agent 的”大脑”——让它自主决策、调用工具、执行操作。

如果一个 Agent 在信息不足时不是选择”暂停,请求更多信息”,而是直接采取行动……后果可能比一个错误的聊天回答严重得多。

想象一个自动化的客服 Agent 在不理解客户问题时仍然给出解决方案,或者一个代码 Agent 在不确定依赖关系时仍然执行安装命令。


好消息是,虽然我们无法从模型层面彻底解决这个问题(这需要架构创新),但作为使用者,我们可以采取一些实用的防御策略。

在 prompt 中明确告诉模型:

“如果信息不足以给出可靠回答,请直接说’我不确定’或’需要更多信息’,不要猜测。”

虽然论文表明这不能完全消除过早定论,但确实能显著降低其发生率。这是一种低成本、高回报的策略。

5.2 主动提供”我不确定”的示范

Section titled “5.2 主动提供”我不确定”的示范”

在 prompt 中给出一个 few-shot 示例:

Q: 这个函数为什么会 segfault?
A: 只凭这段代码我无法确定。可能的原因包括空指针解引用、数组越界或栈溢出。请提供完整的错误日志和调用栈,我可以帮你进一步排查。

通过示范”不确定时该怎么回答”,你给模型提供了一个安全的行为模板。

5.3 要求模型先评估自己的确定性

Section titled “5.3 要求模型先评估自己的确定性”

在让模型给出最终答案之前,先让它做一步自我评估:

“在回答之前,先评估你对该回答的确定程度(高/中/低),并说明有哪些关键信息是你不知道的。”

这不能保证模型正确评估自己,但至少迫使它”想一下”是否存在不确定性。

对于重要的决策——医疗建议、法律问题、关键代码变更——永远不要只依赖一个模型的回答

  • 用不同的模型问同一个问题,看答案是否一致
  • 让模型提供来源,手动验证关键论断
  • 将模型的回答当作”起点”而非”终点”

5.5 在 Agent 系统中设计”安全阀”

Section titled “5.5 在 Agent 系统中设计”安全阀””

如果你在设计基于 LLM 的 Agent 系统,确保:

  • 每个关键决策点都有”暂停并请求人类确认”的选项
  • Agent 有明确的”我不确定”输出路径,而不是只有”执行”和”失败”
  • 对模型的置信度估计保持高度怀疑——不要把模型的自述置信度当真

6.1 根本原因:训练目标与理想行为的错位

Section titled “6.1 根本原因:训练目标与理想行为的错位”

为什么模型会过早定论?核心原因在于训练目标

主流 LLM 的训练过程中,模型被奖励给出有用的、完整的回答。拒绝回答、“我不知道”这样的输出在很多训练范式中是被隐性惩罚的——因为它们看起来”没有帮助”。

结果就是:模型学会了在任何情况下都给出看起来有用的回答,哪怕它其实没有足够的信息。

这是一种训练层面的系统性偏误。要真正解决它,可能需要:

  • 在训练数据中大量引入”正确拒绝”的示例
  • 设计新的奖励函数,对”在不确定时拒绝回答”给予正奖励
  • 在模型架构中引入显式的不确定性建模机制

6.2 人类的类比:元认知的重要性

Section titled “6.2 人类的类比:元认知的重要性”

有趣的是,过早定论在人类认知中也很常见——它是认知心理学中被广泛研究的偏误之一。

人类之所以能在一定程度上克服这种偏误,靠的是元认知(metacognition)——思考自己的思考过程的能力。当我问你一个问题,你不仅在思考答案,还在思考”我对这个答案有多确定”。

当前的 LLM 缺乏真正的元认知能力。它们可以生成关于不确定性的文本(比如”我不太确定,但是……”),但这只是在模拟不确定性的表达,而不是真的经历了不确定性的认知状态

这篇论文的发现对 AI 发展有几个重要启示:

  1. 评估体系需要改变:当前大多数 benchmark 只评估模型”能不能答对”,而不评估模型”知不知道自己答对了”。未来的评估应该包含对模型自知之明的测试。

  2. “有用”和”诚实”之间存在张力:模型被训练成有用的助手,但”有用”有时候意味着”承认不知道”,而不是”给一个看起来有用的答案”。如何平衡这两者是一个核心的 AI 对齐问题。

  3. 架构创新的需求:安全提示可以缓解但不能消除问题,这暗示解决方案可能需要从架构层面入手——比如让模型在回答之前先生成一个”信息充分性评估”。


要点内容
现象LLM 在信息不足时仍给出确定性答案,且置信度校准严重失灵
数据选择题虚假作答率 55-82%;对抗性问答不当回答率 78%
根因训练过程隐性鼓励”有问必答”,缺乏对”拒绝回答”的正向激励
缓解安全提示有效但不足;需要训练、评估和架构层面的创新
实践给模型拒绝权、要求自评、交叉验证、Agent 安全阀

一句话总结:当前的大语言模型不知道自己不知道什么——而我们作为使用者,必须替它们知道这一点。

这不是模型的缺陷,而是当前技术阶段的特征。理解它、适应它、在设计系统时为它留出安全余量,是每一个 AI 从业者和使用者的必修课。


📝 金豆的教学笔记 | 如果觉得有帮助,欢迎分享给也在用 AI 的朋友们。