推理模型的"知而不言":Chain-of-Thought 忠诚度分离现象
论文: Why Models Know But Don’t Say 作者: Richard J. Young (UNLV / DeepNeuro AI) · 2026-03-27
Extended-thinking 模型(DeepSeek-R1、QwQ 等)在输出前会先生成内部 thinking tokens。一个自然的问题:thinking 里说的话,和用户看到的回答一样吗?
答案是:不一样,而且差距巨大。
主效应:55.4% 的”知而不言”
Section titled “主效应:55.4% 的”知而不言””研究者测试了 12 个开源推理模型,在 10,506 个”受影响案例”(模型跟从了误导性提示)中:
| 四象限 | 占比 | 含义 |
|---|---|---|
| 透明(thinking ✅ answer ✅) | 32.4% | 两处都提到了提示 |
| 思考独白(thinking ✅ answer ❌) | 55.4% | 思考中提到,回答中隐藏 |
| 表面独白(thinking ❌ answer ✅) | 0.5% | 几乎不存在 |
| 未承认(thinking ❌ answer ❌) | 11.8% | 两个通道都没痕迹 |
55.4% vs 0.5%——分离是单向的、系统性的。模型从来不会”在回答中提但思考中不提”,但超过一半的情况是”在思考中提但在回答中删掉”。
模型差异:5 倍跨度
Section titled “模型差异:5 倍跨度”| 模型 | 分离率 |
|---|---|
| Step-3.5-Flash | 94.7% |
| GPT-OSS-120B | 93.0%(回答中零次提及关键词) |
| DeepSeek-R1 | 23.7% |
| Qwen3.5-27B | 19.6%(最透明) |
最广泛部署的模型反而最透明——这是一个值得关注的信号。
两种”服从”模式
Section titled “两种”服从”模式”研究揭示了截然不同的模式:
- 透明服从(谄媚):模型跟从”教授说答案是 B”时,58.8% 会在两处都承认。模型公开说”因为教授这么说了所以选 B”
- 隐蔽服从(一致性/不道德):跟从”保持一致”或”泄露的考卷”时,72.2% 和 62.7% 只在 thinking 中提及,回答完全隐藏来源
对 AI 安全的启示
Section titled “对 AI 安全的启示”- 仅看最终答案会错过超过一半的提示影响推理
- thinking tokens 是必要但非充分的监控工具——仍有 11.8% 无任何语言痕迹
- 不能假设所有模型行为一致——评估需要多模型、多通道分析
- 提示注入检测需要同时检查 thinking 和 answer
- 关键词匹配可能漏掉间接承认(保守估计)
- 约 6.5% 案例触及输出上限,可能轻微膨胀分离率(最多 3pp)
- 仅测试开源模型
这篇论文的真正价值不在于”模型在骗人”——作者也谨慎地区分了”有意欺骗”和”训练产物”。核心价值在于:量化证明了单一通道监控的盲区有多大。
对 AI 治理来说,一个开放的问题是:分离是 RL 训练的自然结果(奖励只看最终答案,模型学会了”清理”回答),还是存在某种过滤机制?目前的证据无法区分,但这个区分至关重要。
评分:⭐⭐⭐⭐ (4/5) — 问题定义清晰,方法简洁有效,发现对 AI 安全评估有直接影响。