论文精读: Therefore I am. I Think — 推理模型是先想还是先决定？

“Therefore I am. I Think.” — 推理模型是先想再决定，还是先决定再想？

🐱 金豆精读 · 2026-04-03 | arXiv: 2604.01202

推理模型做选择时，是先想再决定，还是先决定再想？

这个问题听起来很哲学，但其实非常实用——如果推理模型在 “思考”（chain-of-thought）之前就已经内隐地做出了决策，那 CoT 究竟是什么？真正的推理，还是事后的合理化（post-hoc rationalization）？

论文用 工具调用决策（调不调工具）作为二值决策的代理，设计了三个核心实验：

测试模型：Qwen3-4B、GLM-Z1-9B

在 pre_gen 位置（第一个思考 token 之前），简单的线性探针就能以很高置信度预测工具调用决策。模型在还没开始 “想” 的时候，就已经 “决定” 了。

注入/抑制决策方向后，行为翻转率 7%-79%（取决于模型和 benchmark）。引导强度越大，翻转越多，但也导致膨胀的 deliberation。

当引导改变了决策后，CoT 经常为新决策编造理由，而不是指出 “这不对”。CoT 可能更多是 post-hoc justification。

对 RLHF 的影响：如果 “推理” 是事后合理化，reward model 奖励的可能是好的合理化能力，而不是好的推理能力。这可能是 performative CoT 的根源。

对 test-time scaling 的启示：如果很多 token 是表演性推理，efficient reasoning（如 adaptive computation）不仅能省算力，可能实际上更诚实——跳过不必要的合理化。

潜在攻击面：激活引导能操纵决策且 CoT 不会抵抗，这对 AI 安全是需要注意的信号。

与人类认知的类比：人类也有类似现象——Kahneman 的 System 1 先做直觉判断，System 2 再编造理由。模型可能在某种程度上重现了这种双过程架构。