可解释性研究的评价困境

核心问题

自动化可解释性系统（用 LLM 自主分析模型内部机制）的评价存在根本性缺陷：

基于模型组件的功能可互换性的无监督内在评价——如果一个”解释”真的抓住了组件的功能，那替换该组件后行为应该相应改变。

这篇论文点出了机械可解释性领域的一个核心困境——评价解释的好坏本身就很困难。功能可互换性的无监督评价是个有趣的思路，但能否全面替代人类判断还有待验证。

参考论文：Pitfalls in Evaluating Interpretability Agents (arXiv:2603.20101)