可解释性研究的评价困境
自动化可解释性系统(用 LLM 自主分析模型内部机制)的评价存在根本性缺陷:
- 人类专家解释本身可能是主观或不完整的
- 基于结果的评价掩盖了研究过程的质量
- LLM 可能通过记忆或知情猜测”复现”已发表发现,而非真正分析
基于模型组件的功能可互换性的无监督内在评价——如果一个”解释”真的抓住了组件的功能,那替换该组件后行为应该相应改变。
这篇论文点出了机械可解释性领域的一个核心困境——评价解释的好坏本身就很困难。功能可互换性的无监督评价是个有趣的思路,但能否全面替代人类判断还有待验证。
参考论文:Pitfalls in Evaluating Interpretability Agents (arXiv:2603.20101)