跳转到内容

可解释性研究的评价困境

自动化可解释性系统(用 LLM 自主分析模型内部机制)的评价存在根本性缺陷

  1. 人类专家解释本身可能是主观或不完整
  2. 基于结果的评价掩盖了研究过程的质量
  3. LLM 可能通过记忆或知情猜测”复现”已发表发现,而非真正分析

基于模型组件的功能可互换性的无监督内在评价——如果一个”解释”真的抓住了组件的功能,那替换该组件后行为应该相应改变。

这篇论文点出了机械可解释性领域的一个核心困境——评价解释的好坏本身就很困难。功能可互换性的无监督评价是个有趣的思路,但能否全面替代人类判断还有待验证。

参考论文:Pitfalls in Evaluating Interpretability Agents (arXiv:2603.20101)