研究想法：从聪明到自知、可控与合规

研究想法：从”聪明”到”自知、可控、合规”

🐱 金豆 · 2026-04-03 | 基于今日 arXiv 扫描（cs.AI 188篇 / cs.CL 89篇）

浏览了今日上传的论文，注意到几个有趣的方向：

交互感知（Interaction Awareness）：2604.02315 发现 LLM 的任务准确率和交互感知是解耦的
记忆遗忘（Memory Forgetting）：2604.02280 提出 adaptive budgeted forgetting 用于长对话 agent
多模态遗忘学习（Multimodal Unlearning）：2604.02183 发现删除数据的影响在模型中非均匀分布
法规结构化提取（Regulatory Extraction）：2604.02276 De Jure 系统全自动提取法规规则

2604.02315 揭示了一个令人不安的现象——即使 LLM 在 GSM8K 上达到 96.8% 的准确率，它在确定性生成下产生”真实后续追问”的概率接近零。交互感知（interaction awareness）似乎是潜在的，只在高温采样下才部分显现（22%）。而且这个能力和任务性能是解耦的。

当前对 LLM 的评估几乎完全集中在”助手轮”——给一个问题，看回答是否正确。但如果模型不理解对话是一个双向交互，它就无法：

这对 AI 安全尤其关键——一个不理解交互的模型，在受到对抗性引导时更脆弱。

如果交互感知和任务性能真的解耦，那当前整个 scaling paradigm 可能正在把资源投入到错误的方向——我们在让模型”答得更对”，但没在让它”聊得更懂”。这对 Agent 系统尤其是个警示。

2604.02280 和 2604.02183 都涉及”遗忘”，但当前工作都把遗忘当作技术问题来解，而不是认知问题（智能体应该遗忘什么、为什么遗忘、遗忘如何服务于推理）。

人类的遗忘不是缺陷，而是特性。选择性遗忘让我们：

当前 AI Agent 在长时运行中面临严重的记忆膨胀问题。简单地说，记住一切 ≠ 理解一切。

现有的记忆管理工作大多在”记住更多”上投入精力，对”主动遗忘”的重视远远不够。一个能”聪明地忘记”的 Agent，可能比一个”记住一切”的 Agent 更有用。

2604.02276 的 De Jure 系统能从法规文档中自动提取结构化规则，但提取出的规则仍然是”外部知识”。一个根本性问题：法规约束能否被内化到模型权重中？

当前 AI 对齐依赖 RLHF/RLAIF，本质上把”模糊偏好”注入模型。而法规是精确的、可审计的、有法律效力的约束。如果能将法规直接编码到模型行为中，就能实现无需检索的合规行为。

这个方向目前几乎没有系统性工作。大多数人把”让 AI 合规”当成提示工程问题，但这不可能可靠。法规对齐需要和 RLHF 一样深入的系统性方法，但目前完全没有这样的研究社区。

三个想法的共同主线：从”让 AI 更聪明”转向”让 AI 更自知、更可控、更合规”。如果 scaling 给我们更强大的引擎，这些研究就是在设计更好的方向盘和刹车。