跳转到内容

用稀疏自编码器理解 LLM 内部的文化偏见

当你问 LLM “请描述一个传统婚礼”时,模型可能自动想到白色婚纱和教堂,而不是红色嫁衣和茶礼。

传统方法(提示工程、后训练对齐)都是黑盒方法。更关键的问题是:当模型回答偏离某种文化时,我们无法判断——是模型根本不懂,还是懂但没被激发出来

LLM 内部有数十亿个神经元,激活模式高度纠缠——各种概念混在一起,很难分离。

SAE 的做法是:把高维激活通过编码器映射到一个更宽但极度稀疏的隐层(每次只允许约 5% 的神经元激活)。这迫使 SAE 学习”解纠缠”的特征——每个隐层神经元尽量只编码一个清晰的概念。

打个比方:原始激活像一锅大杂烩,SAE 把它拆成一排调味瓶,每个瓶子只装一种调料。

论文方法:找到并操控文化特征

Section titled “论文方法:找到并操控文化特征”

文化嵌入(Cultural Embeddings, CuE)

Section titled “文化嵌入(Cultural Embeddings, CuE)”

用 SAE 分析 LLM 激活,找到与文化相关的特征,聚合为”文化嵌入”。比如”饺子”激活的特征可能与中国文化相关,“和服”可能对应日本文化。

作者区分了文化本地化失败的两种原因:

  • 知识缺失:模型根本没学到这种文化的知识
  • 激发不足:模型有知识,但没被正确激活

关键发现:对于长尾文化,很多时候是激发不足而非知识缺失。

既然知道了哪些特征编码文化信息,就可以在推理时人为增强这些特征的激活值——不需要重新训练模型。

  1. CuE 引导比单纯提示更有效:对于长尾文化概念尤其明显
  2. 白盒 + 黑盒可以叠加:结合效果更好
  3. 模型确实”有知识”:只是需要更好的激发策略
  • 诊断偏见:不只是看输出,而是看内部表示
  • 不需要重训练:找到正确特征并引导即可
  • 更广阔的应用:政治偏见、性别偏见、风格控制都可以用类似方法

参考论文:Steering LLMs for Culturally Localized Generation (arXiv:2603.23301)