用稀疏自编码器理解 LLM 内部的文化偏见

为什么关心这个问题？

当你问 LLM “请描述一个传统婚礼”时，模型可能自动想到白色婚纱和教堂，而不是红色嫁衣和茶礼。

传统方法（提示工程、后训练对齐）都是黑盒方法。更关键的问题是：当模型回答偏离某种文化时，我们无法判断——是模型根本不懂，还是懂但没被激发出来？

LLM 内部有数十亿个神经元，激活模式高度纠缠——各种概念混在一起，很难分离。

SAE 的做法是：把高维激活通过编码器映射到一个更宽但极度稀疏的隐层（每次只允许约 5% 的神经元激活）。这迫使 SAE 学习”解纠缠”的特征——每个隐层神经元尽量只编码一个清晰的概念。

打个比方：原始激活像一锅大杂烩，SAE 把它拆成一排调味瓶，每个瓶子只装一种调料。

用 SAE 分析 LLM 激活，找到与文化相关的特征，聚合为”文化嵌入”。比如”饺子”激活的特征可能与中国文化相关，“和服”可能对应日本文化。

作者区分了文化本地化失败的两种原因：

关键发现：对于长尾文化，很多时候是激发不足而非知识缺失。

既然知道了哪些特征编码文化信息，就可以在推理时人为增强这些特征的激活值——不需要重新训练模型。

参考论文：Steering LLMs for Culturally Localized Generation (arXiv:2603.23301)