跳转到内容
输入关键词后按 Enter 打开第一个结果。

涌现通信:AI 如何发明自己的语言

涌现通信:AI 如何发明自己的语言

Section titled “涌现通信:AI 如何发明自己的语言”

当两个或多个 AI agent 被放在同一个环境里,需要协作完成任务时,它们可以自发地发明一套”语言”来交流——这不是人类教给它们的,而是从奖励信号中演化出来的。这就叫涌现通信(Emergent Communication)。

听起来很科幻,但这个领域已经有二十多年的研究历史了。它不仅是多智能体系统的核心技术,也是理解语言起源、心智理论和 AI 可解释性的重要窗口。

涌现通信的思想根源可以追溯到哲学家 David Lewis (1969)信号博弈(Signaling Game)。Lewis 提出:如果两个人反复玩一个游戏——A 看到世界的一个状态,发信号给 B,B 根据信号做判断——那么即使没有任何预定义的语言,他们也能通过反复试错建立起有效的通信协议。这是一个关于惯例(convention)如何自发形成的深刻思想实验。

到了 1990 年代末,计算语言学家 James Hurford 开始用计算机模拟这个想法,研究了简单神经网络如何在通信压力下演化出类似语言的结构。2000 年左右,Luc Steels 的「Talking Heads」实验把这个问题搬到了物理机器人上——几台安装在博物馆里的机器人,通过观看颜色卡片并互相描述,逐渐发明了一套共享的颜色词汇系统。这些早期工作奠定了涌现通信的实验范式。

进入深度学习时代后,Foerster et al. (2016) 的工作重新点燃了这个领域:他们用 DQN + continuous messages 在多智能体环境中实现了端到端的通信学习。此后涌现通信成为了 MARL(多智能体强化学习)中最活跃的方向之一。

  1. 语言起源问题:人类语言是怎么来的?涌现通信给了我们一个计算实验的窗口
  2. AI 可解释性:agent 发明的”语言”通常人类看不懂——这和 LLM 的黑箱问题异曲同工
  3. 多智能体协作:自动驾驶车队、机器人团队等实际场景中,预定义协议往往不够灵活
  4. 哲学意义:如果最优的认知方式不依赖符号系统,那”思维是否需要语言格式”就成了可实验的问题
  5. 与 LLM 的深层联系:LLM 的内部表示本质上也是一种”涌现的语言”

一个生动的例子:两支搜索队的冒险

Section titled “一个生动的例子:两支搜索队的冒险”

想象这样的场景:

环境:一个 10×10 的网格世界,分布着 3 种颜色的宝箱
两个 agent 组队:Alice(侦察者)和 Bob(收集者)
每轮游戏:
1. Alice 能看到周围 5×5 范围内的所有宝箱
2. Bob 看不到任何宝箱
3. Alice 发送一条消息给 Bob(限制为 3 个离散符号)
4. Bob 根据消息决定往哪个方向走
5. 找到宝箱则共享奖励

训练 10 万轮之后,Alice 学会了用特定符号组合表示”红色在左前方”、“蓝色在右方”等。但关键是——这些符号的编码方式是任意的。只要双方达成一致的约定,任务就能成功。这和人类语言中”苹果”叫 apple 而不是 guava 是一样的道理。

最经典的做法。发送者生成离散消息,接收者根据消息行动。因为离散操作不可微,用策略梯度端到端训练。优点是消息天然离散;缺点是训练不稳定。

用连续的 softmax 分布来近似离散的 one-hot 采样,让整个通信通道可以用反向传播训练。温度参数控制”有多离散”——温度越低越接近真正的离散采样。这是目前最常用的方法。

限制消息容量是关键设计。如果消息维度太大,agent 会直接把所有信息”倒”进去。通过限制为几个离散符号,迫使 agent 只传递最关键的信息。

  • 合作博弈:agent 共享奖励 → 通信能有效涌现
  • 零和博弈:agent 利益对立 → 通信会退化成欺骗或噪声,类似生物界中的信号欺骗

“红色”用符号 A 还是 B 表示?两种方案一样好,但如果双方选了不同方案就失败了。这需要引入对称性破缺机制。

接收者需要推理发送者为什么要发这条消息——这要求心智理论能力。发送者也在推理接收者会怎么理解,问题变成递归的。

持续训练中通信协议不断变化。无法中途换新接收者,因为它不懂当前的”方言”。需要固定锚点或引入正则化。

相似之处:两者都在内部发明了”语言”;都面临可解释性挑战;都依赖于下游任务的压力塑造表示。

关键区别:涌现通信是”横向的”(agent 之间),LLM 是”纵向的”(层与层之间)。涌现通信很难自发产生组合性,而 LLM 通过大量人类文本间接获得了组合性。

理解涌现通信,可以帮助我们理解 LLM 中表示的形成和演化——比如高层表示是否也经历了类似”对称性破缺”的过程?

  • LLM 作为通信 agent:用 GPT-4 等作为多智能体通信参与者,研究其协商和协作策略
  • 组合性突破:通过精心设计环境和辅助损失,引导涌现出具有组合结构的语言
  • 大规模多智能体通信:数百到数千个 agent 的通信挑战,以及 ad-hoc teamwork 场景
  • 多模态涌现通信:用图像、视频等多模态信息作为消息的新方向
  • Lewis (1969): Convention: A Philosophical Study
  • Steels (2001): “Language Games for Autonomous Robots”
  • Foerster et al. (2016): “Learning to Communicate with Deep Multi-Agent Reinforcement Learning”
  • Lowe et al. (2019): “Multi-Agent Communication via Differentiable Protocol Learning”