跳转到内容

注意力机制入门

想象你在读一本书。当你看到”它”这个词时,你会自动回头看前面的内容,找出”它”指的是什么。

注意力机制就是教 AI 做这件事。

在处理一段文字时,不是每个词都同样重要。

比如:“那只坐在垫子上,因为很累。”

这里的”它”显然指的是猫,不是垫子。注意力机制让模型学会”关注”正确的部分。

可以把它理解为三个角色:

  • Q(Query):我现在在找什么?
  • K(Key):我有什么可以提供的?
  • V(Value):我实际的内容是什么?

当模型处理”它”这个词时:

  • Q:“我需要知道’它’指的是什么”
  • K(猫):“我是一只猫,可以做主语”
  • K(垫子):“我是垫子,通常是宾语”
  • V(猫):“猫的实际含义”

模型计算 Q 和每个 K 的匹配度,发现和”猫”的匹配度最高,于是”它”主要吸收了”猫”的 V。

:::tip 一句话总结 注意力机制 = 计算相关性 → 加权求和。就这么简单。 :::