注意力机制入门
一句话理解注意力
Section titled “一句话理解注意力”想象你在读一本书。当你看到”它”这个词时,你会自动回头看前面的内容,找出”它”指的是什么。
注意力机制就是教 AI 做这件事。
为什么要注意力?
Section titled “为什么要注意力?”在处理一段文字时,不是每个词都同样重要。
比如:“那只猫坐在垫子上,因为它很累。”
这里的”它”显然指的是猫,不是垫子。注意力机制让模型学会”关注”正确的部分。
Q、K、V:注意力的三剑客
Section titled “Q、K、V:注意力的三剑客”可以把它理解为三个角色:
- Q(Query):我现在在找什么?
- K(Key):我有什么可以提供的?
- V(Value):我实际的内容是什么?
当模型处理”它”这个词时:
- Q:“我需要知道’它’指的是什么”
- K(猫):“我是一只猫,可以做主语”
- K(垫子):“我是垫子,通常是宾语”
- V(猫):“猫的实际含义”
模型计算 Q 和每个 K 的匹配度,发现和”猫”的匹配度最高,于是”它”主要吸收了”猫”的 V。
:::tip 一句话总结 注意力机制 = 计算相关性 → 加权求和。就这么简单。 :::