Multi-Head Attention机制的主要设计目的是通过多个注意力头并行地捕捉输入序列中的不同子空间依赖关系,从而使模型能够同时关注输入的不同方面(如不同位置或语义子空间)。
Multi-Head Attention不降低embedding维度,反而可能增加计算开销(通过分割输入到多个头再拼接)。
Multi-Head Attention机制的主要设计目的是通过多个注意力头并行地捕捉输入序列中的不同子空间依赖关系,从而使模型能够同时关注输入的不同方面(如不同位置或语义子空间)。
Multi-Head Attention不降低embedding维度,反而可能增加计算开销(通过分割输入到多个头再拼接)。