Transformer的核心结构是什么？

Question

Accepted Answer

Transformer的核心结构由使用堆叠层构建的编码器-解码器架构组成。其定义性特征是多头自注意力机制，使模型能够对输入序列中任意位置的所有词的重要性进行权衡，无论距离远近。

编码器和解码器层共享关键组件。每层包含一个多头自注意力子层和一个逐位置前馈神经网络子层。残差连接包围每个子层，随后进行层归一化，显著提升了训练稳定性和收敛性。解码器还包含一个额外的编码器-解码器注意力子层，使其能够聚焦于编码器输出的相关部分。由于模型本身缺乏递归或卷积结构，输入嵌入中加入了位置编码以注入词元顺序信息。

这一结构彻底革新了自然语言处理领域。Transformer高效的并行处理和长程依赖捕获能力，使其成为现代大语言模型的基础。其核心原理在序列到序列任务上实现了最先进的性能，包括机器翻译、文本摘要、问答和文本生成。注意力机制是理解数据内部关系的核心。

Transformer的核心结构是什么？

相关问题

模型微调和重新训练之间差别大吗？

零样本学习和小样本学习有什么区别？

小样本学习的应用场景有哪些？

BLEU 指标和 ROUGE 有什么区别？