面试回答简洁版
Transformer的基本结构
面试准备细节版
1. 基本结构
Transformers的模型结构主要由以下几个部分组成:
1.1 嵌入层(Embedding Layer)
- Token Embedding:将词或子词(token)转换为对应的词向量(embedding)。
- Positional Embedding:为输入的token添加位置信息,以帮助模型理解序列顺序。
- (可选)Segment Embedding(如BERT):区分不同的句子或段落。
1.2 编码器(Encoder)
-
通常由多层相同的模块堆叠而成,每一层包含两个关键子层:
- 多头自注意力机制(Multi-head Self-Attention):
- 使每个词同时关注句子中不同位置的多个信息。
- 多头自注意力机制(Multi-head Self-Attention):