Transformer:深度学习时代的分水岭
过去十年,深度学习几乎重塑了整个人工智能领域。从图像识别到语音识别,再到自然语言处理(NLP),我们见证了一个又一个模型的进化。而在 NLP 领域,真正改变游戏规则的模型,毫无疑问是 Transformer。
这篇文章将带你从零理解 Transformer:
它为什么出现?解决了什么问题?内部结构如何运作?为什么它能成为 GPT、BERT 等大模型的基础?
一、Transformer 的出现:时代的需要
在 Transformer 出现之前,NLP 的主流模型是:
- RNN(循环神经网络)
- LSTM / GRU(改进版 RNN)
- CNN 文本卷积模型
虽然这些模型在当时取得了不错的效果,但也遭遇了多个根本性瓶颈:
1. 序列依赖太强,难以并行
RNN 每一步都依赖前一步:
1 | h(t) -> h(t+1) -> h(t+2) ... |
这意味着:
- 训练无法并行化
- 速度慢
- 对长序列不友好(梯度消失/爆炸问题)
2. 长距离依赖难以建模
例如句子:
“我昨天看了一部电影,我觉得它非常好看。”
这里“它”指代“电影”,人类很自然,但 RNN 需要跨越很多词才能关联,效果不稳定。
3. CNN 虽可并行,但感受野有限
必须堆叠很多层卷积才能覆盖长距离上下文,效率仍然不高。
二、Transformer:新的范式从此诞生
2017 年,Google 在论文 《Attention Is All You Need》 中提出:
“序列建模根本不需要 RNN,也不需要 CNN,只需要 Attention(注意力)。”
这是一个革命性的观点。
Transformer 完全抛弃 RNN 的递归结构,转而只使用:
→ Self-Attention(自注意力机制)
→ Position Encoding(位置编码)
→ 多头注意力、多层堆叠(Multi-Head, Stacked Layers)
最核心的思想是:
“在序列中,每个词都能直接和其他所有词建立联系,并根据相关性动态分配权重。”
这彻底解决了 RNN 的所有历史问题。
三、Transformer 为什么如此强大?
总结它的优势可以一句话概括:
更快、更准、能看全局。
下面逐点解释。
1. 训练可以完全并行化(突破性进步)
自注意力机制让所有词之间的关系可以一次性计算:
1 | 所有词 ↔ 所有词 |
不再像 RNN 一步步传递。
这带来:
- 训练速度巨大提升
- 能利用 GPU 的矩阵计算优势
- 能训练更大的模型
2. 天然具备“全局视野”
自注意力机制计算每个词对所有词的重要性,例如:
1 | Attention("它", "电影") → 高权重 |
模型能自动找到长距离依赖关系。
3. 表达能力更强
Transformer 使用 多头注意力(Multi-Head Attention):
- 一个头关注语义信息
- 一个头关注句法结构
- 一个头关注代词关系
……
模型可以从多个角度“看”句子,让表示更加丰富。
4. 更容易扩展、堆叠和并行
Transformer 模块化结构清晰,可以堆叠几十层甚至上百层。
这为后续的模型奠定了基础:
- BERT(2018)
- GPT 系列(2018 – 2024)
- ViT 图像 Transformer(2021)
- ChatGPT、Claude、Gemini 等顶级大模型
都源自 Transformer。
四、Transformer 内部结构概览

Transformer 包含 Encoder(编码器) 和 Decoder(解码器) 两个部分,但现代大多数模型只使用其中一部分:
| 模型 | 使用结构 |
|---|---|
| BERT | Encoder-only |
| GPT | Decoder-only |
| T5 / FLAN | Encoder-Decoder |
原始架构中,一个 Transformer 层包含:
1. Multi-Head Self-Attention(多头自注意力)
核心计算公式:
1 | Attention(Q, K, V) = softmax(QKᵀ / sqrt(d_k)) V |
实现“词与词之间相关性”的计算。
2. Feed Forward Network(位置前馈网络)
对每个词的表示做非线性变换,提升表达能力。
3. Add & Norm(残差连接 + LayerNorm)
为了解决深层网络训练困难问题。
4. Position Encoding(位置编码)
因为 Transformer 不再使用 RNN/CNN,序列没有位置顺序,因此需要位置编码告诉模型:
- 谁是第一个词
- 谁是第二个词
- 谁更靠后
位置编码通常用正弦余弦函数构造。
五、Transformer 之后:新时代的大模型浪潮
Transformer 诞生后,NLP 领域彻底变天。
2018:BERT 出现
- 彻底改变 NLP 预训练范式
- 情感分析、命名实体识别等任务效果暴涨
2018~2020:GPT 系列
- GPT-1 → GPT-2 → GPT-3
- 语言生成能力大幅提升
- LLM(大语言模型)时代开启
2021:Vision Transformer(ViT)
Transformer 模型跨界视觉,效果强于 CNN
2022~2025:ChatGPT 时代
Transformer 模型成为 AGI 的基础框架
世界开始感受 AI 的力量