自回归模型

关于AI

扳布的AI摘要

HunYuan-turbos

自回归模型 Autoregressive model，AR

本篇主要围绕GPT作为代表了解AR

2018年6月, OpenAI公司发表了论文“Improving Language Understanding by Generative Pre-training”《用生成式预训练提高模型的语言理解力》, 推出了具有1.17亿个参数的GPT（Generative Pre-training , 生成式预训练）模型

特点：decoder-only

基本原理：从左往右学习的模型，只能利用上文或者下文

AR模型通常用于生成式任务，在长文本的生成能力很强，比如NLG领域的任务：摘要、翻译、抽象问答

GPT模型架构

从上图可以很清楚的看到GPT采用的是单向Transformer模型, 例如给定一个句子[u1, u2, …, un], GPT在预测单词ui的时候只会利用[u1, u2, …, u(i-1)]的信息, 而BERT会同时利用上下文的信息[u1, u2, …, u(i-1),u(i+1), …, un]

GPT采用了Transformer的decoder模块，但是做了修改

GPT移除了第二个encoder-decoder attention子层，只保留Masked Multi-head Attention子层和Feed Forward子层
对比经典Transformer采用6层decoder，GPT采用了12层

GPT训练过程

GPT训练过程包括两个阶段：1.无监督的预训练语言模型 2.有监督的下游任务fine-tuning

无监督的预训练语言模型

给定句子U = [u1, u2, …, un], GPT训练语言模型时的目标是最大化下面的似然函数

$L_1(U) = \sum_i \log P(u_i \mid u_{i-k}, \cdots, u_{i-1}; \Theta)$

上述公式具体来说是要预测每个词 $u_i$ 的概率，这个概率是基于它前面 $u_{i-k}$ 到 $u_{i-1}$ 个词，以及模型 $\Theta$ ，这里的k表示上文的窗口大小，理论上k取值越大，模型所能获取的信息越充足，能力越强
GPT是一个单向语言模型,模型对输入U 进行特征嵌入得到 transformer 第一层的输h0，再经过多层 transformer

特征编码，使用最后一层的输出即可得到当前预测的概率分布，计算过程如下
$h_0=UW_e+W_p$
$W_p$ 表示单词位置编码 → [max_seq_len, embedding_dim]， $W_e$ 可以看作是单位矩阵 → [vocab_size, embedding_dim]
得到输入张量h0后, 要将h0传入GPT的Decoder Block中, 依次得到ht
$h_t = \text{transformer\_block}(h_{l-1}) \quad l \in [1,t]$
最后通过得到的ht来预测下一个单词
$P(u) = \text{softmax}(h_t W^T_e)$