FlashAttention 原理之伪代码解释

最新推荐文章于 2025-05-07 10:39:57 发布

Bryce1010_贤哉回也

最新推荐文章于 2025-05-07 10:39:57 发布

阅读量814

点赞数 13

文章标签： FlashAttention vLLM 人工智能 LLM MLSYS

本文链接：https://blog.csdn.net/Fire_to_cheat_/article/details/145186391

版权

FlashAttention 原理之伪代码解释

在这里插入图片描述

$\mathrm{Attn}(Q, K, V) \;=\; \underbrace{\mathrm{softmax}\bigl(Q K^T\bigr)}_{\text{大小为 }N\times N} \;\times\; V,$

其中 $\in \mathbb{R}^{N\times d}$ ， $N$ 常常很大，直接构造和存储 $\mathrm{softmax}(QK^T)$ 需要 $O(N^2)$ 的空间，并且读写代价很高。

FlashAttention 通过将 Q, K, V 分别切成小的块（Block）并在片上(SRAM)完成大部分计算，从而避免在外部大内存(HBM)中存储或频繁读写大规模中间矩阵。算法中用到了按行块切的 query（大小为 $B_r \times d$ ）和按列块切的 key/value（大小为 $B_c \times d$ ），然后在两重循环中分块累加结果。

在这里插入图片描述

输入：

矩阵 $Q,K,V\in \mathbb{R}^{N\times d}$ 存放于外部大内存(HBM)。
片上(on-chip)有大小为 $M$ 的高速缓存(SRAM)。
还会在HBM/片上分别为中间变量分配空间，如输出 $O\in \mathbb{R}^{N\times d}$ 、部分归一化因子 $\ell\in \mathbb{R}^{N}$ 、以及部分最大值 $m\in \mathbb{R}^{N}$ （用于数值稳定）。

切分：

将 Q 按“行方向”分块，得到 $T_r = \bigl\lceil \tfrac{N}{B_r}\bigr\rceil$ 个子块 $Q_1,\dots,Q_{T_r}$ ，每块大小约为 $B_r\times d$ 。
将 K, V 按“列方向”分块，得到 $T_c = \bigl\lceil \tfrac{N}{B_c}\bigr\rceil$ 个子块 $(K_1,V_1),\dots,(K_{T_c},V_{T_c})$ ，每块大小约为 $B_c\times d$ 。
相应地，也把输出 O、部分归一化因子 $\ell$ 、和部分最大值 $m$ 按同样的行块大小 $B_r$ 切分成 $O_1,\dots,O_{T_r}, \ell_1,\dots,\ell_{T_r}, m_1,\dots,m_{T_r}$ 。

双层循环：

外层循环 (第 5 行)：遍历 Key/Value 的列块索引 $\dots T_c$ 。
将第 $j$ 个块 $K_j, V_j)$ 从外部内存(HBM)加载到片上SRAM。
内层循环 (第 7 行)：遍历 Query 的行块索引 $\dots T_r$ 。
将 $Q_i, O_i, \ell_i, m_i$ 从 HBM 加载到片上SRAM（它们都是大小为 $B_r$ 或 $B_r\times d$ 级别）。
计算局部注意力得分 $S_{ij} = Q_i K_j^T$ （大小为 $(B_r \times d) \times (B_c \times d) → B_r \times B_c$ ）。
做数值稳定的行级最大值 $\tilde{m}{ij} = \mathrm{rowmax}(S{ij})$ ，再计算 $\tilde{P}{ij} = \exp\bigl(S{ij} - \tilde{m}_{ij}\bigr)$ 。
行和 $\ell_{ij} = \mathrm{rowsum}\bigl(\tilde{P}_{ij}\bigr)$ 。
用 $\tilde{m}{ij}$ 和 $\ell{ij}$ 来更新行块级的最大值 $m_i^{new}$ 和部分归一化因子 $\ell_i^{new}$ ，并将新的输出块 $O_i$ 与新块 $\tilde{P}_{ij}V_j$ 合并。

计算 $O_i$ 的结果

$m_i^{new} = \max\bigl(m_i,\;\tilde{m}_{ij}\bigr), \quad \ell_i^{new} = e^{\,m_i - m_i^{new}}\;\ell_i \;+\; e^{\,\tilde{m}_{ij} - m_i^{new}}\;\ell_{ij}.$
若 $\tilde{m}_{ij}$ 比原先 $m_i$ 大，就把整条“数值刻度”往上挪到 $\tilde{m}{ij}$ ；否则保留原先的刻度 $m_i$ 。
$\ell_i$ 和 $\ell_{ij}$ 都要根据新的刻度 $m_i^{new}$ 进行相应的指数缩放，然后相加得到新的部分归一化因子。

现在我们得到了新的刻度 $m_i^{new}$ 和新的部分归一化因子 $\ell_i^{new}$ 。剩下的，就是把老的输出 $O_i$ 和当前块新增的输出 $\tilde{P}_{ij}V_j$ 合在一起，放到一个统一的“刻度”下。第 12 行的写法大致如下（作一点数学化展开）：

$\begin{aligned} O_i^{(\mathrm{new})} &= \underbrace{\bigl[\mathrm{diag}(\ell_i^{new})\bigr]^{-1}}{ \text{相当于每行除以 }\ell_i^{new} } \;\Bigl( \underbrace{ \mathrm{diag}(\ell_i)\;e^{\,m_i - m_i^{new}} \;O_i }{ \text{"重刻度"后的旧输出} } \;+\; \underbrace{ e^{\,\tilde{m}{ij} - m_i^{new}} \;\tilde{P}{ij}\;V_j }_{ \text{“重刻度”后的新块输出} } \Bigr). \end{aligned}$

旧输出 $O_i$ 的重刻度：

先将 $O_i$ 乘上原先“局部归一化”用到的因子 $\ell_i$ ，并且再乘上 $e^{m_i - m_i^{new}}$ ，把它转移到新的刻度 $\ell_i^{new}$ 所在的坐标系。
新块的输出 $\tilde{P}_{ij}V_j$ ：
这是在本次块的局部最大值 $\tilde{m}{ij}$ 上做的 exponent，所以要乘上 $e^{\tilde{m}{ij} - m_i^{new}}$ 去对齐到新的刻度。
再除以新的 $\ell_i^{new}$ ：
由于我们想让最终的 $O_i$ 处在 $\frac{1}{\text{(部分Softmax分母)}}\times(加权和)”$ 的形式，所以最后整体还要除以 $\ell_i^{new}$ 。
代码里用 $\bigl[\mathrm{diag}(\ell_i^{new})\bigr]^{-1}$ 的写法，是因为在实现中 $O_i$ 维度是 $B_r \times d$ ，而 $\ell_i^{new}$ 是长度为 $B_r$ 的向量，需要对每个行分别做除法。