基础知识

Transformer

两种注意力评分: 加性注意力和缩放点积注意力

向量化:

Q 为 nxd维,K为mxd维,V为mxv维,n,m为query个数和键值对的个数。d,v为值的维数。

nnConv2d卷积操作的特征图的尺寸计算

经过卷积后的特征图尺寸等于卷积核滑动的次数 + 1,现在假设卷积前的特征图宽度为N,卷积后输出的特征图宽度为M ,padding之后的矩阵宽度等于N+2*padding 。卷积核的滑动次数等于 M-1

\[ N+2{\times}padding = (M-1){\times}strides +kernel\_size \] 输出矩阵的宽度

\[M = (N + 2* padding - kernel\_size)/stride + 1 \]

相关资源

知乎链接

PaddleDeepLearning

各种卷积

  1. 卷积的公式: \[(f*g)(t)=\int_{-\infty}^{\infty}f(\tau)g(t-\tau)d\tau \]

  2. 卷积的特点:权重共享(weights sharing)、平移不变性(translation invariance)

  3. 转置卷积:

    • 对于卷积核尺寸为k,步长stride=1, 填充padding=0的标准卷积,等价的转置卷积在尺寸为i'的输入矩阵上进行运算,输出的特征图的尺寸o'为: \[o' = i' + (k - 1)\]

    同时转置卷积的输入矩阵需要进行 $ padding'= k-1 $ 的填充

    • 对于stride>1,卷积核的尺寸为k,填充padding=0的标准卷积,等价的专职卷积在尺寸为i'的输入矩阵上进行运算,输出的特征图的尺寸o'为: \[o' = s(i'- 1) + k \]

    同时转置卷积的输入矩阵需要进行 \(padding'=k-1\) 的填充,相邻元素间的空洞大小为 \(s-1\)

  4. 深度可分离卷积:就是将一般的卷积的对各个通道运算完,求和的那一步,拆分开,让一个 \(1 \times 1\)的卷积去做这个求和,前面各个通道的卷积核对应执行卷积操作。

  5. 空间可分离卷积:就是将 \(H \times W\)的卷积核,拆分成 \(H \times 1\)\(1 \times W\) 的卷积核。能够减少运算的次数