基础知识
Transformer
两种注意力评分: 加性注意力和缩放点积注意力
向量化:
Q 为 \(n \times d\)维,K为 \(m \times d\) 维,V为 \(m \times v\) 维,n,m为query个数和键值对的个数。d,v为值的维数。
nnConv2d卷积操作的特征图的尺寸计算
经过卷积后的特征图尺寸等于卷积核滑动的次数 + 1,现在假设卷积前的特征图宽度为N,卷积后输出的特征图宽度为M ,padding之后的矩阵宽度等于N+2*padding 。卷积核的滑动次数等于 M-1
\[ N+2{\times}padding = (M-1){\times}strides +kernel\_size \] 输出矩阵的宽度
\[M = (N + 2* padding - kernel\_size)/stride + 1 \]
相关资源
Relative Position Encoding
- 先计算出每个位置的相对索引,然后给行、列标加上 \(M-1\),\(M\)为窗口的大小,然后行标乘以 \(2M-1\),然后行、列标相加,得到 relative position index,然后根据 \(2M-1 \times 2M-1\)的 relative position bias table,利用relative position index进行索引,得到对应的relative position bias。
参考链接:
https://www.bilibili.com/video/BV1pL4y1v7jC/?spm_id_from=333.788&vd_source=14b6fe8ee5c754517b8d9ea208b65098
https://www.cnblogs.com/shiyublog/p/11185625.html
https://www.cnblogs.com/shiyublog/p/11236212.html
各种卷积
卷积的公式: \[(f*g)(t)=\int_{-\infty}^{\infty}f(\tau)g(t-\tau)d\tau \]
卷积的特点:权重共享(weights sharing)、平移不变性(translation invariance)
转置卷积:
- 对于卷积核尺寸为k,步长stride=1, 填充padding=0的标准卷积,等价的转置卷积在尺寸为i'的输入矩阵上进行运算,输出的特征图的尺寸o'为: \[o' = i' + (k - 1)\]
同时转置卷积的输入矩阵需要进行 $ padding'= k-1 $ 的填充
- 对于stride>1,卷积核的尺寸为k,填充padding=0的标准卷积,等价的专职卷积在尺寸为i'的输入矩阵上进行运算,输出的特征图的尺寸o'为: \[o' = s(i'- 1) + k \]
同时转置卷积的输入矩阵需要进行 \(padding'=k-1\) 的填充,相邻元素间的空洞大小为 \(s-1\)。
深度可分离卷积:就是将一般的卷积的对各个通道运算完,求和的那一步,拆分开,让一个 \(1 \times 1\)的卷积去做这个求和,前面各个通道的卷积核对应执行卷积操作。
空间可分离卷积:就是将 \(H \times W\)的卷积核,拆分成 \(H \times 1\) 和 \(1 \times W\) 的卷积核。能够减少运算的次数