2

今天我的老师问我一个问题:他说CNN是使用图像或矩阵的平移不变性。那么 Transformer 使用的属性是什么???

4

1 回答 1

1

与卷积相比,Transformer 有两个主要特性使得它们如此吸引人:

  1. 变压器是置换等变的。这使得变换器对于集合预测非常有用。对于顺序很重要的序列和图像,使用位置编码/嵌入。
  2. Transformer 的感受野是整个输入(!),而不是卷积层的非常有限的感受野。

见秒。3和图。3 in:
Shir Amir、Yossi Gandelsman、Shai Bagon 和 Tali Dekel 深度 ViT 特征作为密集视觉描述符(arXiv 2021)。

于 2022-01-05T08:50:55.997 回答