视觉 Transformer(ViT)学习什么?

关于视觉的探索显示,ViT 学习的归纳偏置或特征与卷积神经网络(CNN)学习的那些相似。例如,ViT 的 early layers 捕捉边缘和纹理,而 later layers 学习更复杂的表征以捕捉更广泛的概念。

视觉 Transformer 从 early layers(左)到 deeper layers(右)的可视化特征过程。

关于生成建模,ViT 倾向于生成比 CNN 更高质量的背景,这就提出了 ViT 如何处理预测任务中的背景和前景的这一问题。当背景被消除时,ViT 似乎比 CNN 更善于预测目标类别,并且在前景被消除时它们也依然表现得更好。这表明,ViT 在依赖基于其存在的某些特征时可能更具选择性,或者说,总体更为鲁棒。

资源下载
下载价格免费
原文链接:https://you-zhi.com/?p=410,转载请注明出处。
0

评论0

显示验证码
没有账号?注册  忘记密码?