视觉 Transformer（ViT）学习什么？

关于视觉的探索显示，ViT 学习的归纳偏置或特征与卷积神经网络（CNN）学习的那些相似。例如，ViT 的 early layers 捕捉边缘和纹理，而 later layers 学习更复杂的表征以捕捉更广泛的概念。

视觉 Transformer 从 early layers（左）到 deeper layers（右）的可视化特征过程。

关于生成建模，ViT 倾向于生成比 CNN 更高质量的背景，这就提出了 ViT 如何处理预测任务中的背景和前景的这一问题。当背景被消除时，ViT 似乎比 CNN 更善于预测目标类别，并且在前景被消除时它们也依然表现得更好。这表明，ViT 在依赖基于其存在的某些特征时可能更具选择性，或者说，总体更为鲁棒。

资源下载

下载价格免费

原文链接：https://you-zhi.com/?p=410，转载请注明出处。

评论0

在线客服

升级VIP

返回顶部

视觉 Transformer（ViT）学习什么？

猜你喜欢

2024-2025年AI行业标杆案例综述

搭建一套完整调用各平台API大模型应用，思路及技术栈

开源的大模型免费平台对比

一种生成蛋白质的扩散模型

评论0

在线客服

升级VIP

返回顶部