计算机视觉领域的大部分下游任务都是从二维图像理解(特征提取)开始的。
在特征提取、语义理解、图像分割等 CV 基本任务中的模型三幻神分别是 SAM、CLIP 和 DINO,分别代表了全监督、弱监督和自监督三大数据训练范式。
在人工智能领域,自监督学习(SSL)代表了 AI 模型无需人工监督即可自主学习,它已成为现代机器学习中的主流范式。自监督学习推动了大语言模型的崛起,通过在海量文本语料上的预训练,获得了通用表示能力。
相比于需要标注数据的 SAM 模型和依赖图像 – 文本对进行训练的 CLIP 模型,基于自监督学习的 DINO 具备有直接从图像本身生成学习信号的优势,数据准备门槛更低,更容易实现更大规模的数据学习以达到更精细的图像特征,泛化性更强。
2021 年,Meta 发布 DINO,它基于 ViT 构建,在无需标注的情况下可以学习到语义分割、对象检测等任务中高可用的特征,填补了 SAM 模型在计算机视觉下游任务的空白。
2023 年,DINOv2 发布并开源,是 DINO 模型的改进版本。它采用了更大规模的数据,强调训练稳定性和通用性,支持线性分类、深度估计、图像检索等下游任务,效果逼近或超越弱监督方法。
DINOv2 不仅被 Meta 用作 ImageBind 等多模态模型的视觉表征基础,也在各类视觉相关研究工作中作为经典模型广泛使用。
DINOv2 数据处理管线图
虽然 DINOv2 已经存在两年之久,它仍然是 CV 领域最优秀的前沿图像模型之一,具有完善可扩展的 ViT 结构,但遗憾就遗憾在训练数据量不够大,在高分辨率图像密集特征的任务中仍不够理想。
今天,DINOv2 的两大遗憾彻底被补足了。Meta 正式推出并开源了 DINOv3,一款通用的、SOTA 级的视觉基础模型,同样采用了自监督学习训练,能够生成更高质量的高分辨率视觉特征。
DINOv3 首次实现:一个单一的冻结视觉骨干网络在多个长期存在的密集预测任务(如目标检测和语义分割)中超越了专业解决方案。
原创文章,作者:feiniu,如若转载,请注明出处:https://www.lrblog.cn/368.html