作者:Oriane Simeoni, Huy V. Vo, Maximilian Seitzer, Federico Baldassarre, Maxime Oquab, Cijo Jose, Vasil Khalidov, Marc Szafraniec, Seungeun Yi, Michael Ramamonjisoa, Francisco Massa, Daniel Haziza, Luca Wehrstedt, Jianyuan Wang, Timothee Darcet, Theo Moutakanni, Leonel Sentana, Claire Roberts, Andrea Vedaldi, Jamie Tolan, John Brandt, Camille Couprie, Julien Mairal, Herve Jegou, Patrick Labatut, Piotr Bojanowski

单位:Meta AI Research, WRI, Inria

会议:2025 Arxiv

链接:https://arxiv.org/abs/2508.10104

研究动机

DINOv3 的目标不是再做一个只擅长分类的视觉 backbone,而是想把自监督视觉基础模型真正推到“大模型阶段”:既保留 SSL 不依赖人工标签、可跨域扩展的优点,又解决大规模训练下 dense feature 逐步退化的问题。

DINOv3-0

论文开篇给出的判断很直接:

  1. 过去几年 SSL 在线性分类上已经逐步追平监督/弱监督路线,但 dense task 依然是短板,尤其在高分辨率局部特征质量上不稳定。
  2. 当模型和训练时长继续放大时,global semantic 会继续变强,但 patch-level consistency 会明显下降,导致分割、深度、匹配、跟踪这类任务受损。
  3. 如果不能让一个 frozen backbone 同时兼顾 global understanding 和 dense geometry,那么“通用视觉基础模型”这件事就还没成立。

DINOv3-1

所以这篇工作围绕三个核心问题展开:

  1. 如何把 SSL 训练到 7B 级别,同时保持训练稳定。
  2. 如何抑制长训练带来的 dense feature collapse。
  3. 如何把一个昂贵的 7B 教师压缩成可实际部署的模型家族。

核心方法

作者把整套方案拆成四段:大规模数据构建、大模型预训练、Gram Anchoring 精修、高分辨率适配与蒸馏。

DINOv3-2

1. 大规模 SSL 预训练底座

先看骨干。DINOv3 把 DINOv2 的 teacher 从 ViT-giant 扩到 ViT-7B,仍保留 40 blocks,但把 embedding dim 提到 4096,patch size 从 14 改到 16,并把位置编码换成 RoPE,同时保留 4 个 register tokens。

DINOv3-4

训练目标仍然沿用 DINOv2 系路线:image-level DINO objective + patch-level iBOT objective,再配合 Koleo 正则做分布展开。训练策略上,一个关键改动是去掉强依赖预设 horizon 的多段 cosine schedule,改成更“长跑化”的常值训练设定,让 7B 模型持续跑到 1M iterations。

2. 数据不是越多越好,而是越大越要 curate

论文的数据来源是一个约 170 亿张图像的公开 Instagram 帖子池,再把它拆成三部分:

  1. 用分层 k-means 做 balanced curation,得到 LVD-1689M
  2. 用 retrieval-based 策略补足和下游任务更相关的视觉概念。
  3. 再加入公开 CV 数据集,如 ImageNet1k、ImageNet22k、Mapillary Street-level Sequences。

DINOv3-3

这一步的结论不是“某一种采样最好”,而是聚类式均衡覆盖和 retrieval 式任务相关性要混合使用。作者最终在训练中让 ImageNet1k 的纯净 batch 占 10%,其余时间使用多来源混合 batch。

3. 真正的核心:Gram Anchoring

作者观察到一个非常关键的现象:训练越久,分类越强,但 dense feature 越糊。也就是说,global objective 和 dense objective 不是同步收益,而是会互相挤压。

DINOv3-5

更细一点看,Gram step 介入后,iBOT loss 会快速下降,但 DINO global loss 基本不被破坏,这说明它在“修补局部结构”而不是推翻已有语义表征。

DINOv3-6

作者提出的做法不是直接约束 patch feature 本身,而是约束 patch 之间的相似性结构,也就是 Gram matrix:

其中 student 的 patch feature 记作 $X_S$,Gram teacher 的 patch feature 记作 $X_G$。这个 teacher 不是外部模型,而是当前网络较早期迭代的 EMA teacher。直觉上,它保留了更好的局部一致性,于是可以反向把后期已经“语义化过头”的 dense feature 拉回来。

这个设计有两个点值得记:

  1. 约束的是 patch-patch 关系,而不是把 feature 逐点蒸馏死,因此局部几何结构被稳住,但 feature 本身仍有移动空间。
  2. Gram refinement 是在 1M iterations 之后才开始的后处理阶段,而不是从头一起训,这让它像一个 late-stage repair step。

DINOv3-7

DINOv3-8

从 qualitative 结果看,Gram Anchoring 的作用很清楚:原来 noisy、散掉、背景污染严重的响应图,被整理成更平滑、边界更完整、主体更集中的 dense feature map。

4. 高分辨率适配

论文没有把“在 256 分辨率训练好,再强行拿去跑 1K+ 输入”当成理所当然,而是专门做了一段高分辨率适配。做法是增加 mixed-resolution crops,global crop 从 {512, 768} 里采样,继续训练 10k iterations,并继续使用 7B teacher 的 Gram anchoring。

DINOv3-9

这一段很重要,因为它解决的不是单点精度,而是“分辨率升上去之后,dense feature 是否还能继续变好”。从图 11 看,分类提升有限,但 ADE20k 分割和 DAVIS 跟踪会随着分辨率提升持续受益。

5. 多学生并行蒸馏

7B 教师本身太重,作者后面把它蒸馏成一整个模型家族,包括 ViT-S/B/L/S+/H+ 以及 ConvNeXt 系列。这里的工程亮点是 multi-student distillation:多个学生并行共享 teacher inference,减少总蒸馏成本。

DINOv3-10

这个设计的意义不在“蒸馏”两个字本身,而在于作者没有把 DINOv3 停留在一篇 7B 技术报告上,而是给出了可以实际用的模型系列。

数据集

训练数据可以分成 web-scale 主体和评测数据两部分。

  1. 预训练主数据池:约 170 亿张来自公开 Instagram 帖子的图像。
  2. 平衡聚类子集:LVD-1689M
  3. 公开补充数据:ImageNet1k、ImageNet22k、Mapillary Street-level Sequences。

实验评测覆盖面非常广,文章里主要展示了几类:

  1. Dense 预测:ADE20k、Cityscapes、VOC、NYUv2、KITTI。
  2. 3D 匹配:NAVI、SPair。
  3. 无监督目标发现:VOC 2007、VOC 2012、COCO-20k。
  4. 视频跟踪/分类:DAVIS 2017、YouTube-VOS、MOSE、UCF101、SSv2、Kinetics-400。
  5. 图像分类与检索:ImageNet1k 及其 OOD 变体、Places205、iNat 2018/2021、Oxford-H、Paris-H 等。

算力

论文给出的训练规模很大,而且写得比较透明:

  1. 主 7B 预训练使用总 batch size 4096,分布在 256 GPUs 上。
  2. 每张图采用 2 个 global crops 和 8 个 local crops,总序列长度约 3.7M tokens / batch
  3. 7B 主模型预训练跑 1,000k steps。
  4. Table 20 给出的复现实验量级是 61,440 H100-SXM5 GPU hours,按文中统一假设约对应 18 tCO2eq
  5. 论文还提到整个项目的粗略总消耗约为 9M GPU hours,这已经是典型 frontier 级视觉训练工程。

实验结果

1. dense feature 是本文最硬的结果

作者最想证明的是:DINOv3 不是“分类不错的 SSL 模型”,而是“dense feature 显著强于前代和弱监督模型的通用 backbone”。

DINOv3-11

这张 qualitative 对比很有说服力。DINOv3 的 PCA feature map 明显比 SigLIP 2、PE Spatial、DINOv2 更干净,语义区域更整块,纹理噪声更少。

对应的 quantitative 结果也很强:

DINOv3-12

在 frozen feature + 线性头这个设定下,DINOv3 7B/16 达到:

  1. ADE20k 55.9 mIoU
  2. Cityscapes 81.1 mIoU
  3. VOC 86.6 mIoU
  4. NYUv2 0.309 RMSE
  5. KITTI 2.346 RMSE

这个结果的重要性在于,它说明 DINOv3 的 dense feature 已经可以直接支撑 segmentation 和 depth 这种偏几何/局部结构任务,而不是只能做 retrieval 或 linear probe 分类。

2. 3D 一致性明显提升

DINOv3-13

在 Probe3D 协议下,DINOv3 在 NAVI 上达到 64.4 recall,在 SPair 上达到 58.7 recall,分别超过 DINOv2 和 AM-RADIO。这个结果和前面的 dense map 观察是一致的:局部特征更稳定,自然更利于跨视角对应。

3. 无监督目标发现和视频跟踪都受益

DINOv3-14

无监督目标发现上,DINOv3 在 VOC07 / VOC12 / COCO 上分别达到 66.1 / 69.5 / 55.1,明显好于 DINOv2 和 Web-DINO。

视频分割跟踪也很强:

DINOv3-15

在 DAVIS-L 上,DINOv3 达到 83.3 J&F,比 DINOv2 高 6.7 点,说明它的 image feature 本身已经具有不错的 temporal consistency。

DINOv3-16

这个例子也说明,DINOv3 的 patch similarity 已经足够稳定到支持 label propagation,而不需要额外视频特化训练。

4. global task 上也并没有掉队

尽管这篇文章的重心是 dense feature,但它在线性分类和 OOD 上同样强。

DINOv3-17

比如 Table 7 中,DINOv3 在:

  1. IN1k validation 上达到 88.4
  2. ReaL 上达到 90.4
  3. ImageNet-R 上达到 91.1
  4. ObjectNet 上达到 79.0

这意味着 Gram Anchoring 不是拿 global semantic 去换 dense quality,而是尽量把两者一起保住了。

优势与不足

优势

  1. 抓住了大规模 SSL 的真实瓶颈。很多工作只证明“更大模型更强”,这篇论文把 dense feature 在长训练中退化的问题具体化,并给出可验证的修复机制。
  2. Gram Anchoring 的设计很干净。它不是再堆一套复杂 auxiliary head,而是直接约束 patch 相似性结构,既解释得通,也容易迁移到其他 dense-preferred backbone。
  3. 实验面很广,而且主线一致。分割、深度、3D 匹配、目标发现、视频跟踪都在支持同一个结论:dense feature 真的更好了。
  4. 工程落地完整。除了 7B 主模型,还有高分辨率适配、文本对齐、多学生蒸馏和模型家族输出,明显是按“平台级 backbone”在做。

不足

  1. 成本极高。即使论文已经把训练过程拆成预训练、Gram refinement、高分辨率适配、蒸馏几个阶段,这仍然是绝大多数团队难以复现的规模。
  2. Gram Anchoring 目前更像经验上很有效的 repair step,但为什么“早期 teacher 的 Gram 结构”恰好是最优 dense prior,理论解释还不充分。
  3. 文章的主要亮点集中在 dense task,但很多 downstream 仍然停留在线性头或轻量 probing 层面。若放到 full fine-tuning 或任务特化框架里,增益是否同样稳定,还要看后续工作。
  4. 数据来源虽然符合论文设定,但 web-scale Instagram 图像池本身并不对外开放,这让完整训练 recipe 的可复现性受限。

记忆点

  1. 大模型 SSL 的主要风险不是“训不起来”,而是“越训越偏向 global semantics,dense feature 反而塌掉”。
  2. Gram Anchoring 的关键不是蒸馏 patch feature 数值,而是蒸馏 patch-patch 相似性结构。
  3. 高分辨率适配并不是可有可无的 finetune,而是 dense feature 真正吃到更多像素信息的必要阶段。
  4. DINOv3 的价值不只是一个 7B 模型,而是一条从 web-scale SSL 到高质量 dense backbone 再到可部署学生模型的完整生产线。