《博主简介》

小伙伴们好,我是阿旭。
专注于计算机视觉领域,包括目标检测、图像分类、图像分割和目标跟踪等项目开发,提供模型对比实验、答疑辅导等。

《------往期经典推荐------》

一、AI应用软件开发实战专栏【链接】

项目名称 项目名称
1.【人脸识别与管理系统开发 2.【车牌识别与自动收费管理系统开发
3.【手势识别系统开发 4.【人脸面部活体检测系统开发
5.【图片风格快速迁移软件开发 6.【人脸表表情识别系统
7.【YOLOv8多目标识别与自动标注软件开发 8.【基于深度学习的行人跌倒检测系统
9.【基于深度学习的PCB板缺陷检测系统 10.【基于深度学习的生活垃圾分类目标检测系统
11.【基于深度学习的安全帽目标检测系统 12.【基于深度学习的120种犬类检测与识别系统
13.【基于深度学习的路面坑洞检测系统 14.【基于深度学习的火焰烟雾检测系统
15.【基于深度学习的钢材表面缺陷检测系统 16.【基于深度学习的舰船目标分类检测系统
17.【基于深度学习的西红柿成熟度检测系统 18.【基于深度学习的血细胞检测与计数系统
19.【基于深度学习的吸烟/抽烟行为检测系统 20.【基于深度学习的水稻害虫检测与识别系统
21.【基于深度学习的高精度车辆行人检测与计数系统 22.【基于深度学习的路面标志线检测与识别系统
23.【基于深度学习的智能小麦害虫检测识别系统 24.【基于深度学习的智能玉米害虫检测识别系统
25.【基于深度学习的200种鸟类智能检测与识别系统 26.【基于深度学习的45种交通标志智能检测与识别系统
27.【基于深度学习的人脸面部表情识别系统 28.【基于深度学习的苹果叶片病害智能诊断系统
29.【基于深度学习的智能肺炎诊断系统 30.【基于深度学习的葡萄簇目标检测系统
31.【基于深度学习的100种中草药智能识别系统 32.【基于深度学习的102种花卉智能识别系统
33.【基于深度学习的100种蝴蝶智能识别系统 34.【基于深度学习的水稻叶片病害智能诊断系统
35.【基于与ByteTrack的车辆行人多目标检测与追踪系统 36.【基于深度学习的智能草莓病害检测与分割系统
37.【基于深度学习的复杂场景下船舶目标检测系统 38.【基于深度学习的农作物幼苗与杂草检测系统
39.【基于深度学习的智能道路裂缝检测与分析系统 40.【基于深度学习的葡萄病害智能诊断与防治系统
41.【基于深度学习的遥感地理空间物体检测系统 42.【基于深度学习的无人机视角地面物体检测系统
43.【基于深度学习的木薯病害智能诊断与防治系统 44.【基于深度学习的野外火焰烟雾检测系统
45.【基于深度学习的脑肿瘤智能检测系统 46.【基于深度学习的玉米叶片病害智能诊断与防治系统
47.【基于深度学习的橙子病害智能诊断与防治系统 48.【基于深度学习的车辆检测追踪与流量计数系统
49.【基于深度学习的行人检测追踪与双向流量计数系统 50.【基于深度学习的反光衣检测与预警系统
51.【基于深度学习的危险区域人员闯入检测与报警系统 52.【基于深度学习的高密度人脸智能检测与统计系统
53.【基于深度学习的CT扫描图像肾结石智能检测系统 54.【基于深度学习的水果智能检测系统
55.【基于深度学习的水果质量好坏智能检测系统 56.【基于深度学习的蔬菜目标检测与识别系统
57.【基于深度学习的非机动车驾驶员头盔检测系统 58.【太基于深度学习的阳能电池板检测与分析系统
59.【基于深度学习的工业螺栓螺母检测 60.【基于深度学习的金属焊缝缺陷检测系统
61.【基于深度学习的链条缺陷检测与识别系统 62.【基于深度学习的交通信号灯检测识别
63.【基于深度学习的草莓成熟度检测与识别系统 64.【基于深度学习的水下海生物检测识别系统
65.【基于深度学习的道路交通事故检测识别系统 66.【基于深度学习的安检X光危险品检测与识别系统
67.【基于深度学习的农作物类别检测与识别系统 68.【基于深度学习的危险驾驶行为检测识别系统
69.【基于深度学习的维修工具检测识别系统 70.【基于深度学习的维修工具检测识别系统
71.【基于深度学习的建筑墙面损伤检测系统 72.【基于深度学习的煤矿传送带异物检测系统
73.【基于深度学习的老鼠智能检测系统 74.【基于深度学习的水面垃圾智能检测识别系统
75.【基于深度学习的遥感视角船只智能检测系统 76.【基于深度学习的胃肠道息肉智能检测分割与诊断系统
77.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统 78.【基于深度学习的心脏超声图像间隔壁检测分割与分析系统
79.【基于深度学习的果园苹果检测与计数系统 80.【基于深度学习的半导体芯片缺陷检测系统
81.【基于深度学习的糖尿病视网膜病变检测与诊断系统 82.【基于深度学习的运动鞋品牌检测与识别系统
83.【基于深度学习的苹果叶片病害检测识别系统 84.【基于深度学习的医学X光骨折检测与语音提示系统
85.【基于深度学习的遥感视角农田检测与分割系统 86.【基于深度学习的运动品牌LOGO检测与识别系统
87.【基于深度学习的电瓶车进电梯检测与语音提示系统 88.【基于深度学习的遥感视角地面房屋建筑检测分割与分析系统
89.【基于深度学习的医学CT图像肺结节智能检测与语音提示系统 90.【基于深度学习的舌苔舌象检测识别与诊断系统
91.【基于深度学习的蛀牙智能检测与语音提示系统 92.【基于深度学习的皮肤癌智能检测与语音提示系统
93.【基于深度学习的工业压力表智能检测与读数系统 94.【基于深度学习的CT扫描图像肝脏肿瘤智能检测与分析系统】
95.【基于深度学习的CT扫描图像脑肿瘤智能检测与分析系统】 96.【基于深度学习的甲状腺结节智能检测分割与诊断系统】

二、机器学习实战专栏【链接】,已更新31期,欢迎关注,持续更新中~~
三、深度学习【Pytorch】专栏【链接】
四、【Stable Diffusion绘画系列】专栏【链接】
五、YOLOv8改进专栏【链接】持续更新中~~
六、YOLO性能对比专栏【链接】,持续更新中~

《------正文------》

1. 引言

在这里插入图片描述

DEIMv2是基于DEIM框架结合DINOv3特征提出的实时目标检测器,涵盖从X到Atto的8种模型尺寸以适配GPU、边缘及移动设备部署;其中X/L/M/S变体采用DINOv3预训练/蒸馏骨干网络并引入空间调优适配器(STA) 实现单尺度到多尺度特征转换,超轻量变体(Nano/Pico/Femto/Atto)则通过剪枝HGNetv2满足资源约束,同时搭配简化解码器与增强型Dense O2O;在COCO数据集上,DEIMv2性能卓越,如DEIMv2-X以50.26M参数达57.8 APDEIMv2-S以9.71M参数成为首个突破50 AP的亚10M模型DEIMv2-Pico仅1.51M参数却达38.5 AP(较YOLOv10-Nano参数减少约50%),整体超越现有主流实时检测器,树立新性能标杆。

论文地址:https://arxiv.org/pdf/2509.20787
源码地址:https://github.com/Intellindust-AI-Lab/DEIMv2

2. 研究背景与目标

  • 领域挑战:实时目标检测需在性能(检测精度)与效率(参数、计算成本)间平衡,尤其轻量模型需适配边缘/移动设备。
  • 现有基础:DEIM是实时DETR主流训练框架,DINOv3具备强特征表示能力,但二者在实时检测中的潜力未充分挖掘。
  • 研究目标:结合DEIM与DINOv3,提出DEIMv2,覆盖全尺度部署场景,突破性能-效率边界。

3. DEIMv2整体架构与核心设计

3.1 架构框架

在这里插入图片描述

遵循RT-DETR设计,包含骨干网络→混合编码器→解码器三部分:

  • 编码器:处理骨干网络多尺度特征,生成初始检测结果并筛选Top-K候选框;
  • 解码器:迭代优化候选框,输出最终预测。

3.2 骨干网络设计(按模型规模分类)

模型类别 变体 骨干网络 关键调整
中大型 X ViT-S+(DINOv3预训练) 12层,隐藏层维度384
中大型 L ViT-S(DINOv3预训练) 12层,隐藏层维度384
中大型 M ViT-T+(DINOv3蒸馏) 12层,隐藏层维度256
中大型 S ViT-T(DINOv3蒸馏) 12层,隐藏层维度192
超轻量 Nano HGNetv2-B0 5层,输出1/16尺度
超轻量 Pico HGNetv2-P(剪枝B0) 4层,移除B0第4阶段,输出1/16尺度
超轻量 Femto HGNetv2-F(剪枝Pico) 3层,Pico最后阶段块数从2→1
超轻量 Atto HGNetv2-A(剪枝Femto) 3层,Femto最后阶段通道从512→256

3.3 关键创新模块

  • 空间调优适配器(STA)
    • 功能:并行于DINOv3,无参数双线性插值将ViT多块(如5/8/11块)1/16尺度特征转为多尺度,搭配轻量CNN提取细粒度细节,补充DINOv3语义特征;
    • 优势:兼顾效率与精度,适配实时检测多尺度需求。
  • 高效解码器
    • 优化1:用SwiGLUFFN替代传统FFN,增强非线性表示;
    • 优化2:用RMSNorm替代LayerNorm,稳定训练并加速;
    • 优化3:共享所有解码器层的查询位置嵌入,减少冗余计算(因查询位置迭代变化小)。
  • 增强型Dense O2O
    • 基础:DEIM的Dense O2O通过增加训练图像目标数强化监督;
    • 升级:新增Copy-Blend数据增强(仅融合新对象,不覆盖背景),优于Copy-Paste,提升性能。

3.4 训练设置

  • 损失函数:总损失为加权和,公式如下:
    在这里插入图片描述

    注:超轻量变体(Pico/Femto/Atto)因容量有限,剔除FGL(细粒度定位损失)与DDF(解耦蒸馏焦点损失)。

  • 关键超参数(部分核心参数)

超参数 X S Pico Atto
输入分辨率 640 640 640 320
训练轮次(Epochs) 50 120 468 468
基础学习率(Base LR) 5e-4 5e-4 1.6e-3 2e-3
Copy-Blend概率 0.5 0.5 0.0 0.0

4. 实验结果

在这里插入图片描述

在这里插入图片描述

4.1 中大型变体性能(对比SOTA)

模型 #参数(M) GFLOPs latency(ms) AP 优势
DEIMv2-X 50.26 151.6 13.75 57.8 超DEIM-X(62M参数、56.5 AP),参数少19%,AP高1.3
DEIMv2-L 32.18 96.32 10.47 56.0 超YOLOv12-L-turbo(27M参数、54.0 AP),AP高2.0
DEIMv2-M 18.11 52.20 8.80 53.0 超D-FINE-M(19M参数、52.3 AP),参数少4.7%,AP高0.7
DEIMv2-S 9.71 25.62 5.78 50.9 首个亚10M模型突破50 AP,超DEIM-S(10M参数、49.0 AP)

4.2 超轻量变体性能(对比SOTA)

模型 #参数(M) GFLOPs AP 对比优势
DEIMv2-Nano 3.57 6.86 43.0 与D-FINE超轻量模型相当,参数更优
DEIMv2-Pico 1.51 5.15 38.5 匹配YOLOv10-Nano(2.3M参数、38.5 AP),参数减少约50%
DEIMv2-Femto 0.96 1.67 31.0 参数不足1M,适配极端资源约束场景
DEIMv2-Atto 0.49 0.76 23.8 最小变体,参数仅0.49M,满足移动设备极限需求

在这里插入图片描述

5. 核心贡献与结论

  • 贡献1:提出覆盖全尺度部署的DEIMv2,8种模型适配GPU、边缘及移动设备;
  • 贡献2:中大型变体用DINOv3+STA优化特征利用,超轻量变体剪枝HGNetv2满足资源约束;
  • 贡献3:简化解码器与增强Dense O2O,进一步提升性能-效率比;
  • 结论:DEIMv2在COCO数据集全场景超越现有SOTA实时检测器,为不同硬件部署提供高效解决方案,推动实时目标检测实用化。

在这里插入图片描述

好了,这篇文章就介绍到这里,喜欢的小伙伴感谢给点个赞和关注,更多精彩内容持续更新~~
关于本篇文章大家有任何建议或意见,欢迎在评论区留言交流!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐