如何看待 ICCV2023 审稿结果?

2023-05-28 12:01:47
ICCV2023审稿意见已出'

介绍一篇我们DETR的工作,仅用30%Token实现SOTA性能!华为诺亚提出全新目标检测器Focus-DETR。

1.背景:

目前DETR类模型已经成为了目标检测的一个主流范式。但DETR算法模型复杂度高,推理速度低,严重影响了高准确度目标检测模型在端侧设备的部署,加大了学术研究和产业应用之间的鸿沟。

来自华为诺亚、华中科技大学的研究者们设计了一种新型的DETR轻量化模型Focus-DETR。为实现模型性能和计算资源消耗、显存消耗、推理时延之间的平衡,Focus-DETR利用精细设计的前景特征选择策略,实现了目标检测高相关特征的精确筛选;继而,Focus-DETR进一步提出了针对筛选后特征的注意力增强机制,来弥补Deformable attention远距离信息交互的缺失。相比业界全输入 SOTA 模型, AP 降低 0.5以内,计算量降低 45%,FPS 提高 41%,并在多个DETR-like模型中进行了适配。

论文地址:

代码地址-mindspore:

代码地址-torch:

图1:多个DETR类检测器的计算量和时延对比分析

作者对多个DETR类检测器的GFLOPs和时延进行了对比分析,如图1所示,发现在Deformable-DETR和DINO中,encoder的计算量分别是decoder计算量的8.8倍和7倍。同时,encoder的时延,大概是decoder时延的4~8倍。这表明,提升encoder的效率至关重要。

2.网络结构

Focus-DETR包括一个backbone,一个由dual-attention组成的encoder和一个decoder。前景选择器(Foreground Token Selector)在backbone和encoder之间,是一个基于跨多尺度特征的自顶向下评分调制,用来确定一个token是否属于前景。Dual attention模块通过多类别评分机制,选择更细粒度的目标token,然后将其输入到一个自注意模块来弥补token交互信息的缺失。

图2 :Focus-DETR整体网络结构

2.1 计算量降低:前景筛选策略

图3:Focus-DETR和Sparse DETR在不同feature map上保留的token对比

目前已经有一些对于前景token进行剪枝提升性能的方法。例如,Sparse DETR(ICLR2022)提出采用decoder的DAM(decoder attention map)作为监督信息。然而作者发现,如图3所示,Sparse DETR筛选的token并不都是前景区域。作者认为,这是由于Sparse DETR使用DAM来监督前景token导致的,DAM会在训练的时候引入误差。而Focus-DETR使用ground truth(boxes和label)来监督前景的token的筛选。

为了更好的训练前景筛选器,作者优化了FCOS的前背景标签分配策略,如图4所示。作者首先为不同特征映射的包围框设置了一个大小范围。与传统的多尺度特征标签分配方法不同,它允许相邻两个特征尺度之间的范围重叠,以增强边界附近的预测能力。对每个拥有步长 s_l 的特征 t_l^{(i,j)} ,其中 l 代表多尺度特征的层级序号, (i,j) 代表在二维特征图上的位置坐标,作者定义该特征在原图上的映射位置为 (x,y) ,那么 (x, y)=\left(\left\lfloor\frac{s_l}{2}\right\rfloor+i \cdot s_l,\left\lfloor\frac{s_l}{2}\right\rfloor+j \cdot s_l\right) ,因此特征 t_l^{(i,j)} 所对应的标签应该为:

l_l^{(i, j)}=\left\{\begin{array}{l} 1,(x, y) \in D_{B b o x} \wedge d_l^{(i, j)} \in\left[r_b^l, r_e^l\right] \\ 0,(x, y) \notin D_{B b o x} \mathrm{~V} d_l^{(i, j)} \notin\left[r_b^l, r_e^l\right] \end{array}\right.

其中 d_l^{(i,j)} 代表坐标 (x,y) 和真值框中心之间的最大棋盘距离, D_{Bbox} 代表真值目标框,

\left\lfloor r_b^l,r_e^l\right\rfloor分别代表被第 l 层特征图预测的目标的尺度的最大值和最小值,由于尺度重叠设置 r_b^l{

图4. 前背景标签分配可视化

此外,来自不同特征映射的特征选择的差异也被忽略,这限制了从最合适的分辨率选择特征的潜力。为了弥补这一差距,Focus-DETR构造了基于多尺度feature map的自顶向下的评分调制模块,如图5所示。为了充分利用多尺度特征图之间的语义关联,作者首先使用多层感知器(MLP)模块来预测每个特征图中的多类别语义得分。考虑到高层语义特征,低层语义特征包含更丰富的语义信息,作者利用高层feature map的token重要性得分,作为补充信息来调制低层feature map的预测结果。

图5:top-down前景筛选评分调制策略

2.2 细粒度特征增强策略

在依靠前期设计的前景筛选器得到较为准确的前景特征后,Focus-DETR使用一种有效的操作来获得更为细粒度的特征,利用这些细粒度特征以获得更好的检测性能。直观地说,作者假设在这个场景中引入更细粒度的类别信息将是有益的。基于这一动机,作者提出了一种新的注意机制,并结合前景特征选择,以更好地结合利用细粒度特征和前景特征。

如图2所示,为了避免对背景token进行冗余的计算,作者采用了一种同时考虑位置信息和类别语义信息的堆叠策略。具体来说,预测器 \mathbf{M L P}_{\mathbf{C}}(\cdot) 计算出的前景评分 s_j 和类别评分 c_j 的乘积将作为作者最终的评分 p_j 来确定注意力计算中涉及的细粒度特征,即: p_j=s_j \times c_j=s_j \times \mathbf{M L P}_{\mathbf{C}}\left(T_f^j\right)

其中 s_j c_j 分别代表前景得分和类别概率。与两阶段Deformable DETR的query选择策略不同,Focus-DETR的多类别概率不包括背景类别(∅)。该模块可以被视为一个自注意层,对细粒度特征进行增强计算。然后,已增强的特征将被scatter回原始的前景特征并对其进行更新。

2.实验结果

2.1 主要结果

如表一所示,作者将Focus-DETR在COCO验证集上和其他模型的性能进行比较。可以发现同样基于DINO,Focus-DETR仅使用30% token的情况下,超过Sparse DETR 2.2个AP。相比原始DINO,仅损失0.5个AP,但是计算量降低45%,推理速度提升40.8%。

表1:总体对比实验结果

2.2模型效能分析

在图6中,从不同模型的精度和计算量之间的关系来看,Focus-DETR在精度和计算复杂度之间达到了最好的平衡。整体来看对比其他模型,获得了SOTA的性能。。

图6不同模型测试精度和计算复杂度之间的关联分析

2.3消融实验

如表2所示,作者针对模型设计进行消融实验,以验证作者提出的算法的有效性。

表2 本研究提出的前景特征剪枝策略和细粒度特征自注意力增强模块对实验性能的影响

(1) 前景特征选择策略的影响

直接使用前景得分预测AP为47.8,增加label assignment策略生成的标签作为监督,AP提升1.0。增加自上而下的调制策略,能够提升多尺度特征图之间的交互,AP提升0.4。这表明提出的策略对于提升精度是非常有效的。如图7可视化可以发现,Focus-DETR可以精确的选择多尺度特征上的前景token。并且可以发现,在不同尺度的特征度之间,可以检测的物体存在重叠,这正是因为Focus-DETR使用了交叠的设置导致的。

图7 多尺度特征保留的token

(2)自上而下的评分调制策略的影响

表3. 多尺度特征图前景评分的关联方法,作者尝试自顶向下和自底向上的调制。

作者对比了自上而下的调制策略和自下而上的调制策略的影响,对比结果可以发现,作者提出的自上而下的调制策略可以获得更好的性能。

(3)前景保留比率对实验性能的影响

表4.Focus-DETR、Sparse DETR和DINO+Sparse DETR保留前景token的比例

作者对比了不同的剪枝比例的性能,从实验结果可以发现,Focus-DETR在相同的剪枝比例情况下,均获得了更优的结果。

3.总结

Focus-DETR仅利用30%的前景token便实现了近似的性能,在计算效率和模型精度之间取得了更好地权衡。Focus-DETR的核心组件是一种基于多层次的语义特征的前景token选择器,同时考虑了位置和语义信息。Focus-DETR通过精确地选择前景和细粒度特征,并且对细粒度特征进行语义增强,使得模型复杂度和精度实现更好平衡。

,

ICCV的结果已经确定了 祝大家好运

PCs正在检查有没有错误。
据说有些area chairs在系统中输入错误导致近十个papers被从拒稿中救了回来。

'
'

开始rebuttal!ICCV 2023 投稿微信交流群已建立!

想即时了解后续开奖以及开会信息,可以加入ICCV 2023的投稿交流群!在群里讨论开会信息等,主要是方便第一时间分享相关消息。

注1:麻烦进群的同学请给我点个赞,谢谢啦,祝你中奖成功;

注2:添加微信:CVer222,备注ICCV 2023进群+昵称,小助手会拉你进CVer投稿群。已经在交流群的同学不要重复进群,否则剔除,谢谢!

注3:不要在群里违反任何投稿规定,不要泄露论文隐私(比如ID、title等);

目前350+人投票的分数统计数据如下:

附投稿流程和rebuttal经验分享:

  • 魏秀参:浅谈学术论文rebuttal
  • 叶茫:学术论文投稿与返修(Rebuttal)分享
,

两个wa 一个borderline。可能是博士生涯最后一次投稿了?珍惜一下。

'