冠军方案 | 深兰科技包揽 ICCV2021 无人机挑战赛双冠军

2021-10-14

10月11日至10月17日，2021国际计算机视觉大会International Conference on Computer Vision （ICCV）于线上拉开序幕。此次会议，深兰科技DeepBlueAI团队共参加2项比赛4个赛道，分别在VisDrone Object Detection，VisDroneMot，Large-AI-Food三个赛道获得冠军。VisDrone 已成为无人机领域标杆数据集，且业界多篇论文在此数据集基础上研究发表。

本次无人机挑战赛吸引来自全球多家知名团队参与角逐，其中不乏多所高校与顶级技术团队，包括清华大学、中科院计算所、北京邮电大学、腾讯、谷歌等上百支知名团队参赛。以下主要分享在无人机挑战赛中两个赛道的方案解读。

undefined

冠军方案解读

本次挑战赛深兰团队包揽两个赛道的冠军：

●任务1：图像中的目标检测。任务旨在从无人机拍摄的单个图像中检测预定义类别的对象（例如，汽车和行人）；

●任务 2：多目标跟踪挑战。该任务旨在恢复每个视频帧中对象的轨迹。

VisDrone Object Detection 方案解读

挑战赛官网地址：http://aiskyeye.com/

VisDrone数据集由天津大学机器学习与数据挖掘实验室 AISKYEYE 队伍负责收集，全部基准数据集由无人机捕获，包括 288 个视频片段，总共包括 261908 帧和 10209 个静态图像。

这些帧由 260 多万个常用目标（如行人、汽车、自行车和三轮车）的手动标注框组成。为了让参赛队伍能够更有效地利用数据，数据集还提供了场景可见性、对象类别和遮挡等重要属性。

VisDrone Object Detection 赛道获奖证书

据DeepBlueAI团队介绍，虽然该比赛已举办多届，仍然存在以下几个难点：
1. 大量的检测物体
2. 部分目标过小
3. 不同的数据分布
4. 目标遮挡严重

undefined
数据分布

遮挡数据量统计

针对数据集难点，DeepBlueAI团队设计了一套强有力的数据增强方式和pipeline。

数据处理

1、数据平衡

上图为每一类数据在训练集中的数量(举例：6471张训练集中，有1150张包含awining-tricycle这个类)，将每一类图片数量小于4000张的，通过随机加噪声、改变亮度、cutout等方式扩充为4000张，以缓解类别不平衡的问题。

2、中心裁剪

undefined

用中心裁剪的方式，随机在原图上裁剪320~960大小的区域，然后把它们resize为相近的尺度，以缓解目标尺度不一致的问题。上面第一行是在原图中切了960×960大小，第二行是切了320×320大小，把它们resize到同一个尺度(如640×640)，相当于达到了小目标放大、大目标缩小的目的。并且对于边界目标是全保留的策略。

3、马赛克增强

undefined

马赛克数据增强将4张训练图像按一定比例组合成1张，丰富了检测数据集，增加了很多小目标。Mosaic是YOLOv4中引入的第一个新的数据增强技术。这使得模型能够学习如何识别比正常尺寸小的物体。它还鼓励模型在框架的不同部分定位不同类型的图像。通过缩放，以及一次计算4 张图片，充分利用了 GPU 资源，使得 batch_size 不用很大就能达到很好的效果。

消融实验：数据处理带来了很大的收益

undefined

PipeLine

Swin-Transformer+ CBNet + Cascade RCNN + DCN + FPN

Cbnetv2体系结构将多个相同的主干网分组，这些主干网通过复合连接进行连接，可以在不增加额外成本的情况下获得良好的效果。

Swin-Trainsformer作为计算机视觉领域的强有力的backbone之一，扮演着越来越重要的角色。当DeepBlueAI团队用swin-Transformer系列替换主干时，线上结果得到了极大的改善。

后处理

1）soft nms + WBF，根据预测的score分段集成的，大于等于0.1用WBF，小于0.1用soft_nms。目的是既可以提高高分框的定位精度，增加召回从而提升mAP；
2）模型集成，使用不同backbone以及pipeline训练。

消融实验结果

undefined

本文针对Visdrone挑战赛设计了一套解决方案包括数据处理，检测器和轨迹后处理，DeepBlueAI团队表示：“很荣幸在Visdrone 2021取得第一名的成绩”。同时团队也在多目标跟踪赛道取得了不错的成绩，接下来会介绍MOT相关技术内容。

VisDrone MOT 方案解读

undefined
VisDrone Mot 赛道获奖证书

Pipeline

对于同一挑战赛的MOT赛道，DeepBlueAI团队也总结了相关难点并设计出一套相关的pipeline。

undefined

本次采用的多目标跟踪系统是DeepBlueAI团队长时间以来总结的一套比较好的pipeline，在竞赛中多次取得不错的成绩，基于Detection和Embedding分离的方法，团队采用了以GeneralizedFocal Loss(GFL)为损失的anchor-free检测器，并以MultipleGranularity Network (MGN)作为Embedding模型。在关联过程中，DeepBlueAI团队借鉴了DeepSORT和FairMOT的思想，构建了一个简单的在线多目标跟踪器。

Detector

undefined

对于检测器DeepBlueAI团队使用了GFLDetector、Generalized Focal Loss(GFL)，更具体的来说，GFL可以分成QualityFocal Loss(QFL)以及Distribution Focal Loss(DFL)。

QFL专注于asparse set of hard examples，同时在相应的类别上产生它们的连续0~1之间的localizationquality estimation；DFL使网络能够在任意和灵活的分布下，学习bounding boxes在连续位置上的概率值。

Embedding

undefined
MGN把全局和局部的特征结合在一起，能够有丰富的信息和细节去表征输入图片的完整情况。在观察中发现，确实是随着分割粒度的增加，模型能够学到更详细的细节信息,全局特征跟多粒度局部特征结合在一起，思路比较简单，全局特征负责整体的宏观上大家共有的特征的提取，然后把图像切分成不同块，每一块不同粒度，它去负责不同层次或者不同级别特征的提取。

Data Association

DeepBlueAI团队借鉴了DeepSORT和FairMOT的想法，以检测框的表观距离为主，以检测框的空间距离为辅。首先，根据第一帧中的检测框初始化多个轨迹。在随后的帧中，团队根据embedding features之间的距离（最大距离限制为0.7），来将检测框和已有的轨迹做关联。与FairMOT一致，每一帧都会通过指数加权平均更新跟踪器的特征，以应对特征变化的问题。对于未匹配的激活轨迹和检测框通过他们的IOU距离关联起来（阈值为0.8）。最后，对于失活但未完全跟丢的轨迹和检测框也是由它们的IoU距离关联的(阈值为0.8)。

Post Process

由于只有较高的置信度的检测框进行跟踪，因此存在大量假阴性的检测框，导致MOTA性能低下。为了减少置信阈值的影响，DeepBlueAI团队尝试了两种简单的插值方法。

1) 对总丢失帧不超过20的轨迹进行线性插值。我们称之为简单插值（simple interpolation, SI）。

2)对每一个轨迹只在丢失不超过4帧的帧之间插入。另外，DeepBlueAI团队称之为片段插值（fragment interpolation,FI）。

Result

undefined

Conclusion

DeepBlueAI团队设计了一个简单、在线的多目标跟踪系统，包括检测器、特征提取、数据关联和轨迹后处理，最终在VisDrone 2021 MOT赛道斩获冠军。

新闻推荐

科研荣誉

冠军方案 | 深兰科技包揽 ICCV2021 无人机挑战赛双冠军