比特斯拉还少1个摄像头！智能车赛道最隐秘的AI视觉玩家浮现

智能车赛道，藏着一个最隐秘的AI视觉玩家。

这个玩家尚未官宣任何智能车相关的业务进展，但又在最核心、最前沿、最被渴求的自动驾驶系统能力上屡屡展现竞争力——全球AI顶会冠军级的统治力。

不仅具体技术上突出，在目标检测、语义分割、视觉推理等方面有诸多顶会级研究；还拿下多个自动驾驶相关比赛的冠军，甚至还用7个摄像头的纯视觉方案，完成了高速、城区和泊车环境的自动驾驶。

这个玩家不是特斯拉的AI团队，这个玩家是旷视科技。

在最近的AI顶会CVPR中，大模型加持下的视觉研究，正在驱动自动驾驶方向的新研究，而旷视研究院，在一众自动驾驶和智能车玩家参与的竞赛中，获得了考察自动驾驶环境感知能力的冠军。

AI视觉领域的超级明星，现如今在业务上还没有与智能车传出关联。

但有这样的技术研究和成果，当真会纯出于学术研究？

旷视研究院参加的这个比赛，是CVPR 2023专门面向自动驾驶感知决策系统设立的挑战赛。

其中OpenLane拓扑关系挑战赛冠军，被旷视收入囊中。

挑战赛一共四个赛道，除了旷视参加的OpenLane拓扑关系挑战赛（OpenLane Topology），还有在线高精地图构建挑战赛（Online HD Map Construction）、三维占据栅格预测挑战赛（3D Occupancy Prediction）和nuPlan规划挑战赛（nuPlan Planning）。

其中，OpenLane拓扑关系赛道主要考察自动驾驶技术理解场景的能力。

赛道要求基于OpenLane-V2（OpenLane-Huawei）数据集，输入给定环视相机照片，参赛者需要输出车道中心线和交通元素的感知结果，以及这些元素之间的拓扑关系预测。

也就是说，这个比赛不是考察以往自动驾驶感知中，对车道边缘线或者交通标志单一的识别能力，而是要求自动驾驶技术可以感知车道中心线，还要能理解车道中心线和交通元素的逻辑关系，比如绿灯亮了，这意味着哪条车道可以通行。

那么如何判定冠军？OpenLane-V2数据集提供了判定标准：OLS分数（OpenLane-V2 Score），通过计算感知结果和拓扑预测mAP的平均值判定得分。

比特斯拉还少1个摄像头！智能车赛道最隐秘的AI视觉玩家浮现2

在34个参赛队伍中，来自旷视研究院的队伍得分唯一超过55分，达到55.19分，具有明显优势。

那么，旷视用了什么样的方法？

首先感知阶段，对于交通元素检测和车道中心线检测两个感知任务，旷视分别采用了两个不同的模型。

对于交通元素检测，旷视使用主流2D检测模型YOLO系列中最新一代YOLOv8作为baseline，相较于其他2D检测方法YOLO速度更快，性能更准确。

△ 图片来源：GitHub用户RangeKing

再加上比赛使用的数据集OpenLane-V2标注了交通标识和车道的对应关系，旷视在YOLOv8训练过程中增加Strong augmentation、Reweighting classification loss、Resampling difficult samples、Pseudo label learning和Test-time augmentation共5个trick，通过和前视角图像交互生成对应交通元素的特征。

对于车道中心线检测，旷视使用自研PETRv2模型作为baseline。PETRv2提供了一个统一的纯视觉3D感知框架，可以用于3D目标检测和BEV分割。

而在这次比赛中，旷视利用PETRv2从多视角图像中提取2D特征，以及利用摄像头截锥空间中生成3D坐标，把2D特征和3D坐标输入3D位置编码器。

随后使用3D位置编码器给Transformer解码器生成key和value组件，lane queries再通过全局注意力机制和图像特征进行交互，生成3D车道中心线检测成果和对应的车道中心线特征。

而在拓扑关系预测阶段，旷视基于YOLOv8和PETRv2搭建了一个多阶段的网络框架，并利用两个感知任务生成的成果拼接对应特征，再使用两层MLP预测对应的拓扑关系矩阵。

（图注：旷视最终在验证集上的预测结果，包括边框、类别和置信度）

最后从OLS得分来看，旷视团队的这套方法在交通元素感知（DETt）、车道线之间拓扑关系预测（TOPll）和车道线与交通元素拓扑关系预测（TOPlt）方面均领先于其他参赛者。

参加这次比赛的，是旷视研究院的MFV（Megvii-Foundation model-Video）团队。

比赛成果论文一作是吴东明，2019年在北京理工大学徐班取得学士学位，后来继续在北理攻读计算机系的博士学位，师从沈建冰教授，在2022年成为旷视研究院的研究实习生。

论文的其他作者也都来自旷视研究院，其中Chang Jiahao毕业于中国科技大，Li Zhuoling毕业于香港大学。

值得一提的是，这次挑战赛使用的PETRv2模型，还是旷视研究院创始院长孙剑博士去世前，带领研究团队发布的学术成果之一。

并且，这也不是旷视唯一的自动驾驶相关研究成果。

除了PETR系列大模型，旷视还发布过BEVDepth检测模型（可对3D目标实现高精度的深度估计），LargeKernel3D（首次证明大卷积核对3D视觉任务的可行性和必要性），BEVStereo（nuScenes纯视觉方案3D目标检测SOTA）等……都是行业领先级的技术成果。

△ BEVStereo模型框架

一直以来，旷视研究院都是旷视AI技术的研发“大脑”，主攻深度学习和计算机视觉方向，也是包括AI生产力平台Brain++、开源深度学习框架天元MegEngine、移动端高效卷积神经网络ShuffleNet等成果的诞生地，已经对外发表了超过120篇全球顶会论文；斩获顶级赛事中冠军数超过40项，拥有1300余件业务相关专利授权。

而且在区别于纯研发或前沿技术预研布局的企业研究院，旷视研究院从一开始就被作为作战部队使用，所以旷视研究院的最新成果、瞄准的方向，一般都不会一时兴起，或者纯为研究而研究。

于是这也是旷视接二连三在自动驾驶、智能车赛道方向上产出顶级成果后，需要关注的地方。

相比老朋友商汤科技，旷视至今没有官宣任何智能车、自动驾驶业务或合作，而商汤则推出了专门的智能车业务品牌绝影，由联合创始人王晓刚带队，目标要成为商汤的支柱型新增长引擎。

对于智能车和自动驾驶这样的万亿规模赛道，旷视会始终心如止、按兵不动？不太可能。

更何况从技术研究能力到技术实现水平，都已经通过顶会得到了展现。

以及，旷视研究院还展示过一段自动驾驶预研Demo，仅使用7个摄像头，就能实现高速公路和城区的自动驾驶，并且还能完成水平、垂直以及侧方位停车。

这是什么水平？

作为参考，纯视觉王者特斯拉，自动驾驶感知方案最少也需要8个摄像头。

论文传送门：

https://opendrivelab.com/e2ead/AD23Challenge/Track_1_MFV.pdf

发表回复 取消回复

发表回复取消回复