BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation (arxiv2022/05)
Summary
- https://bevfusion.mit.edu/ 公式
- https://github.com/mit-han-lab/bevfusion
- mmdet base、waymo, nuscenes で評価
- pretrained modelがある
- https://www.youtube.com/watch?v=uCAka90si9E
- BEV特徴量空間でfusionするCamera-LiDAR 3d detection BEVFusionの提案
- BEV流行りになった研究のうちのひとつ
- specialized kernel with pre computation を用いた高速化
- map情報をsub taskとして学習することでさらに性能向上へ
Method
- 既存
- LiDAR to 2d 遠いものが近くで表示されてしまう
- Camera to 3d カメラの情報が十分にLiDARに投影できない
- Architecture
- 従来のprojectionは遅かった
- Precomputation
- Interval Reduction (3b, 3c)
- Takeaways (3d)
Experiment
- env
- GPU 3090
- nuscenes(-50m, 50m) + waymo
- 3D detection
- CenterPoint 80.7ms -> BEVFusion 119.2ms 悪くない気がする
- 各classの結果が無いのが残念
- Mag segmentation
- 雨や夜とかにも強い
- 細かい解析
- Ablation experiments