Detecting As Labeling: Rethinking LiDAR-camera Fusion in 3D Object Detection (ECCV2024)
Summary
- from Phigent Robotics
- CTOが Baidu -> Horizon Robotics の経歴
- https://github.com/HuangJunJie2017/BEVDet
- Camera LiDAR 3D detection において、Camera pipelineはlabel推定にしか使わないようにした方が性能があがったという報告
Method
architecture
- Baseはアノテーション時の考え方から
- カメラでlabelを確認 -> pointcloudで位置・sizeを正確に捉えてBounding boxをアノテーションする
- そもそもカメラはlabelにしか使っていないのでは?
- pipeline
- Image BEV featureはclassificationにしか使っていない

- BEVPoolV2.

- parameter

datasetの偏り
- nuScenesの分布
- かなりstatic objectが多い

- 速度を持っているとしてaugmentation

Experiment
- 学習:3090 * 16
- Camara-LiDAR fusion の一覧

- 推論時間と性能

- 結果


- LSS部分の改良

- velocity augmentationはmAVEに効いている

- 細かいtuning

- Camera pipelineをできるだけ小さくして、LiDAR側を大きくするほうが性能のコスパが良い

Discussion
- LiDARまわり色々やってみたがあまりうまく行かなったとfuture workに書いてある
- nuScenesでの点群数が少ないからでは?