BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (ECCV2022)
Summary
- https://github.com/fundamentalvision/BEVFormer
- Attention base でのMulti-cameraからBird’s-Eye-View Representation を得る研究
- 最近の流行りになったきっかけの一つ
Method
- やっていることはtransformerの形にどう食わせるかっていうだけ
Experiment
- これからのbaseline
- V100で2fpsとかなので、Robot用途だと結構厳しい