Table of contents

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers (ECCV2022)

Summary

Method

  • やっていることはtransformerの形にどう食わせるかっていうだけ

Experiment

  • これからのbaseline

  • V100で2fpsとかなので、Robot用途だと結構厳しい