1 Transformerの仕組み
1.1 Transformer
1.2 大規模言語モデル
2 Vision Transformerの仕組み
2.1 特徴表現獲得の変遷
2.2 VIsion Transformer(ViT)
2.3 ViTによる画像認識
2.4 ViTによる特徴表現獲得
2.5 ViTベースの物体検出、セマンティックセグメンテーション
2.6 ViTの自己教師あり学習
2.7 ViTの派生手法(Swin Transformer、ConvNeXtなど)
3 Vision and Languge Model(VLM)による知識獲得向
3.1 VLMとは
3.2 CLIPとオープンボキャブラリ認識
3.3 LLaVA
3.4 Vision-Language-Actionモデル(VLA)
4 TransformerによるBEV Perception
4.1 Bird’s-Eye-View(BEV)空間
4.2 BEVベースの3D物体検出:BEVFormer
4.3 BEVベースのE2E自動運転:UniAD、Para-Drive、EMMA