1 視覚基盤モデルの重要性
1.1 外界を認識し、行動する上で「見る」ことの重要性
1.2 深層学習の深化:物体検出、領域分割など視覚タスクの広がり
1.3 タスクごとのモデルから基盤モデルへの進化
1.4 自動運転、ロボット、製造業における応用
2 自己教師あり学習
2.1 自己教師あり学習(Self-supervised Learning)の意義
2.2 自己教師あり学習手法(対比学習: Contrastive Learning)
2.3 マスク画像モデリング(Masked Auto-encoder)
2.4 自然言語処理分野での成功(BERT、GPT)の波及
3 Transformerのインパクトとマルチモーダル学習
3.1 画像分野におけるTransformer のインパクト
3.2 マルチモーダル学習:画像とテキストの融合(CLIP)
3.3 視覚言語モデル(Vision Language Model)における言語の役割
3.4 外観検査への視覚言語モデルの応用:汎用外観検査
3.5 集約型視覚基盤モデル:AM-RADIO [CVPR2024]、 RADIO-v2 [CVPR2025]
4 三次元(3D)世界への拡張:3D表現学習
4.1 二次元(2D)視覚からの発展:なぜ3D理解が重要なのか?
4.2 三次元表現手法(その1):Neural Radiance Fields(NeRFs)
4.3 三次元表現手法(その2):3D Gaussian Splatting
4.4 スチューデントt分布の適用:3D Student Splatting and Scooping [CVPR2025]
4.5 VGGT:Visual Geometry Grounded Transformer [CVPR2025]
4.6 CADとの連携:CADTalk [CVPR2024]、CADDreamer[CVPR2025]
5 行動理解とロボティクスへの視覚基盤モデルの応用
5.1 動画像からの人間動作理解:視覚の役割深化
5.2 マークと軌跡の利用(Set-of-Mark:SoM、Trace-of-Mark:ToM)
5.3 Magma: A Foundation Model for Multimodal AI Agents [CVPR 2025]
5.4 ロボットシミュレーションにおけるVLA(Vision-Language-Action)モデル
5.5 言語による汎化性+推論による行動計画・実行の進化
5.6 UI ナビゲーションから点検作業支援/安全管理への発展の可能性
注)テキストからの画像生成は時間の関係で扱いません。