1 コンピュータビジョン分野の技術動向
1.1 会議の概要(CVPR 2025:computer vision and pattern recognition)
1.2 外観検査への視覚言語モデルの応用:汎用外観検査
1.3 集約型視覚基盤モデル:RADIO-v2 [CVPR2025]
2 三次元(3D)世界の理解
2.1 三次元情報を多数の正規分布で近似する手法:3D Gaussian Splatting(3D-GS)
2.2 スチューデントt分布の適用:3D Student Splatting and Scooping[CVPR2025]
2.3 4D-LangSplat: 動画像中の3D物体と言葉の対応[CVPR2025]
2.4 VGGT:Visual Geometry Grounded Transformer[CVPR2025,Best Paper]
2.5 CADとの連携:CADDreamer[CVPR2025]
3 行動理解とロボティックスにおける視覚言語モデル
3.1 Physical AI とロボティクスにおける視覚の役割
3.2 Magma:マルチモーダル AI エージェントのための基盤モデル[CVPR 2025]
3.3 ロボットシミュレーションにおける視覚言語行動モデル
3.4 UI ナビゲーションから点検作業支援/安全管理への発展の可能性
4 データサイエンス分野の産業応用
4.1 会議の概要(KDD 2025:Knowledge Discovery and Data Mining)
4.2 KDD Cup:Comprehensive RAG benchmark for Multi-modal Multi-turn Challenge
(スマートグラス画像の質問応答のための検索拡張生成)
4.3 領域特化型の時系列推論エージェント
4.4 非同期の時空間モデルとグラフ融合機構によるプラントの状態予測