Vision Transformerの仕組みとBEV Perception【WEBセミナー】
~物体検出、自己教師あり学習、BEV Perception等のコンピュータビジョン最前線~

セミナー概要
略称
Vision Transformer【WEBセミナー】
セミナーNo.
tr250905
開催日時
2025年09月25日(木) 10:30~16:30
主催
(株)トリケップス
問い合わせ
Tel:03-5857-4811 E-mail:info@rdsc.co.jp 問い合わせフォーム
講師
中部大学 工学部 情報科学科 / 
大学院 工学研究科 情報工学専攻 教授(博士(工学))藤吉 弘亘 氏
<略歴>
 1997年 中部大学大学院 博士後期課程了
 1997~2000年 米国カーネギーメロン大学 ロボット工学研究所 Postdoctoral Fellow
 2000年 中部大学 講師
 2004年 中部大学 准教授
 2005~2006年 米国カーネギーメロン大学 ロボット工学研究所 客員研究員
 2010年 中部大学 教授
 2014年 名古屋大学 客員教授
  現在に至る
<学会>  電子情報通信学会、情報処理学会、ロボット学会、IEEE
<主な受賞>  ロボカップ研究賞(2005年)
 情報処理学会論文誌CVIM優秀論文賞(2009年)
 情報処理学会山下記念研究賞(2009年)
 画像センシングシンポジウム優秀学術賞(2010, 2013, 2014年)
 電子情報通信学会 情報・システムソサイエティ論文賞(2013年)
<研究>  計算機視覚、動画像処理、パターン認識・理解の研究に従事
価格
非会員: 53,900円(税込)
会員: 53,900円(税込)
学生: 53,900円(税込)
価格関連備考
お1人様受講の場合 53,900円[税込]/1名
1口でお申込の場合 66,000円[税込]/1口(3名まで受講可能)

※4名以上お申し込みの場合は、ご連絡ください。
備考
★本セミナーの受講にあたっての推奨環境は「Zoom」に依存しますので、ご自分の環境が対応しているか、お申込み前にZoomのテストミーティング(http://zoom.us/test)にアクセスできることをご確認下さい。

★インターネット経由でのライブ中継のため、回線状態などにより、画像や音声が乱れる場合があります。講義の中断、さらには、再接続後の再開もありますが、予めご了承ください。

★受講中の録音・撮影等は固くお断りいたします。
講座の内容
趣旨
 自己注意機構を活用したニューラルネットワークであるTransformerは、機械翻訳タスクでSoTAを達成し実用化を加速させている。このTransformerをコンピュータビジョンタスクに適用したモデルがVision Transformerであり、2019年以降、急速に応用と改良が加えられている。Vision Transformerは、CNNとは異なる新たな特徴表現獲得が可能となり、テクスチャノイズに対してロバストな認識が可能となっている。
 本セミナーでは、Vision Transformerについて従来の手法と対比しながらその仕組みと特長について解説し、コンピュータビジョン応用として物体検出、セマンティックセグメンテーション、自己教師あり学習について紹介する。また、BEV PerceptionによるEnd-to-end自動運転技術の最前線についても紹介する。
プログラム

 1 Transformerの仕組み
  1.1 Transformer
  1.2 大規模言語モデル

 2 Vision Transformerの仕組み
  2.1 特徴表現獲得の変遷
  2.2 VIsion Transformer(ViT)
  2.3 ViTによる画像認識
  2.4 ViTによる特徴表現獲得
  2.5 ViTベースの物体検出、セマンティックセグメンテーション
  2.6 ViTの自己教師あり学習
  2.7 ViTの派生手法(Swin Transformer、ConvNeXtなど)

 3 Vision and Languge Model(VLM)による知識獲得向
  3.1 VLMとは
  3.2 CLIPとオープンボキャブラリ認識
  3.3 LLaVA
  3.4 Vision-Language-Actionモデル(VLA)

 4 TransformerによるBEV Perception
  4.1 Bird’s-Eye-View(BEV)空間
  4.2 BEVベースの3D物体検出:BEVFormer
  4.3 BEVベースのE2E自動運転:UniAD、Para-Drive、EMMA

関連するセミナー
関連する書籍
関連するタグ
フリーワード検索