☆畳み込みをせずにそれを上回る? 計算量が1/4?
画像認識の革命と呼ばれる「ViT(Vision Transformer)」について、歴史を振り返りながら解説!
Zoomを使ったWEBセミナーです。在宅、会社にいながらセミナーを受けられます。
1.画像認識の歴史
1-1 概要
1-2 DNN(深層学習)
1-3 CNN(畳込みとプーリング)
1-4 物体検出
2.TransFormer
2-1 概要
2-2 Selef Attention
2-3 Bert
3.基盤モデルとファインチューニング
3-1 基盤モデルとは
3-2 ファインチューニングの考え方
4.VisionTransformer
4-1 概要
4-2 画像を入力する
4-3 ファインチューニング
4-4 なぜ高い精度なのか?