※本セミナーは開催日が10月28日から変更になりました
1. Transformerの仕組み
1.1 エンコーダ・デコーダモデル
1.2 アテンション機構
1.3 位置エンコーディング
2. 自然言語処理への応用(BERT)
2.1 事前学習とファインチューニング
2.2 マスク化言語モデル
2.3 次文予測
3. 画像処理への応用(ViT)
3.1 パッチ埋め込み
3.2 ViTブロック
4. 音声認識への応用(Conformer)
4.1 Conformerブロック
4.2 相対位置埋め込み