~「平均」からはじめる基礎と応用~
第1章 平均から学ぶ強化学習の基本概念
1.0 はじめに
1.1 平均と期待値
1.2 平均と価値
1.3 平均とマルコフ性
1.4 平均によるベルマン方程式の導出
1.5 平均によるモンテカルロ学習手法の導出
1.6 平均によるTD法の導出
第2章 各アルゴリズムの特徴と応用
2.0 はじめに
2.1 方策π(a | S)
2.2 動的計画法
2.3 モンテカルロ法
2.4 TD(0)法
第3章 関数近似手法
3.0 はじめに
3.1 関数近似の基本概念
3.2 関数近似モデルを用いたV(St)の表現
3.3 機械学習による価値関数の回帰
3.4 モンテカルロ法を応用した価値関数回帰
3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰
3.6 Td(0)-Q法を応用した行動状態価値関数の回帰
第4章 深層強化学習の原理と手法
4.1 TD-Q学習におけるNNによる行動価値関数回帰
4.2 DQNによる行動状態価値関数近似
4.3 確率方策勾配法
4.4 決定型方策勾配法
4.5 TRPO/PPO法
4.6 まとめと展開