~「平均」からはじめる基礎と応用~

強化学習アルゴリズム入門
※会場が変更になりました(6/26更新)
 オームビル → 中央大学駿河台記念館

※サブテキストとして「強化学習アルゴリズム入門」
 (曽我部東馬著、3,240円(税込)、オーム社)を使用します。
 お持ちでない方は、セミナー申し込み時に必要冊数を併せてお申込みください。

※受付を終了しました。最新のセミナーはこちら

セミナー概要
略称
アルゴリズム入門
セミナーNo.
tr190705
開催日時
2019年07月23日(火) 10:30~16:30
主催
(株)トリケップス
問い合わせ
Tel:03-5857-4811 E-mail:info@rdsc.co.jp 問い合わせフォーム
価格
非会員:  50,600円 (本体価格:46,000円)
会員:  50,600円 (本体価格:46,000円)
学生:  50,600円 (本体価格:46,000円)
価格関連備考
お1人様受講の場合 46,000円[税別]/1名
1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)
講座の内容
プログラム

  第1章 平均から学ぶ強化学習の基本概念
    1.0 はじめに
    1.1 平均と期待値
    1.2 平均と価値
    1.3 平均とマルコフ性
    1.4 平均によるベルマン方程式の導出
    1.5 平均によるモンテカルロ学習手法の導出
    1.6 平均によるTD法の導出

  第2章 各アルゴリズムの特徴と応用
    2.0 はじめに
    2.1 方策π(a | S)
    2.2 動的計画法
    2.3 モンテカルロ法
    2.4 TD(0)法

  第3章 関数近似手法 
    3.0 はじめに
    3.1 関数近似の基本概念
    3.2 関数近似モデルを用いたV(St)の表現
    3.3 機械学習による価値関数の回帰
    3.4 モンテカルロ法を応用した価値関数回帰
    3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰
    3.6 Td(0)-Q法を応用した行動状態価値関数の回帰

  第4章 深層強化学習の原理と手法
    4.1 TD-Q学習におけるNNによる行動価値関数回帰
    4.2 DQNによる行動状態価値関数近似
    4.3 確率方策勾配法
    4.4 決定型方策勾配法
    4.5 TRPO/PPO法
    4.6 まとめと展開

関連するセミナー
関連する書籍
関連するタグ
フリーワード検索