～「平均」からはじめる基礎と応用～

強化学習アルゴリズム入門
※会場が変更になりました（6/26更新）
　オームビル　→　中央大学駿河台記念館

※サブテキストとして「強化学習アルゴリズム入門」
　(曽我部東馬著、3,240円(税込)、オーム社)を使用します。
　お持ちでない方は、セミナー申し込み時に必要冊数を併せてお申込みください。

Name: 強化学習アルゴリズム入門
Start: 2019-07-23T10:30:00
End: 2019-07-23T16:30:00
Location: 中央大学駿河台記念館

※受付を終了しました。最新のセミナーはこちら

セミナー概要

略称

アルゴリズム入門

セミナーNo.

tr190705

開催日時

2019年07月23日（火） 10:30～16:30

主催

（株）トリケップス

問い合わせ

Tel：03-5857-4811　E-mail：info@rdsc.co.jp　問い合わせフォーム

開催場所

中央大学駿河台記念館　

価格

非会員： 50,600円（本体価格：46,000円）
会員： 50,600円（本体価格：46,000円）
学生： 50,600円（本体価格：46,000円）

価格関連備考

お1人様受講の場合　46,000円[税別]／1名
1口でお申込の場合　57,000円[税別]／1口（3名まで受講可能）

講座の内容

プログラム

　　第1章　平均から学ぶ強化学習の基本概念
　　　　1.0 はじめに
　　　　1.1 平均と期待値
　　　　1.2 平均と価値
　　　　1.3 平均とマルコフ性
　　　　1.4 平均によるベルマン方程式の導出
　　　　1.5 平均によるモンテカルロ学習手法の導出
　　　　1.6 平均によるTD法の導出

　　第2章　各アルゴリズムの特徴と応用
　　　　2.0 はじめに
　　　　2.1 方策π(a | S)
　　　　2.2 動的計画法
　　　　2.3 モンテカルロ法
　　　　2.4 TD(0)法

　　第3章　関数近似手法
　　　　3.0 はじめに
　　　　3.1 関数近似の基本概念
　　　　3.2 関数近似モデルを用いたV(St)の表現
　　　　3.3 機械学習による価値関数の回帰
　　　　3.4 モンテカルロ法を応用した価値関数回帰
　　　　3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰
　　　　3.6 Td(0)-Q法を応用した行動状態価値関数の回帰

　　第4章深層強化学習の原理と手法
　　　　4.1 TD-Q学習におけるNNによる行動価値関数回帰
　　　　4.2 DQNによる行動状態価値関数近似
　　　　4.3 確率方策勾配法
　　　　4.4 決定型方策勾配法
　　　　4.5 TRPO/PPO法
　　　　4.6 まとめと展開

※受付を終了しました。最新のセミナーはこちら

セミナー概要

講座の内容

関連するセミナー

関連する書籍

関連するタグ

※受付を終了しました。最新のセミナーはこちら

セミナー概要

講座の内容

関連するセミナー

関連する書籍

関連するタグ

フリーワード検索

カテゴリ別検索

カテゴリ別検索