逆強化学習
~その真相を一括解説~

※受付を終了しました。最新のセミナーはこちら

セミナー概要
略称
逆強化学習
セミナーNo.
tr181203
開催日時
2018年12月10日(月) 10:30~16:30
主催
(株)トリケップス
問い合わせ
Tel:03-5857-4811 E-mail:info@rdsc.co.jp 問い合わせフォーム
開催場所
価格
非会員:  50,600円 (本体価格:46,000円)
会員:  50,600円 (本体価格:46,000円)
学生:  50,600円 (本体価格:46,000円)
価格関連備考
お1人様受講の場合 46,000円[税別]/1名
1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)
講座の内容
プログラム

第1部 逆強化学習の基礎知識
 1.1 マルコフ決定過程
 ・平均とマルコフ性(MP)
 ・逐次平均表現とMP
 ・マルコフ報酬過程
 ・マルコフ決定過程
 1.2 Bellman方程式の導出:
 ・平均から決定型Bellman方程式の導入:
 ・平均表現と価値関数の導入:
 ・確率型Bellman方程式の導出:
  ① 行動状態価値関数の導入:
  ② 確率型ベルマン方程式の導出
  ③ 遷移確率関数 T (r ( S') , S'│s,a )の極意
  ④ グリッドワード問題の応用
 1.3 動的計画法
 ・ε = 1 - Greedy反復方策
 ・ε = 0 - Greedy方策反復法(On-Policy)
 ・ε = 0 - Greedy価値反復法(Off-Policy)
 1.4 逆強化学習の基本概念の導入
 ・報酬関数の定義
 ・報酬関数による価値関数の推定

第2部 逆強化学習の解法:線形計画最適化逆強化学習手法
 2.1 線形計画最適化逆強化学習手法の導入
 2.2 線形計画逆強化学習手法の定式化
 2.3 線形計画逆強化学習手法のコーディング要領
 2.4 線形計画逆強化学習手法の応用事例の紹介

第3部 逆強化学習の解法:最大エントロピー逆強化学習手法 
 3.1 関数近似の基本概念 
 3.2 関数近似モデルを用いた報酬の表現 
 3.3 機械学習による報酬関数の回帰 
 3.4 最大エントロピーを取り入れた報酬誤差関数の設計 
 3.5 熟練者による行動確率教師データの生成
 3.6 最大エントロピー逆強化学習手法のコーディング要領
 3.7 最大エントロピー逆強化学習手法の応用事例の紹介

第4部 逆強化学習の解法:深層NN最大エントロピー逆強化学習手法
 4.1 深層NN(neural network)の導入
 4.2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計 
 4.3 熟練者による状態頻度教師データの生成
 4.4 深層NN最大エントロピー逆強化学習手法のコーディング要領
 4.5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

第5部 逆強化学習の展望と関連技術の紹介

関連するセミナー
関連する書籍
関連するタグ
フリーワード検索