Name: 逆強化学習
Start: 2018-12-10T10:30:00
End: 2018-12-10T16:30:00
Location: オームビル

セミナー概要

略称

逆強化学習

セミナーNo.

tr181203

開催日時

2018年12月10日（月） 10:30～16:30

主催

（株）トリケップス

問い合わせ

Tel：03-5857-4811　E-mail：info@rdsc.co.jp　問い合わせフォーム

開催場所

オームビル　

価格

非会員： 50,600円（本体価格：46,000円）
会員： 50,600円（本体価格：46,000円）
学生： 50,600円（本体価格：46,000円）

価格関連備考

お1人様受講の場合　46,000円[税別]／1名
1口でお申込の場合　57,000円[税別]／1口（3名まで受講可能）

講座の内容

プログラム

第１部　逆強化学習の基礎知識
　1.1 マルコフ決定過程
　・平均とマルコフ性(MP)
　・逐次平均表現とMP
　・マルコフ報酬過程
　・マルコフ決定過程
　1.2 Bellman方程式の導出：
　・平均から決定型Bellman方程式の導入：
　・平均表現と価値関数の導入：
　・確率型Bellman方程式の導出：
　　① 行動状態価値関数の導入：
　　② 確率型ベルマン方程式の導出
　　③ 遷移確率関数 T (r ( S') , S'│s,a )の極意
　　④ グリッドワード問題の応用
　1.3 動的計画法
　・ε = 1 - Greedy反復方策
　・ε = 0 - Greedy方策反復法(On-Policy)
　・ε = 0 - Greedy価値反復法(Off-Policy)
　1.4 逆強化学習の基本概念の導入
　・報酬関数の定義
　・報酬関数による価値関数の推定

第２部　逆強化学習の解法：線形計画最適化逆強化学習手法
　2.1 線形計画最適化逆強化学習手法の導入
　2.2 線形計画逆強化学習手法の定式化
　2.3 線形計画逆強化学習手法のコーディング要領
　2.4 線形計画逆強化学習手法の応用事例の紹介

第３部　逆強化学習の解法：最大エントロピー逆強化学習手法
　3.1 関数近似の基本概念
　3.2 関数近似モデルを用いた報酬の表現
　3.3 機械学習による報酬関数の回帰
　3.4 最大エントロピーを取り入れた報酬誤差関数の設計
　3.5 熟練者による行動確率教師データの生成
　3.6 最大エントロピー逆強化学習手法のコーディング要領
　3.7 最大エントロピー逆強化学習手法の応用事例の紹介

第４部　逆強化学習の解法：深層NN最大エントロピー逆強化学習手法
　4.1 深層NN(neural network)の導入
　4.2 深層NN最大エントロピーを取り入れた報酬誤差関数の設計
　4.3 熟練者による状態頻度教師データの生成
　4.4 深層NN最大エントロピー逆強化学習手法のコーディング要領
　4.5 深層NN最大エントロピー逆強化学習手法の応用事例の紹介

第５部　逆強化学習の展望と関連技術の紹介

逆強化学習
～その真相を一括解説～

※受付を終了しました。最新のセミナーはこちら

セミナー概要

講座の内容

関連するセミナー

関連する書籍

関連するタグ

逆強化学習～その真相を一括解説～

※受付を終了しました。最新のセミナーはこちら

セミナー概要

講座の内容

関連するセミナー

関連する書籍

関連するタグ

フリーワード検索

カテゴリ別検索

カテゴリ別検索

逆強化学習
～その真相を一括解説～