2019年12月26日(木)
10:30~16:30
Tel:03-5857-4811 E-mail:info@rdsc.co.jp
問い合わせフォーム
非会員:
55,000円
(本体価格:50,000円)
会員:
49,500円
(本体価格:45,000円)
学生:
11,000円
(本体価格:10,000円)
会員(案内)登録していただいた場合、通常1名様申込で55,000円(税込)から
★1名で申込の場合、49,500円(税込)へ割引になります。
★2名同時申込で両名とも会員登録をしていただいた場合、計55,000円(2人目無料)です。
■会員登録とは? ⇒
よくある質問
■学校関係者価格は、企業に在籍されている研究員の方には適用されません。
また、当日学生証をご持参ください。
30名 ※現在、お申込み可能です。満席になり次第、募集を終了させていただきます。
ノートPC
※(お申込み後に、実習で使用するための情報をご連絡いたします。)
強化学習に関心がある方
強化学習の導入にお困りの方
特に予備知識は必要ありません。基礎から解説いたします
強化学習の基礎理論と基本アルゴリズムを理解し、実際に強化学習を試してみることができるようになる。
2016年、Googleが買収したDeepMind社が開発したコンピューター囲碁プログラムAlpha Goが囲碁の世界チャンピオンに勝利して話題となった。このAlpha Goの学習に用いられていたのが深層学習(ディープ・ラーニング)と強化学習を組み合わせたDeep Q-Network (DQN)である。
本セミナーでは、強化学習の基礎理論と基本アルゴリズムについて解説し、LEGOロボットを用いたデモ、最近の研究動向、最新の応用事例を紹介し、強化学習ライブラリーのOpenAI gymを用いた実習を行う。
1.はじめに
1-1 強化学習研究の歴史
1-2 強化学習研究の動向
1-3 デモ(迷路)
2.強化学習の基礎
2-1 強化学習の枠組み
2-2 マルコフ決定過程 (MDPs)
2-3 決定的環境と確率的環境
2-4 エージェントの目的
2-5 行動価値
2-6 学習エージェントの行動選択法
2-6-1 一様ランダム選択
2-6-2 グリーディー選択
2-6-3 ε-グリーディー選択
2-6-4 ソフトマックス選択
2-7 探査と知識利用のジレンマ
3.基本的な強化学習アルゴリズム
3-1 行動価値推定型
3-1-1 Q学習
3-1-2 Sarsa
3-2 方策最適化型
3-2-1 Policy Gradient
3-3 行動価値推定型
3-3-1 Profit Sharing (PS)
3-3-2 OnPS
4.強化学習パラメーターのチューニング
4-1 状態のチューニング
4-2 行動のチューニング
4-3 報酬関数のチューニング
4-4 割引率のチューニング
4-5 ステップあたりの時間のチューニング
4-6 ステップサイズのチューニング
4-7 ε-グリーディー選択におけるεのチューニング
4-8 ソフトマックス選択における温度のチューニング
4-9 行動価値の初期値のチューニング
5.実環境への応用する際の課題
5-1 マルチエージェント強化学習
5-2 関数近似
5-3 部分観測マルコフ決定過程 (POMDPs)
6.最新の強化学習
6-1 多目的強化学習
6-2 逆強化学習
6-3 安全な強化学習
6-4 マルコフ決定過程簡約化
6-5 複利型強化学習
6-6 深層強化学
6-6-1 Deep Q-Network (DQN)
6-6-2 A3C
6-6-3 TRPO
6-6-4 PPO
7.OpenAI gym実習
7-1 OpenAIとgym
7-2 環境構築
7-3 サンプルプログラムの実行
8.応用事例
8-1 複利型強化学習の応用事例
8-1-1 国債銘柄選択
8-1-2 ブラックジャック
8-1-3 株取引
8-1-4 日本国債取引
8-2 深層強化学習の応用事例
8-2-1 ロボットアーム
8-2-2 自動運転車
8-2-3 ドローン
9.まとめ
【質疑応答・名刺交換】
強化学習,OpenAI gym,応用,実習,セミナー,研修,講習