☆基本的なアルゴリズムからチューニング、最新応用についてわかりやすく解説する!

強化学習の基礎と実践

※受付を終了しました。最新のセミナーはこちら

セミナー概要
略称
強化学習
セミナーNo.
180844
開催日時
2018年08月21日(火) 12:30~16:30
主催
(株)R&D支援センター
問い合わせ
Tel:03-5857-4811 E-mail:info@rdsc.co.jp 問い合わせフォーム
開催場所
価格
非会員:  50,906円 (本体価格:46,278円)
会員:  48,125円 (本体価格:43,750円)
学生:  11,000円 (本体価格:10,000円)
価格関連備考
会員(案内)登録していただいた場合、通常1名様申込で49,980円(税込)から
 ★1名で申込の場合、47,250円(税込)へ割引になります。
 ★2名同時申込で両名とも会員登録をしていただいた場合、計49,980円(2人目無料)です。
学校関係者価格は、企業に在籍されている研究員の方には適用されません。
■ 会員登録とは? ⇒ よくある質問
定員
30名 ※現在、お申込み可能です。満席になり次第、募集を終了させていただきます。
備考
資料付
講座の内容
受講対象・レベル
強化学習に関心がある方
強化学習の導入にお困りの方
必要な予備知識
特に予備知識は必要ありません。
習得できる知識
強化学習の基礎理論と基本アルゴリズムを理解し、実際に強化学習を
試してみることができるようになる。
趣旨
 2016年、Googleが買収したDeepMind社が開発したコンピュータ囲碁プログラムAlpha Goが囲碁の世界チャンピオンに勝利して話題となった。このAlpha Goの学習に用いられていたのが深層学習(ディープ・ラーニング)と強化学習を組み合わせたDeepQ-Network (DQN)である。
 本セミナーでは、強化学習の基礎理論と基本アルゴリズムについて解説し、LEGOロボットを用いたデモ、最近の研究動向、最新の応用事例を紹介する。
プログラム
1.はじめに
 1.1 強化学習研究の歴史
 1.2 強化学習研究の動向
 1.3 デモ(迷路)

2.強化学習の基礎
 2.1 強化学習の枠組み
 2.2 マルコフ決定過程 (MDPs)
 2.3 決定的環境と確率的環境
 2.4 エージェントの目的
 2.5 行動価値
 2.6 学習エージェントの行動選択法
  2.6.1 一様ランダム選択
  2.6.2 グリーディー選択
  2.6.3 ε-グリーディー選択
  2.6.4 ソフトマックス選択
 2.7 探査と知識利用のジレンマ

3.基本的な強化学習アルゴリズム
 3.1 行動価値推定型
  3.1.1 Q学習
  3.1.2 Sarsa
 3.2 方策最適化型
  3.2.1 Policy Gradient
 3.3 行動価値推定型
  3.3.1 Profit Sharing (PS)
  3.3.2 OnPS

4.強化学習パラメーターのチューニング
 4.1 状態のチューニング
 4.2 行動のチューニング
 4.3 報酬関数のチューニング
 4.4 割引率のチューニング
 4.5 ステップあたりの時間のチューニング
 4.6 ステップサイズのチューニング
 4.7 ε-グリーディー選択におけるεのチューニング
 4.8 ソフトマックス選択における温度のチューニング
 4.9 行動価値の初期値のチューニング

5.実環境への応用する際の課題
 5.1 マルチエージェント強化学習
 5.2 関数近似
 5.3 部分観測マルコフ決定過程 (POMDPs)

6.最新の強化学習
 6.1 多目的強化学習
 6.2 逆強化学習
 6.3 安全な強化学習
 6.4 マルコフ決定過程簡約化
 6.5 複利型強化学習
 6.6 深層強化学習Deep Q-Network (DQN)
 6.7 Trust Region Policy Optimization (TRPO)

7.応用事例
 7.1 複利型強化学習の応用事例
  7.1.1 国債銘柄選択
  7.1.2 ブラックジャック
  7.1.3 株取引
  7.1.4 日本国債取引
 7.2 深層強化学習の応用事例
  7.2.1 ロボットアーム
  7.2.2 自動運転車
  7.2.3 ドローン

8.まとめ

 【質疑応答・名刺交換】
キーワード
強化学習,ディープラーニング,機械学習,AI,基礎,実践,セミナー,研修,講習
関連するセミナー
関連する書籍
関連するタグ
フリーワード検索