深層強化学習の基礎とその応用

セミナー概要

略称

強化学習

セミナーNo.

190463

開催日時

2019年04月22日（月） 10:30～16:30

主催

(株)Ｒ＆Ｄ支援センター

問い合わせ

Tel：03-5857-4811　E-mail：info@rdsc.co.jp　問い合わせフォーム

開催場所

江東区産業会館　第5展示室

価格

非会員： 50,906円（本体価格：46,278円）
会員： 48,125円（本体価格：43,750円）
学生： 11,000円（本体価格：10,000円）

価格関連備考

■ 会員（案内）登録していただいた場合、通常1名様申込で49,980円（税込）から
　・1名で申込の場合、47,250円（税込）へ割引になります。
　・2名同時申込で両名とも会員登録をしていただいた場合、計49,980円（2人目無料）です。
■ 会員登録とは？　⇒　よくある質問
■ 学生価格は、教職員や研究員、企業に在籍されている学生には適用されません。
また、当日学生証をご持参ください。

定員

30名　※現在、お申込み可能です。満席になり次第、募集を終了させていただきます。

備考

昼食・資料付き

講座の内容

受講対象・レベル

・AIの最先端知識と技術に興味をお持ちの方。
・AIの研究と応用を真剣に検討されている方。
・AIを含めた最適化技術の応用に携わっている方。
・「最適化とは何か？」を知りたい方。
・画像認識・音声認識以外の分野でのAI応用の可能性に興味をお持ちの方。

習得できる知識

・強化学習の基本原理と要素技術の基本知識の習得
・深層学習の基本原理と要素技術の基本知識の習得
・深層強化学習の基本原理と応用に関する知見の習得
・最先端最適化技術の可能性と問題点についての知見を習得

趣旨

　世界トップのプロ囲碁棋士に見事に勝利したAlphaGoの出現により、日本を含め世界中でAIに対する期待が高まっています。このAlphaGoの歴史的な勝利を支えた手法、すなわち「深層強化学習手法」が一躍注目を集めています。
　AIの研究や将来のビジネスチャンスを踏まえたAIの応用を真剣に検討されている方にとっては、深層学習の先にある「深層強化学習手法」の基本原理をしっかり理解することがマストといえるでしょう。しかし現状としては、深層強化学習手法をわかりやすく説明している資料はなかなか見当たりません。
　本セミナーはこのような現状を踏まえ、深層強化学習の最も基本となる強化学習の中核的な内容を例題と「動画」を通して、みなさんになるべくわかりやすく説明します。
　さらに本セミナーでは、難解といわれる「深層強化学習」をよりわかり易く理解するために、まず「簡易型の線形回帰近似モデル」を応用した強化学習手法を簡易デモなどを用いてわかりやすく説明します。これによりニューラルネットワーク近似モデルを使用する深層強化学習への理解が更に深まることを期待します。最後に、逆深層強化学習という強化学習報酬関数を学習する手法の原理と応用技法について説明します。
　様々な背景を持つ受講者のみなさんが理解しやすく、実際に役立てられるように講義内容の難易度を調整しています。本セミナーを通して、現在、話題の深層学習の先にある「深層強化学習」の基本知識と応用情報を入手し、是非、研究やビジネスに活用して頂ければ幸いです。

プログラム

第１部　はじめに
　強化学習の基本概念
　強化学習・深層学習および深層強化学習の特徴と違い
　深層強化学習により可能となること
　多腕バンディット問題をわかりやすく説明
　強化学習における探索と利用のジレンマ
　多腕バンディット問題の解法をわかりやすく説明
　　・平均報酬という概念について
　　・平均報酬を更新するための式の導きかた
　　・Epsilon –greedy
　　・最適初期値設定法
　　・UCB1
　　・Bayesian/Thompson 法の詳細
　簡易デモ(python)：Gridworld（上記４種類解法の実行：直感的に理解する）

第２部　基本概念—マルコフ決定過程（MDP）の基本原理のポイント
　確率過程
　マルコフ性とは
　マルコフ鎖とは
　MDPの定義と式の導き方
　方策πの定義と価値関数の対応関係
　状態価値関数[V(s)]におけるベルマン方程式をわかりやすく説明
　状態行動価値関数[Q(s,a)] におけるベルマン方程式をわかりやすく説明
　簡易演習デモ(python)1：Gridworld（式を理解するために）
　最適状態価値関数V*(s)のポイント
　最適状態行動価値関数Q*(s,a)のポイント
　最適状態価値関数V*(s)と最適状態行動価値関数Q*(s,a)の相互関係
　ベルマン最適性方程式の導きかた
　簡易デモ(python)2：Gridworld（式を理解する）
　ディスカッション：最適性と近似性について

第３部　中核：強化学習におけるMDP問題の解法
　(1) 動的計画法の解説と入門：
　　反復法による価値関数を求める：ランダム方策 vs 固定方策
　　最適な方策の探索手法をわかりやすく説明
　　・方策反復法による最適状態価値関数を求める
　　・遷移確率を考慮した方策反復法による最適状態価値関数を求める
　　・価値反復法による最適状態価値関数を求める
　　簡易デモ(python)：Gridworld（４種類解法の実行と結果比較：概念を理解する）
　(2) Monte-Carlo(MC)法をわかりやすく解説
　　モデル法とモデルフリー法のちがい
　　経験に基づく学習手法のポイント
　　MC法と多腕バンディットの内在関連性
　　状態価値関数・行動状態価値関数と平均報酬との関係
　　MC法による状態価値関数の求め方とポイント
　　MC法による最適状態行動価値関数Q(s,a)の求め方とポイント
　　簡易デモ(python)：Gridworld（２種類MC法の実行と比較：概念を理解する）
　(3) TD学習手法のポイントと入門
　　TD（０）法の説明と式の導きかた
　　SARSA法の説明と式の導きかた
　　Q-学習法の説明と式の導きかた
　　On-PolicyとOff-Policyを詳しく説明
　　簡易デモ(python)：Gridworld（３種類TD法の実行と比較：概念を理解する）

第４部　拡張ー強化学習における関数近似手法とは（入門編）
　Tabular法（表形式手法）と近似解法の違い
　回帰モデルと誤差関数をあらためて復習
　簡単な線形回帰モデルに基いたMC法による状態価値関数V(s,θ)を求める
　簡単な線形回帰モデルに基いたSARSA法によるV(s,θ)を求める
　簡易デモ(python)：Gridworld（回帰近似MDP解法の実行：直感的理解）

第５部　最前線：深層強化学習の基本概念と最重要ポイント
　簡易型ニューラルネットワークを応用したQ-学習手法の説明
　深層Q-学習（DQN）の基本ポイント
　連続動作空間における強化学習のポイント
　方策勾配法の基本と式の導き方
　ガウシアン型行動確率分布の導入
　方策勾配法による連続動作空間における強化学習の簡易説明
　深層Actor-Critic法の基本と実行のコツ
　簡易実演デモ(python)： Mountain car, Cartpole, Atariなど (概念の理解)

第６部　逆強化学習の基本概念と最重要ポイント
　逆強化学習の解法：線形計画最適化逆強化学習手法
　逆強化学習の解法：最大エントロピー逆強化学習手法
　逆強化学習の解法：深層NN最大エントロピー逆強化学習手法

第７部　応用：強化学習と深層強化学習及び逆強化学習の応用事例

　【質疑応答・名刺交換】

キーワード

強化学習,深層強化学習,基礎,セミナー,研修,講習

※受付を終了しました。最新のセミナーはこちら

セミナー概要

講座の内容

関連するセミナー

関連する書籍

関連するタグ

深層強化学習の基礎とその応用

※受付を終了しました。最新のセミナーはこちら

セミナー概要

講座の内容

関連するセミナー

関連する書籍

関連するタグ

フリーワード検索

カテゴリ別検索

カテゴリ別検索