ホーム > セミナー > 強化学習アルゴリズム入門

強化学習アルゴリズム入門

~「平均」からはじめる基礎と応用~

※ サブテキストとして「強化学習アルゴリズム入門」
(曽我部東馬著、3,240円(税込)、オーム社)を使用します。
お持ちでない方は、セミナー申し込み時に必要冊数を併せてお申込みください。

セミナー概要

略称
アルゴリズム入門
セミナーNo.
tr190705  
開催日時
2019年07月23日(火)10:30~16:30
主催
(株)トリケップス
問い合わせ
Tel:03-5857-4811 E-mail:info@rdsc.co.jp 問い合わせフォーム
開催場所
オームビル 
講師
電気通信大学 i-パワードエネルギーシステム研究センター&基盤理工学専攻 准教授
兼任 (株)GRID 最高技術顧問 博士 曽我部 東馬 氏

【経歴・研究内容・専門・ご活動など】
 物理学の専門家で、東京大学物性研究所、国立分子研究所で学び、ドイツマックス・プランク研究所、イギリスケンブリッジで働いた後、2009年に一旦研究分野から離れ、(株)グリッドの共同設立者となり会社を立ち上げる。その後、東京大学先端科学技術研究センターに研究の場所を移し、特任准教授として量子構造半導体デバイスの開発及びその理論計算、人工知能の研究を行う。2016年より電気通信大学の准教授および(株)GRIDの最高技術顧問を兼任。現在は、気象予測を含めた大規模発電・消費電力予測、製造搬送装置システムにおける搬送時間と渋滞予測、高速道路の長短期渋滞予測、製造装置における欠陥と故障予測などの研究開発に従事する。また、深層学習フレームワーク∞ReNomの開発に従事する。
【講師WebSite】
http://cluster-iperc.matrix.jp/ja/http://www.gridpredict.jp/
価格
非会員: 49,680円(本体価格:46,000円)
会員: 49,680円(本体価格:46,000円)
学生: 49,680円(本体価格:46,000円)
価格関連備考
お1人様受講の場合 46,000円[税別]/1名
1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)

講座の内容

プログラム

  第1章 平均から学ぶ強化学習の基本概念
    1.0 はじめに
    1.1 平均と期待値
    1.2 平均と価値
    1.3 平均とマルコフ性
    1.4 平均によるベルマン方程式の導出
    1.5 平均によるモンテカルロ学習手法の導出
    1.6 平均によるTD法の導出

  第2章 各アルゴリズムの特徴と応用
    2.0 はじめに
    2.1 方策π(a | S)
    2.2 動的計画法
    2.3 モンテカルロ法
    2.4 TD(0)法

  第3章 関数近似手法 
    3.0 はじめに
    3.1 関数近似の基本概念
    3.2 関数近似モデルを用いたV(St)の表現
    3.3 機械学習による価値関数の回帰
    3.4 モンテカルロ法を応用した価値関数回帰
    3.5 Td(0)-SARSA法を適用した行動状態価値関数の回帰
    3.6 Td(0)-Q法を応用した行動状態価値関数の回帰

  第4章 深層強化学習の原理と手法
    4.1 TD-Q学習におけるNNによる行動価値関数回帰
    4.2 DQNによる行動状態価値関数近似
    4.3 確率方策勾配法
    4.4 決定型方策勾配法
    4.5 TRPO/PPO法
    4.6 まとめと展開

関連するセミナー

関連する書籍・DVD

関連するタグ