ホーム > セミナー > 逆強化学習・模倣学習の基礎と応用

逆強化学習・模倣学習の基礎と応用

セミナー概要

略称
逆強化学習
セミナーNo.
tr190802  
開催日時
2019年08月27日(火)10:30~16:30
主催
(株)トリケップス
問い合わせ
Tel:03-5857-4811 E-mail:info@rdsc.co.jp 問い合わせフォーム
開催場所
オームビル 
講師
東京工業大学 情報理工学院 情報工学系 准教授 博士(情報理工学) 下坂 正倫 氏
【専門・得意分野】
  ユビキタスコンピューティング
  人工知能(パターン認識・機械学習)
  人間行動センサデータ解析

【本テーマ関連の学会・協会・団体等】
  人工知能学会、情報処理学会、電子情報通信学会、日本ロボット学会、
  計測自動制御学会、AAAI(American Association for Artificial Intelligence)、
  IEEE(The Institute of Electrical and Electronics Engineerse,Inc.)
  ACM(Association for Computing Machinery)
価格
非会員: 49,680円(本体価格:46,000円)
会員: 49,680円(本体価格:46,000円)
学生: 49,680円(本体価格:46,000円)
価格関連備考
お1人様受講の場合 46,000円[税別]/1名
1口でお申込の場合 57,000円[税別]/1口(3名まで受講可能)

講座の内容

習得できる知識
・逆強化学習の問題設定が理解できる。
・マルコフ決定過程・ベルマン方程式といった基礎が理解できる。
・例題を通じて逆強化学習の実装方法が理解できる。
・制御分野と機械学習の共通部分を理解できる。
・逆強化学習の事例を知るとともに応用範囲のイメージが理解できる。
趣旨
  EVの駆動では,モータ,インバータ,電源とコンバータ,高効率制御が主に重要な技術になる。とくに,パワーデバイスの駆動法,高効率駆動回路やエネルギー回生技術が求められ,モータを高効率で駆動する制御方式が重要である。本セミナーでは,モータの種類と特徴,パワーデバイスとインバータ回路,エネルギー回生手法,電源を制御するコンバータ,高効率・高逆強化学習は統計を基盤とした機械学習と最適制御の学際領域を担う、近年発達著しい研究領域である。強化学習が「成功」と「失敗」の繰り返しの経験から、ロボットに最適な動作を自律獲得させる学習の仕組みであるのに対し、逆強化学習は、明文化が難しい熟練者の巧みなスキルを機械に自律獲得させる、見まねを通じた学習の枠組みになっている。熟練者のうまみ=「報酬」を、観察に基づき推定する枠組みとみなせるため、逆強化学習は、強化学習の逆問題に相当するものである。そのため逆強化学習は模倣学習と呼ばれるほか、逆最適制御とも呼ばれる。 本セミナーでは、逆強化学習の基盤となる数理的な問題設定の基本を説明するとともに、講師の研究室での経験を踏まえ、初学者が陥りがちな課題を整理し、逆強化学習アルゴリズムの実装方法やどのように適用するかに焦点をあて、説明を進めていく。その次に逆強化学習の応用事例を幅広く紹介する予定である。特に強化学習の実応用で問題となる報酬関数の設計など、明文化が難しいスキルの「コツ」といったものをモデル化することに適した技術であり、人行動のモデル化を中心とした話題を提供したいと考えている。例えば状況に応じた運転経路・目的地予測、人と人とのインタラクション行動の予測、運転の好みに応じた追い越し運転予測といった応用などを紹介する予定である。最後に、逆強化学習が抱える課題を共有し、この分野の発展につながればと考えている。性能化のためのモータ制御法,ノイズを低減する手法,電池の使用法,キャパシタを併用した電源など,EV用モータを駆動するのに必要な技術について解説する。
プログラム

 1. 機械学習・制御における逆強化学習の位置づけ
   1.1 機械学習における位置づけ
   1.2 最適制御との接点
   1.3 逆強化学習の応用分野・従来の時系列データ解析との違い

 2. 機械学習の基礎 (概要)
   2.1 識別的な機械学習の一般的な定式化
   2.2 正則化付き経験損失最小化
   2.3 典型的な識別問題(分類・回帰)の例
   2.4 逆強化学習における問題設定

 3. 時系列データのモデリング : マルコフ決定過程と最適制御 
   3.1 時系列データモデリング
    3.1.1. マルコフ過程・動的システム
   3.2 報酬と紐付く時系列データモデリング
    3.2.1 マルコフ決定過程
   3.3 報酬関数最大化問題 : 最適制御・最適政策
   3.4 ベルマン方程式・価値反復法

 4. 逆強化学習
   4.1 逆強化学習の定式化
   4.2 逆強化学習の損失関数の設計
   4.3 逆強化学習のパラメータ最適化

 5. 逆強化学習の適用
   5.1 逆強化学習の実装
   5.2 研究事例から学ぶ逆強化学習の適用事例
    5.2.1 マルコフ決定過程(状態空間・行動)の設計の実例
    5.2.2 報酬関数設計の実例

 6. 逆強化学習の最近の話題
   逆強化学習の高速化・高次元化・文脈の活用・
   マルチエージェント問題・深層学習との融合・落穂拾い

 7. まとめ

関連するセミナー

関連する書籍・DVD

関連するタグ