Activity Forecasting：逆強化学習による人物行動予測

仲間内で開催している勉強会で以下の論文を紹介したので資料をアップします。

Kris Kitani, Brian D. Ziebart, J. Andrew Bagnell, and Martial Hebert, "Activity Forecasting," European Conference on Computer Vision (ECCV), October, 2012.

(Best Paper Award Honorable Mention受賞)

Activity forecasting from jh3rox

概要説明

ロボットの行動制御で使われている技術として強化学習（人工知能学会の記事を参照）が知られていますが、この論文では逆強化学習という技術を使って、将来の人物行動軌跡を予測しています。

逆強化学習というのは、ざっくり言うとエキスパートの行動系列（制御ログや移動履歴など）を学習データとして、ある環境における理想的な行動規則を学習する技術です。逆強化学習に関するデモ動画を一つ紹介します。

これはStanford大のAndrew Ng教授らのグループによるラジコンヘリ自動制御の研究例です。エキスパートの操縦ログを学習データとして、未知の環境での制御方法を獲得しています。ハリケーンやフリップと言ったトリッキーな技まで獲得でき、熟練者を超えるケースもあったという点で、非常に面白い研究と感じました。

本題に戻ってActivity Forecastingですが、この論文の場合は人の行動自体をエキスパートの行動とみなし、ある環境における最適な行動規則を逆強化学習しています。具体的にはシーンセグメンテーションのラベル（歩道、車、建物、人など）と人物トラッキングで得た軌跡を学習データとして、人が好む経路（例えば、なるべく歩道を通る、車を避けて歩く）という特性（強化学習用語でいうと報酬関数）を学習しています。

学習した報酬関数を用いることで、スタート地点とゴール地点が与えられた時に、人がどんな経路で行動するか（どのように行動すれば報酬が最大となるか）を予測することができます。さらに、観測によって予測分布を更新することで、多数のゴールから逐次候補を絞って行くこともできます。

Activity Forecastingのデモ動画はこちら。