時間差分学習

機械学習および
データマイニング
問題
理論
  • 偏りと分散のトレードオフ
  • 計算論的学習理論(英語版)
  • 経験損失最小化(英語版)
  • オッカム学習(英語版)
  • PAC学習
  • 統計的学習(英語版)
  • VC理論(英語版)
学会・論文誌等
  • NIPS(英語版)
  • ICML(英語版)
  • ML(英語版)
  • JMLR(英語版)
  • ArXiv:cs.LG

カテゴリ Category:機械学習

カテゴリ Category:データマイニング

時間差分学習(じかんさぶんがくしゅう、: temporal difference learning)やTD学習とは、現在の状態価値関数の推定からブートストラップで学習するモデルフリーの強化学習の手法。モンテカルロ法のように環境からサンプルを取り、動的計画法のように現在の推定に基づいて状態価値関数を更新する。[1]

状態価値関数 V ( s ) {\displaystyle V(s)} は、現在および将来に得られる報酬(reward)になるように学習させる。ただし、将来分の報酬は、経済学でも使われる割引率(discount rate)をかけた物を使用する。これを割引収益(discounted return)と呼ぶ。

考え方自体は少なくとも1959年の時点でArthur Samuelがチェッカーをプレーする人工知能のプログラムで使用しているが、temporal difference learningという呼び方は1988年にリチャード・サットンが命名している。[2]

アルゴリズム

状態 S t {\displaystyle S_{t}} のエージェントが行動 A t {\displaystyle A_{t}} を選び、報酬 R t + 1 {\displaystyle R_{t+1}} を得て、状態が S t + 1 {\displaystyle S_{t+1}} に遷移したとする。このとき状態価値関数 V ( S t ) {\displaystyle V(S_{t})} を次の式で更新する。

V ( S t ) ( 1 α ) V ( S t ) + α [ R t + 1 + γ V ( S t + 1 ) ] {\displaystyle V(S_{t})\leftarrow (1-\alpha )V(S_{t})+\alpha \left[R_{t+1}+\gamma V(S_{t+1})\right]}

ここで α {\displaystyle \alpha } は学習率といい、 0 < α < 1 {\displaystyle 0<\alpha <1} とする。 γ {\displaystyle \gamma } 割引率といい、 0 < γ < 1 {\displaystyle 0<\gamma <1} な定数である。

行動 A t {\displaystyle A_{t}} は、状態価値関数を使用して選択する。

更新式は

V ( S t ) V ( S t ) + α [ R t + 1 + γ V ( S t + 1 ) V ( S t ) ] {\displaystyle V(S_{t})\leftarrow V(S_{t})+\alpha \left[R_{t+1}+\gamma V(S_{t+1})-V(S_{t})\right]}

とも書けるが、 R t + 1 + γ V ( S t + 1 ) V ( S t ) {\displaystyle R_{t+1}+\gamma V(S_{t+1})-V(S_{t})} をTD誤差(TD error)と呼ぶ。[3]

参照

  1. ^ Sutton, Richard S.; Barto, Andrew G. (2018). Reinforcement Learning: An Introduction (2nd ed.). Cambridge, MA: MIT Press. p. 133. http://www.incompleteideas.net/book/the-book.html 
  2. ^ Sutton, Richard S. (1988-08-01). “Learning to predict by the methods of temporal differences”. Machine Learning 3 (1): 9–44. doi:10.1007/BF00115009. https://doi.org/10.1007/BF00115009. 
  3. ^ Richard S. Sutton; Andrew G. Barto (2018). Reinforcement Learning, second edition: An Introduction. Bradford Books. ISBN 978-0262039246. http://incompleteideas.net/book/the-book-2nd.html 

関連項目