強化学習(Q-learning)の報酬が後の行動に影響を受けるモデルについて

2004/10/28 09:54

このQ&Aのポイント

強化学習(Q-learning)では、状態sで行動aをとったときに、確率的に状態s'へ遷移し、同時に確率的に報酬rが得られます。
しかし、報酬rが後の行動に影響を受けてしまうようなモデルでは、Q-learningは使えません。
適したアルゴリズムについてはまだ知見がありませんので、ご意見をお待ちしています。

kyokuchin1979
お礼率24% (17/70)

その他（学問・教育）
回答数1
ありがとう数0

みんなの回答 （1）
専門家の回答

質問者が選んだベストアンサー

ベストアンサー

daitchian
ベストアンサー率47% (29/61)

2004/10/29 21:25 回答No.1

こんばんわ。強化学習に関してはどのようなものかという程度しかかじったことがない者です。ですので独り言程度と思ってください。 Q-learningでは受け取った報酬によってQ値を更新していくものですが、現在の状態sとそのときの行動aのみではなく、それ以前のものについても報酬によってQ値が更新されます。報酬はある目的を達成したときのみ与えられるものですので（一般的には）、以上のような原理を利用して迷路探索などに利用することができるのだと私は理解しています。ですので、報酬の与えられる基準がその後の行動で変化するような場合には難しいのではないでしょうか？最近ではマルチエージェント強化学習など複数のエージェントを利用したものや、上位下位という概念の入ったエージェントで強化学習を行うことがあるようです。それらの方式を使えば可能なのかもしれませんが、現在の私の知識ではわかりかねますね。答えになってないような気がしますが、とりあえずやってみるってのはどうでしょうか？