- ベストアンサー
混合戦略のナッシュ均衡について
次のような問題です。 プレイヤー1は確率pでUを、確率1-pでDを選択する。 同様に、プレイヤー2は確率qでLを、確率1-qでRを選択する。 (プレイヤー1の利得、プレイヤー2の利得)は UかつL→(1,1) UかつR→(1,0) DかつL→(0,1) DかつR→(-1,-1)である。 このとき、混合戦略でのナッシュ均衡(p*,q*)を求めよ。 プレイヤー1の反応関数を求めるとR1(q)=(2-p)q+1-pとなって、最適なp*が1を超えてしまい、詰まってしまいました。 どのように解けばいいのでしょうか…回答よろしくお願いします。
- みんなの回答 (3)
- 専門家の回答
質問者が選んだベストアンサー
質問しても返答がないね! ハッキリいいましょう。あなたの >プレイヤー1の反応関数を求めるとR1(q)=(2-p)q+1-pとなって・・ というのは間違い。プレイヤー1の反応関数は R1(q) = 1 ∀qε[0,1] プレイヤー2の反応関数も同様に R2(p) = 1 ∀pε[0,1] となる。
その他の回答 (2)
- statecollege
- ベストアンサー率70% (494/701)
回答No1にまだ納得できませんか?あなたの、プレイヤー1の反応関数はどうやって導かれたのか、示してくれませんか。正しく導かれたかどうか見てみますから。
- statecollege
- ベストアンサー率70% (494/701)
利得マトリックスを書いてみて、チェックしてください。このゲームには両プレイヤーに支配戦略があり、プレイヤー1の支配戦略はU,プレイヤー2の支配戦略はLです。したがって唯一のナッシュ均衡は互いが支配戦略をとる(U,L)です。プレイヤー1にとっては、相手が戦略をどんなにランダマイズしても、Uをとるのが最適であり、同様にプレイヤー2にとってはLをとるのが最適だからです。したがって、混合戦略の記号を使って書くと、(p,q)=(1,1) が唯一のナッシュ均衡です。 フォーマルに議論するなら、プレイヤー2がLを確率qで、Rを確率1-qでとるとき、プレイヤー1が戦略Uをとれば、期待利得はq + (1-q) =1であり、戦略Dをとれば、期待利得は-(1-q) = q - 1である。よって、プレイヤー1がUを確率pで、Dを確率1-pで混合戦略をとったときの期待利得は EΠ1(p,q)=p + (1-p)(q-1) だ。よって、期待利得をpで微分すると、 ∂EΠ1/∂p = 2 -q>0となり、期待利得はpの増加関数、つまり、pを大きくすればするほど、プレイヤー1の期待利得は大きくなる。つまり、p=1のとき、プレイヤー1の期待利得EΠ1は最大になる。対称性によりプレイヤー2もq=1のとき、プレイヤー2の期待利得EΠ2は最大になる。つまり、(p,q)=(1,1)が一意のナッシュ均衡。
お礼
回答ありがとうございます。何度もお答えしていただいたのに返答が遅くなってしまい申し訳有りません。ネットを見れない状態が続いておりました… そもそもにして支配戦略である、というところを見落としておりまして、単純に期待利得を計算し、微分した解=0である、という解き方を行なっていたようです。回答を見て納得しましたし、それを踏まえて自分でも計算を行い(1,1)を導出できました。 度重なる呼びかけにも答えられず本当に申し訳ありませんでした。そして、丁寧に教えていただきありがとうございました。