- ベストアンサー
混合戦略の求め方を教えて下さい!(非ゼロ和ゲーム)
A,Bの2人がいる非ゼロ和ゲームにおいて (A,B) (ドラマ、ドラマ)=(7,3) (ドラマ、バラエティ)=(4,6) (バラエティ、ドラマ)=(5,5) (バラエティ、バラエティ)=(6,4) という利得行列があります。 これについて、混合戦略を求めたいのですが、 Aがドラマを選択する確率をp、バラエティを1-p Bがドラマを選択する確率をq、バラエティを1-q とすると、 E(A)=7pq+5(1-p)q+4p(1-q)+6(1-p)(1-q) =7pq+5q-5pq+4p-4pq+6-6q-6p+6pq =4pq-q-2p+6 =(4p-1)q-2(p-3) ∴0≦p≦1/4 とここまでは分かったのですが、答えをどう出せばいいのかわかりません。 qの範囲も出した方がいいのでしょうか? そして、このpの範囲は、何の意味があるのでしょうか? どなたか、教えて下さい!!
- みんなの回答 (5)
- 専門家の回答
質問者が選んだベストアンサー
- ベストアンサー
大きな間違いをしてしまいました。すみません。 playerAが動かせる変数はpなので、E(A)をpでまとめます。すなわち、 E(A)=(4q-2)p-q+6 で、あとはこれを最大にすることを考えるので 4q-2>0でp=1 4q-2<0でp=0 4q-2=0でp=なんでもいい。∴q=1/2 ということで、 >pもqも1/2になりましたが・・・ あってそうですね。
その他の回答 (4)
- fushigichan
- ベストアンサー率40% (4040/9937)
ERIeriERIさん、こんばんは。 ゲーム理論については、全く知らないのですが、 下記の参考URLは参考にならないでしょうか。 これによると、 P0={(p1,p2)|0≦p1≦1,0≦p2≦1,p1+p2=1} Q0={(q1,q2)|0≦q1≦1,0≦q2≦1,q1+q2=1} を、各プレーヤーの戦略をとりうる確率の集合とすると、 ここでは、P=(p,1-p)ですが、これがP0の中から選択されたときに Bは、これに対抗して、E(A)が最小となるQ=(q,1-q)をQ0の中で選ぶということになるそうです。 それを、 min{E(P,Q)|Q∈Q0} この最小を minE(P,Q) Q とかくと、Aはこれに対抗して、利益を最大になるように戦略を選ぶので max minE(P,Q) P Q 一般に、 max minE(P,Q)≦min maxE(P,Q) P Q Q P が成り立つようです。 また、フォン・ノイマンのミニマックス定理より max minE(P,Q)=min maxE(P,Q) P Q Q P となる解が存在し、これを最適戦略というようです。 少しでも参考になればと思ったのですが、ここまでしか分かりません。 「非ゼロ和ゲーム」「ゲーム理論」「利得行列」 などで検索してみますと、参考になりそうなページがいくつかありますので 見てみてください。 試験のほう、頑張ってください。あまりお役に立てずにすみません。
お礼
回答ありがとうございます。 テストは無事終わりました。
ANo.#1の方のご指摘どおりですが、もう少し説明を加えるとAが戦略を立てる場合に、Bがどう出るかを考慮するのが混合戦略なので、Aの期待利得E(A)をBがどう出るかに関する確率qの方程式と考え、方程式の最大化問題と捉えます。 この問題設定はそのまま「ゲーム理論入門」日経文庫―経済学入門シリーズ・武藤 滋夫 (著) にあるのでそちらを参照するのが良いでしょう。 #試験に間に合うのであれば、ですが。
お礼
ありがとうございました、 テストは無事終わりました
どうでもいいつけたしで間違えました。 ×ゼロサムですがコンスタントサムなので本質はゼロサムですね。 ○非ゼロサムですがコンスタントサムなので本質はゼロサムですね。
補足
#3の方の本を借りに行ったのですが、図書館は休館日、本屋にはなかったので、、、 去年違う授業で習った方法でやってみました。 pもqも1/2になりましたが・・・ これで合ってるのでしょうか・・
ゼロサムですがコンスタントサムなので本質はゼロサムですね。 ま、本筋には関係ないのでどうでもいいですが。 それと、なぜいきなり ∴0≦p≦1/4 という結論が出てくるのか分かりませんが、 E(A)=(4p-1)q-2(p-3) がどこで最大になるか考えてみると、 4p-1が正ならq=1 4p-1が負ならq=0 4p-1が0ならqはどの値でも最適戦略 ということで、横軸p、縦軸qとして どこの点で最良戦略が取られているかを図示すれば よいでしょう。
補足
回答ありがとうございます。 混合戦略をあまりよく理解できていないのですが、 明日テストのため、何かパターンがあれば・・・と思っています。 Aの最適戦略を求めるときは、qの最大値を求めればいいということでしょうか? 逆にBのときはpの最大値を求めることになりますか? 確かにこの問題の最後に図示して解答するように と書いてありますので、 図示する方が考えやすいということなのでしょうか。 本質を理解していない上で質問しているので、 何言ってるんだ?とお思いになるかと思いますが。。。 よろしくお願いします。
お礼
ありがとうございました テストは無事おわりました。