締切済み

大富豪におけるモンテカルロ法について

2015/05/20 19:04

私は現在、モンテカルロ法を用いた大富豪AIの構築を行おうとしています。そこで質問&確認なのですが、モンテカルロ法(仮に原始モンテカルロ)とは、 (1)ある条件下でとりあえず出せる手の内でランダムな手を出しつつゲーム全体を最後までプレイさせ、終わった時にどの条件下でどの手を出した時有効か有効でないかを記録し、最終的にそれらを統計的に見て、例えば『場に7以下が出ている場合は8を出せば統計的に有効なので出す。』というように手を決定する。 (2)ある条件下で、相手の手札を推測し、その上でランダムな手を出しつつ最後までプレイ(ただ、この「最後までプレイ」というのは自ターン時に別ルーチンで進める。プレイヤーの頭の中のみでゲームが行われているイメージ)し、最も評価の高かった手を出す。この時、ゲーム全体で見れば、自プレイヤーがただ普通に１ターンの内にカードを出したようにみえる。の二つの内のどちらが正しいのでしょうか(画像参照)。また、原始モンテカルロを改良した「モンテカルロ木探索」「UCB1を用いたモンテカルロ」についてもご教授していただければ幸いです。色々調べたり論文をあさったりしているのですが未だ理解が及ばない状況です。勉強不足で申し訳有りませんが、何卒ご教授願います