読者です 読者をやめる 読者になる 読者になる

昔取ったポカリスエット柄

読んだ本の感想とか、日常の出来事や考え事を書いていくタイプのブログ。

じゃんけんゲームの素朴な理解に見るゲーム理論入門

スポンサーリンク

お久しぶりです、せんしゅです。いろいろブログのネタはあったんですが、14ヶ月ほど放置する結果になりました。きっとまとまった文章を書かなくても、twitterで主張だけ呟けば満足してしまうからでしょう。この14ヶ月は麻雀やったり麻雀やったりしてました。

 

先ほど、私が所属するmjktという麻雀団体(ここ14ヶ月で加入したもののひとつ)のLINE(ここ14ヶ月ではじめたもののひとつ)において、面白そうな会話がなされていました。

 

じゃんけんゲームとゲーム理論

先述の会話は、

「グリコのようなじゃんけんゲームで、最適比率が1:2:3だと仮定して、確率比率1:2:3で手を出してくるコンピュータと、[例えば6戦ごとに必ず]合計1:2:3の比率になるように手を出す人はどちらが有利だろうか?」([]は文脈から推測して筆者が付け足した)

という疑問からはじまった議論でした。

 

 

一見すると、無限という厄介な概念に囚われてしまったがゆえにうまれた疑問のように見えますが、一方でこれは言葉の使い方が適当であるゆえにうまれた謎でもあります。 題材となっているじゃんけんのゲームはゲーム理論(非協力ゲーム理論)の初学者向けの例としてよく出てきます。

なので、このじゃんけんゲームについて考える場合、ゲーム理論の用語を使ったほうがわかりやすく(一意的に)表現できそうです。

 

詳しく見ていきましょう。

この問題文の中に出てくる「最適比率」とはなんでしょうか。あるいは、この議論の最中に何度も出てきていた「最適戦略」とはなんでしょうか。

 

直感的には、「最適戦略」とは「取れる戦略の中で自分が一番得をする戦略」(グーをp%、パーをq%の確率で出すような戦略、すなわち混合戦略を含む)のことで、「最適比率」とは「混合戦略である最適戦略において出すべきグーチョキパーの比率(確率比)」のことだろうと予想されます。

 

しかし、じゃんけんのようなゲームにおいて自分が一番得をする戦略は、相手の戦略に依存します。

具体的な例をあげましょう。相手が毎回グーを出すという戦略を取っているならば、自分が一番得をする戦略は毎回パーを出すことです。相手が1/2の確率でグーを出し、1/2の確率でパーを出すとすれば、自分が一番得をする戦略は毎回パーを出すことです※1

つまり、相手の戦略によって自分が一番得をする戦略というのは変わるのです。

(相手の戦略によらず、取れる戦略の中で自分が一番得をする戦略のことを支配戦略と呼びますが、じゃんけんのようなゲームには当然存在しません)

このような、相手の戦略を所与としたときに自分の利得を最大化する戦略のことを、ゲーム理論では最適反応(best response)と言います。そして、最適反応の集合を最適反応関数と呼びます。

この最適反応という考え方によって、(名前だけはそこら中で見かけるかの有名な)ナッシュ均衡という言葉は「すべてのプレイヤーの戦略が、他のプレイヤーに対する最適反応となっている戦略の組」と定義されます。つまり、すべてのプレイヤーにとって、自分だけ戦略を変えてもこれ以上得にならないような戦略の組をナッシュ均衡と呼ぶわけですね。

単純なじゃんけんを例に考えてみると、相手が毎回グーを出すなら自分は毎回パーを、それなら相手は毎回チョキを出すようになるので今度は自分が毎回グーを……という風になるので、純粋戦略(混合戦略の対義語、確率1で特定の行動を行う戦略)によるナッシュ均衡は存在しないことになります。ちなみに二人じゃんけんのナッシュ均衡は( (1/3,1/3,1/3) (1/3,1/3,1/3) )となります(二人ともグーチョキパーをそれぞれ1/3の確率で出す混合戦略)。

 

また、ナッシュ均衡は、各プレイヤーの戦略が全プレイヤーに対して最適反応となっている戦略の組のことなので、自分と相手の最適反応関数の交点がナッシュ均衡ということになります。(言葉で説明するとわかりづらいですが、各プレイヤーの最適反応関数を図示してやるとよくわかります)

 

さて、こういったじゃんけんゲームの実際のナッシュ均衡の導出は他のページ(じゃんけんグリコの最適戦略を探る)に任せ、重要な点を確認しましょう。

じゃんけんのように各プレイヤーが平等な(対称)ゲームにおいては、当然ですがナッシュ均衡における二人の戦略は同じになります。なぜなら、この唯一のナッシュ均衡の戦略以外の戦略を自分が取る場合、相手はその戦略の弱点を突くような戦略(その戦略に対する相手プレイヤーの最適反応)を取ることができるからです。自分が常にグーを出していれば、相手はそれに対する最適反応として毎回パーを出しますね。

 

ここで厄介なのは、一方がナッシュ均衡の戦略を取ったとき、それに対するもう一方の最適反応はとりうるすべての戦略であることです。つまり、ナッシュ均衡の戦略を取り、そこから絶対戦略を変えないプレイヤーに対しては、ランダムな戦略で挑んでも(例えば常にグーを出す)ナッシュ均衡の戦略で挑んでも、期待値は変わらないということです。

 

だから、このじゃんけんゲームが平等な(=各プレイヤーが交換可能な/対称)二人ゼロサムゲームであることを考えると、ナッシュ均衡の戦略は最良の戦略だが、各プレイヤーの利得期待値は0なので※2ナッシュ均衡の戦略は負けないが勝てない戦略ということになります。

まあ、平等な条件のゲームに必勝法があれば相手も同じ戦略をとって五分五分になるんだから、必勝法なんてないという話ですね。

 

以上をふまえて、冒頭の問題を解釈して考えなおしてみましょう。

「グリコのようなじゃんけんゲームで、最適比率が1:2:3だと仮定して、確率比率1:2:3で手を出してくるコンピュータと、[例えば6戦ごとに必ず]合計1:2:3の比率になるように手を出す人はどちらが有利だろうか?」

「ある二人じゃんけんゲームで、最良の戦略が(1/6,1/3,1/2)だと仮定して、(1/6,1/3,1/2)という戦略を取るコンピュータと、6戦ごとに必ず各手を1回、2回、3回出す人はどちらが有利だろうか?」

と書き換えられるでしょう。

これは、コンピュータ、人の取っている最良の戦略が共にナッシュ均衡の戦略であるということを考えると、どちらが有利と言えないことはすぐわかります。

 

つまり、「最適戦略があるんだから最適でない戦略の方が劣っているのは自明ではないか」という意見は「最適」「最良」という言葉に踊らされているわけですね。じゃんけんゲームのような二人対称ゼロサムゲームにおいては、最善の戦略(=「最適戦略」)はナッシュ均衡の戦略であり、期待利得0の戦略です。他の戦略をとった場合、それに対する最適反応を相手が取れば必ずこの戦略より期待利得は小さくなるのでやはり最良と呼べる戦略です。しかし最善の戦略に対する最適反応はすべての戦略なので、相手がどのような戦略であっても期待利得は0となります。

 

この疑問の本質は、確率的に最良の戦略を出すコンピュータと結果的に最良の戦略を出す人はどちらが有利なのかということだったのでしょう。

しかし、その前提として、じゃんけんゲームがゼロサムゲームだということ(注意すべきは、利得とはこのゲームにおける自分の得点それ自体ではなく、自分の被害、すなわち相手の得点も含んでいることだ)をふまえれば、ナッシュ均衡の戦略を取るプレイヤーに対する最適反応はすべての戦略であるので、短期的にコンピュータが最良の戦略から大きく離れた戦略を取ったとしても、人が最良の戦略を取り続けているので、短期的に見ても有利不利は存在しないということになります。

というか、そもそも、確率に基いて行われる選択の繰り返しを短期で取り出せば、そりゃばらけるでしょう、運次第でしょうという話のような気がします。

 

※1

グリコ・チョコレート・パイナップル方式のじゃんけんゲームでの数値例を示す。

・自分がグーを出すときの期待利得は(1/2)*0+(1/2)*(-6)=-3

(相手がグーを出す確率=1/2)*(グーvsグーの利得=0)+(相手がパーを出す確率=1/2)*(グーvsパーの利得=-6)=-3

・チョキを出すときの期待利得は(1/2)*(-3)+(1/2)*(6)=3/2

・パーを出すときの期待利得は(1/2)*6+0*6=3

すなわち自分は毎回パーを選ぶことが最適反応となる。

 

※2

二人ゼロサムゲームにおいては、相手の利得を減らせば自分の利得が増えるので、各プレイヤーは相手の利得を最小化するようにふるまい、それが最良である。つまり、(Neumanのミニマックス定理の通り)自分の利得とは相手がどうしても防げなかった損失を意味する。よって、特に二人のプレイヤーが平等な条件であるゲーム(各プレイヤーが交換可能なゲーム)において、ナッシュ均衡の戦略による期待利得は0となる。

 

 

余談。

ふとこの記事を書いていて思った疑問は、重み付けじゃんけんゲームを本当にゼロサムゲームで処理していいのかということ。ゼロサムゲームであるという前提であれば上の議論は正しいはずですが、現実に行われる先に階段を登りきったほう(先にn点を獲得したほう)が勝ちで、じゃんけんに勝てば階段を登りじゃんけんに負けた時のペナルティがないようなゲームの利得表って(6 -6) (-3 3)みたいなゼロサムじゃなくて(6 0) (0 3)みたいな非ゼロサムになるんじゃないかという。

なんだか眠い頭じゃ考えられないんですが、どうなんでしょう。また眠くなくて時間のあるときに考えてみます。

それ以外にも割と細かいところを間違っている気がするので、間違いがあればご指摘お願いします。