ハンデつきジャンケンとロバスト制御

2006-06-17

* ハンデつきジャンケンとロバスト制御 [tech] 6 users

A さんと B さんがジャンケンをします．ただし，A さんだけはグーとチョキしか出せないというハンデつきのルールだとします．あなたが B さんなら，何を出しますか?

東大の原辰次先生が，とある講演の余談として話されたネタ． (実は講演会自体は自分の講義と重なって出席できなくて，この話はその夜の飲み会で聞いた)

これを尋ねるとほとんどの人が「グーを出す」と答える．実は，これは必ずしも最適な解ではない．グーを出すのは「最悪でもあいこに抑えたい」という「ロバスト制御」であるというお話．

グーが必ずしも最適ではないってのがどうにもピンと来なかったので，家に帰ってから酔っ払った頭で計算してみた．ゲーム理論は一般書を流し読みしたくらいの知識しかないので，何か間違ってたら教えてください．

ジャンケンの勝敗による利得を，勝ち: +1, あいこ: 0: 負け: -1 とする．利得行列は

A\B	グー	チョキ	パー
グー	(0,0)	(1,-1)	(-1,1)
チョキ	(-1,1)	(0,0)	(1,-1)

ここで (x, y) は (A の得る利得, B の得る利得) を表す．

このゲームでは，B にとって，チョキを出す戦略はグーを出す戦略に支配されている (相手の出方によらず，チョキを出すよりはグーを出す方が必ず良い)．よって B がチョキを出す戦略は消去できる．

A\B	グー	パー
グー	(0,0)	(-1,1)
チョキ	(-1,1)	(1,-1)

この縮小された 2x2 行列のゲームについて考える．まず純粋戦略，つまり出すべき手を一つだけ考えるとすると，ナッシュ均衡は存在しない．すなわち，2x2 の 4 通りの組合せのすべてについて，A と B のどちらかの立場から見ると，手を変えた方が利得が増える．よってお互いに相手の手を読み合っていくとすると，解が収束しない．

というわけで混合戦略を考える．つまり，出すべき手の確率的組合せとして戦略を考えて，均衡する点を考える．A がグー，チョキを出す確率を p, 1 - p とし，B がグー，パーを出す確率を q, 1 - q とする．

A の立場では，グーを出す場合の期待利得は 0 * q + (-1) * (1 - q) = -1 + q．同じくチョキを出す場合の期待利得は (-1) * q + 1 * (1 - q) = 1 - 2q．これらが一致するのが均衡点である (一致しないなら，A は期待利得の大きい方の手を出すはずだ)．よって -1 + q = 1 - 2q, すなわち q = 2/3 を得る．

B の立場では，グーを出す場合の期待利得は 0 * p + 1 * (1 - p) = 1 - p．パーを出す場合の期待利得は 1 * p + (-1) * (1 - p) = -1 + 2p．これらが一致するのが均衡点だから 1 - p = -1 + 2p, すなわち p = 2/3 を得る．

よって A がグーを確率 2/3，チョキを 1/3 で出し，B がグーを 2/3，パーを 1/3 で出すのがゲームの解となる．

[ コメントを全部見る / コメントを書く] [ TrackBack ( )] [固定リンク]

swk's log - ハンデつきジャンケンとロバスト制御

2006-06-17

* ハンデつきジャンケンとロバスト制御 [tech] 6 users