/ / 最新

swk's log - ハンデつきジャンケンとロバスト制御

2006-06-17

* ハンデつきジャンケンとロバスト制御 [tech] 6 users

A さんと B さんがジャンケンをします.ただし,A さんだけはグーとチョキしか出せないというハンデつきのルールだとします.あなたが B さんなら,何を出しますか?

東大の 原辰次 先生が,とある講演 の余談として話されたネタ. (実は講演会自体は自分の講義と重なって出席できなくて,この話はその夜の飲み会で聞いた)

これを尋ねるとほとんどの人が「グーを出す」と答える.実は,これは必ずしも最適な解ではない.グーを出すのは「最悪でもあいこに抑えたい」という「ロバスト制御」であるというお話.

グーが必ずしも最適ではないってのがどうにもピンと来なかったので,家に帰ってから酔っ払った頭で計算してみた.ゲーム理論は一般書を流し読みしたくらいの知識しかないので,何か間違ってたら教えてください.


ジャンケンの勝敗による利得を,勝ち: +1, あいこ: 0: 負け: -1 とする.利得行列は

A\B グー チョキ パー
グー (0,0) (1,-1) (-1,1)
チョキ (-1,1) (0,0) (1,-1)

ここで (x, y) は (A の得る利得, B の得る利得) を表す.

このゲームでは,B にとって,チョキを出す戦略はグーを出す戦略に支配されている (相手の出方によらず,チョキを出すよりはグーを出す方が必ず良い).よって B がチョキを出す戦略は消去できる.

A\B グー パー
グー (0,0) (-1,1)
チョキ (-1,1) (1,-1)

この縮小された 2x2 行列のゲームについて考える.まず純粋戦略,つまり出すべき手を一つだけ考えるとすると,ナッシュ均衡は存在しない.すなわち,2x2 の 4 通りの組合せのすべてについて,A と B のどちらかの立場から見ると,手を変えた方が利得が増える.よってお互いに相手の手を読み合っていくとすると,解が収束しない.

というわけで混合戦略を考える.つまり,出すべき手の確率的組合せとして戦略を考えて,均衡する点を考える.A がグー,チョキを出す確率を p, 1 - p とし,B がグー,パーを出す確率を q, 1 - q とする.

A の立場では,グーを出す場合の期待利得は 0 * q + (-1) * (1 - q) = -1 + q.同じくチョキを出す場合の期待利得は (-1) * q + 1 * (1 - q) = 1 - 2q.これらが一致するのが均衡点である (一致しないなら,A は期待利得の大きい方の手を出すはずだ).よって -1 + q = 1 - 2q, すなわち q = 2/3 を得る.

B の立場では,グーを出す場合の期待利得は 0 * p + 1 * (1 - p) = 1 - p.パーを出す場合の期待利得は 1 * p + (-1) * (1 - p) = -1 + 2p.これらが一致するのが均衡点だから 1 - p = -1 + 2p, すなわち p = 2/3 を得る.

よって A が グーを確率 2/3,チョキを 1/3 で出し,B がグーを 2/3,パーを 1/3 で出すのがゲームの解となる.

最終更新時間: 2009-01-04 15:31


Shingo W. Kagami - swk(at)kagami.org