先日の、納得がいかなかったパズルについて更に書きます。しばらく一人で考えて、納得がいかない理由を明確にしたので備忘録的に書いておこうかと思うわけです。

そのクイズは、こんなものでした。
「4人が宿泊しているホテルの部屋から、女性が出てくるところが見えた。このとき、その4人がすべて女性である確率はいくらか?」
本当にこの程度の説明しかなかったわけだけど、その本の中では要約すると次のような解答が与えられていたわけです。

女性の数が0人から4人まで、5通りのグループ編成が考えられる。この5通りのグループが宿泊することについて、同様に確からしいとすると、ベイズの定理により女性がその部屋から出てくるところを見たときの、全員女性である確率は、P(全員女性|女性が出入りするところを見た) = P(全員女性∧女性が出入りするところを見た)/P(女性が出入りするところを見た)。だから、右辺は (1/5)/(1/2) = 2/5。すなわち答えは40%。僕が読んだ本の中では、ベイズの定理は陽には用いられていませんでしたが、要約するとこんなところ。

この回答の納得のいかないところは、5通りのグループが宿泊することについて、「同様に確からしい」とするところ。この回答を正解とするのであれば、問題文は次のようにあるべきだ。
「女性の数が0~5人の4人組、A~Eをつくった。いま、ランダムに選んだ一つのグループを部屋に入れた。部屋から女性が出てくるのが見えたとき、選んだグループが女性4人の組である確率は?」
このようにすれば問題の解答は正当なものになる。逆に、4人組を、コインを4回振り、表が出た回数で女性の数を決めるようなやり方だと最終的な解答は変わってくる。このような4人組の作り方をしたとき、同様に確からしい4人組のアンサンブルを考えると、4人組である確率は(1/5ではなく)1/16しかない。仮にこの値を、先のベイズの定理に放り込むと、最終的な確率は1/8となってしまう。これは、別に非自明なところもない。実際には、4人組の宿泊グループのうちの女性の人数についての確からしさは、そのホテルにおける宿泊者の統計的情報などから推測することになる。そのうえで女性が出入りしているのを見かけたときの確率を求めることになる。

この問題は、一般に事前分布の選び方という問題として知られているものと同じかと思います。

統計力クイズ: そのデータから何が読みとれるのか?

統計力クイズ: そのデータから何が読みとれるのか?