むしろ逆に確率を質的にとらえて納得する

立ち読みした本に確率のパズルが載っていて、それについて考えたりしていた。そのパズルについては数日間考え、答えを本で確認したところ、納得するものとは言えなかった。条件付確率と呼ばれるものを利用したパズルで、ベイズ統計学と関係のある問題だ。こういう問題は、説明されればああそうかと納得するものの、考え方がみについているかと問われると怪しいところがある。この問題の簡略バージョンなら、ネットでもよく見かけるので、これについて少し考えてみた。簡略バージョンでも問題の肝は捉えられると思う。
ネットに問題文があったので、引用する(ベイズの定理(入門編) - Pashango’s Blog)。

隣の家に2人の子供がいる事が解っています。隣家のお母さんに「女のお子さんはいますか?」と質問した所「はい」と答えました。このとき、もう1人の子供も女の子である確率はいくつでしょうか?

単純のために、この世界では男女の出生率に差はないとし、また生まれたこどもは死亡等による男女の偏りは生じないものとする。また子どもの性別について判断できる情報は、持ち合わせていないとする。まあ、新しく引っ越してきてお隣さんの家族を見たことがないとか、そういうことだろう。現実では子どもが二人いると知っているのに、性別については全くの無知というのはなかなかあり得ないように思えるが、このようにし仮定しても一般性を失わないし、この仮定が破れている現実世界でも、計算過程の数値だけ変更すれば考え方は適用できるからね。

さてこの問題だが、想定解答は次のようなものだ。事象AとBを、次のように定義する。
A: 二人の子どもの少なくとも一人が女の子である
B: 隣家の子どもが二人とも女の子(姉妹)である
すると、今回求めたいのはAと分かったうえでのBの確率だ。一般的な記号を導入して、これをP(B|A)と表す。ベイズの定理を用いると、
 P(B|A)=\frac{P(A∧B)}{P(A)}
である。事象の意味的には、B⇒Aが成り立つので、P(A∧B)=P(B)=1/4である。また、P(A)のほうは、これを「二人の子どもが両方とも男の子である」ことの余事象に対する確率と考えれば、P(A)=1-1/4=3/4となる。したがって求めるべき確率P(B|A)は、(1/4)/(3/4)=1/3となる。


この問題は「少なくとも一人が女の子である」ということを悟る時点が、非常にデリケートであり、例えば冒頭の問題を次のように問題を書き換えると答えは変わってしまう。

隣の家に2人の子供がいる事が解っています。ある日、偶然、隣家に女の子が出入りするのが見えたので、子どものうち少なくとも一人はどうやら女の子のようです。このとき、もう1人の子供も女の子である確率はいくつでしょうか?

前問と同じように、事象AとBを定義するのがよいだろう。
A: 二人の子どもの少なくとも一人が女の子である
B: 隣家の子どもが女のこ二人(姉妹)である
このように考えるなら、結論は前の問題と同じになる。しかし、問題文の状況をよく考えると、Aをもってすでに起こった事象とするのは間違いである。このばあい、正しくはA'を使う。
A': ある日、偶然、隣家に女の子が出入りするのが見えた
もう少し数学的にクリアに書き直すならば、
A'': 二人の子どものうち一人をランダムに抜き出したところ、女の子であった
となる。確率P(A'')を求めるには、条件付確率に対する関係式
 P(X)=\sum_{i}P(X|Y_i)P(Y_i)
を使えばよい。すると、P(A'')は1/2となるので、求めたい確率P(B|A'')=1/2となる。


なぜこのような差が生じたのかというと、それは女の子が隣家に出入りするところは、女の子が一人だけしかいない場合よりも、二人いる場合のほうが目撃する確率が高いからである。女の子が出入りするところを見た時点で、少なくとも女の子が一人その家にはいるということに加え、「女の子がその家に出入りするところを目撃する」という事象が起こりやすいということも同時に知るわけである。これはつまり、二人とも女の子である確率が高いということを知るということである。
A''が生じた時点で、Aよりも多くの情報を得たことになる。パラドキシカルな結果を与える2つの問題だが、このように考えると多少の納得がいく気がする。ではこの余剰な情報の量は、「どれくらいだろうか」。これについては、計算すれば出てくるのだろう。気が向いたらそのうち計算するかもしれない。