分割表(偶現表)と情報量
ようこそ、米順医療統計情報クリニックホームページへ。
あなたは 番目の訪問者です!
乳がんと遺伝子の関係の説明の途中ですが、話を続けるのに一つ明確にしておく必要があります。そこで、まず分割表(偶現表)の話を再びします。具体例があった方がよいので、次のような分割表(偶現表)の例に基づいて話をしたいと思います。これは、甘利俊一先生の情報理論、ちくま学芸文庫を元に題目に合わせて修正したものです。
この話の前提は、IBMのワトソン研究所が行っているような自動診断システムを開発するとき、風邪の発症を判断する一項目として、“熱がある”を明確に体温で判断できるかを調べるために調査をするような場合を想定しています。
表1:調査1
項目A 項目B |
B1 |
B2 |
Ai小計 |
p(Ai) |
A1 |
55 |
5 |
60 |
0.60 |
A2 |
10 |
30 |
40 |
0.40 |
Bj小計 |
65 |
35 |
100 |
1.00 |
p(Bj) |
0.65 |
0.35 |
1.00 |
|
この表の見方は、100名を調査したところ、55名が、体温38度以上で、風邪発症、5名が、体温38度以上で、風邪発症なし、10名が、体温38度より下で、風邪発症あり、30名が体温38度よりしたで、風邪発症なしということです。
なお、これを統計処理するとフィッシャーの正確検定でP値を求めると、P=0.000、リスク比RR=3.6667、オッズ比OR=33、感度0.8462、特異度0.8571など、統計的有意差が非常にあるという結果となります。
次のような分割表(偶現表)も考えてみます。前提は、ある検査Aが、疾患Bの検査として有効かどうかを判断するために調査をしているとします(まさに乳がんの遺伝子検査による判断を想定しています)。このデータは、実際の調査から持ってきたもので、先ほどの書籍のものではありません。また、サンプル総数が10,000名と増えているのは、実際のデータであることと、サンプル数が多いと有効である、有意である様な記述をしているものをよく見かけるためです。
表2:調査2
項目A 項目B |
B1 |
B2 |
Ai小計 |
p(Ai) |
A1 |
9 |
500 |
509 |
0.0509 |
A2 |
1 |
9,490 |
9,491 |
0.9491 |
Bj小計 |
10 |
9,990 |
10,000 |
1.000 |
p(Bj) |
0.001 |
0.999 |
1.000 |
|
この表は、ある検査をしたら10,000名中、509名が陽性と判断され、9491名が陰性と判断された。
その陽性の中で、実際に疾患を発症していたのは、9名、発症していなかったのは、500名。陰性の中では、疾患を発症していたのは1名、発症していなかったのが、9,490名ということです。
これの統計的数値はP=0.000、リスク比RR=167.817、オッズ比OR=170.82、感度0.9、特異度0.9499など、で調査1、調査2とも統計的検定は有意差非常にありとなります。また、リスク比を取ると調査2の方が統計的有意差が大きく、統計的に有効であるように見えます。
いままで、見てきたように、この判断には疑問の余地が残ります。そこで、新たな視点の可能性を探ってみます。
実は、統計的有意差は、確率的にまれなことが確度高く起こっていると言っている以上でも、以下でもありません。原因と結果を述べているのでもなく、医学的に有効と言っているわけでもありません。
ここで、唐突ですが次のような量を計算してみたいと思います。
S(A1,B1) = log2(1/0.55) = −log2(0.55) =0.862
これは、調査1のA1、B1の欄の55名の全体の割合、55/100=p(A1,B1):確率の底を2のログを取ってマイナスを付けたものです。
同様に、S(A1,B2) = −log2(5/100) = 4.322, S(A2,B1) = −log2(10/100) = 3.322, S(A2,B2) = −log2(30/100) = 1.737となります。これを各項目の情報量と言います。大まかな感じは、体温38度以上で、風邪であると知ることによって、どの程度の不確かさが、確かになったかということです。
ここで、これも唐突ですが、このS(A1,B1)にその頻度つまり、0.55をかけてみたいと思います。H(A1,B1) = -0.55 log2(0.55) =0.474です。ほかも、H(A1,B2) = 0.216、H(A2,B1) = 0.332、H(A2,B2) = 0.0717となります。そして全部加えると、H(A,B) = 1.544。
同様なことを表2で計算すると。
S(A1,B1) = −log2(0.0009) = 10.1178 H(A1,B1) = 0.00911
S(A1,B2) = −log2(0.0001) = 13.288 H(A1,B2) = 0.00133
S(A2,B1) = −log2(0.05) = 4.322 H(A2,B1) = 0.216
S(A2,B2) = −log2(0.949) = 0.0755 H(A2,B2) = 0.0717
H(A,B) = 0.298
このHは、各項目(例えばA1: 体温38度以上B1:風邪である)の割合をかけることにより、表1全体の平均情報量を計算したものになります。つまり、表1は、風邪と体温についての情報量を1.544ビット(実はこれの単位はビット)含んでおり。表2は、検査と疾患について情報量を0.298含んでいるということです。統計的有意差では、表2の方が高いように出ましたが、情報量としては、はるかに表1の方が多いということです。
このSまたは、Hには名前が付いています。皆さんも名前ぐらい聞いたことがあると思います。
エントロピーといいます。しかも、情報エントロピーといいます。そうです、(情報)エントロピーとは、そのデータがどの程度の情報量を持っているかを表す数値でもあります。
今、情報量を考慮すると分割表(偶現表)の有意差以上のものが見て取れる可能性を示しました。そこで、情報エントロピーが情報量を表すように感じた方がいるかもしれませんが、それは少し違います。エントロピーは不確定度を表します。例えば、サイコロを振って、1が出たとすると、不確定度は、ありません。つまり、さいころの目は1に決定しています。ところがサイコロを振る前は、1から6のどの目が出るかわかりません。不確定度は、6です。つまり、六つのうちどれかが出ると言うことです。それが、エントロピーです。その不確定度が、情報を得ることによって、確定したということです。その確定するために得たものを情報量と言います。
さて、
表1:調査1 (再喝)
項目A 項目B |
B1 |
B2 |
Ai小計 |
p(Ai) |
A1 |
55 |
5 |
60 |
0.60 |
A2 |
10 |
30 |
40 |
0.40 |
Bj小計 |
65 |
35 |
100 |
1.00 |
p(Bj) |
0.65 |
0.35 |
1.00 |
|
表2:調査2 (再喝)
項目A 項目B |
B1 |
B2 |
Ai小計 |
p(Ai) |
A1 |
9 |
500 |
509 |
0.0509 |
A2 |
1 |
9,490 |
9,491 |
0.9491 |
Bj小計 |
10 |
9,990 |
10,000 |
1.000 |
p(Bj) |
0.001 |
0.999 |
1.000 |
|
この二つの表の情報エントロピーと情報量を求め、表1の情報量が多いことが分かりました。
つぎに、実際項目A、表1では、体温、表2では、検査結果が分かることで、どの程度項目B、表1では、風邪あり、なし、表2では、疾患なり、なしがどの程度わかるのでしょうか。それが、興味のあることです。ないか良い指標は、ないでしょうか。
分割表(偶現表)の情報量は、表1でH(A,B) = 1.544、表2でH(A,B)= 0.298でした。
それでは、項目Aのみの情報量は、どれくらいでしょうか。同様に項目Aについてのみ情報エントロピーを求めてみます。表1の場合、
H(A) = H(A1) + H(A2) = −0.6log2(0.6) −0.4log2(0.4) = 0.442179356 + 0.528771238 = 0.970950594
この0.6は、60/100つまり、100名の内、60名が体温38度以上ということで、0.4は、40/100つまり、100名中40名が体温38度より下、であることよりきます。
同様に、項目Bの情報エントロピーは、
H(B) = H(B1) + H(B2) = −0.65log2(0.65) −0.35log2(0.35) = 0.403967444+0.5301061=0.934073544
この0.65は、65/100つまり、100名中65名が風邪発症あり、035は、35/100、100名中35名が風邪発症なしからきます。
そして、項目Aと項目Bの情報エントロピーを合わせると、
H(A)+H(B) = 1.905 > 1.544 = H(A,B)。つまり、項目Aと項目Bそれぞれの、情報エントロピーは、合せると、AとBを合わせた情報エントロピーより、多くなります。これは、AとBの間に関係があることを表し、その差分が関連の強さ表します。言い換えれば、AとBがお互いに、独立な時に両者は同じとなります。
現在項目Aと調べて、項目Bを推測しようとしていますので、独立であるとは、項目Aから項目Bを推測できないことを表しますので、この調査自身が、意味のないものであることとほぼイコールです。
このH(A)+H(B)とH(A,B)の差を相互情報量と言います。ここでは、I(A,B)を表すと、
I(A,B)= H(A)+H(B) −H(A,B) = 0.361。
これだけの情報量が項目Aと項目Bの関係を表していることになります。
同様に、表2で求めると、
H(A) + H(B) – H(A,B) = 0.301615616 – 0.298199672 = 0.00342 = I(A,B)
つまり、相互情報量は、0.00342しかありません。表1の0.361と比べると、どちらの表が適しているか、つまり、項目Aから項目Bを推測できるかが見て取れます。
もうひとつ、項目Aで項目Bのどの程度の情報を知ることが出来るでしょうか?それには、項目Aを知った後に項目Bの情報量がどの程度変化するかを見てみれば推測が出来ます。これには、条件確率を用います。項目Aを知った後の項目Bの情報エントロピーをHA(B)で表すと、
HA(B) = HA1(B1) + HA1(B2) + HA2(B1) + HA2(B2)
これは、例えばHA1(B1)は、項目A1とわかった後のB1の割合、体温38度以上の60名中の風邪疾患あり55名であることです。このエントロピーを求めます。同様に、HA1(B2)、HA2(B1)、HA2(B2)のエントロピーを求めます。意味は、同様です、HA1(B2)は、体温38度以上の60名中、風邪発症なしの5名のエントロピー等です。
HA(B) = 0.6(0.115069975 + 0.298746875) + 0.4(0.5 + 0.311278124) = 0.573
これは、項目Aを知ると全体の0.573の情報が求まることを意味します。
これは、H(B)=0.934、つまりBの情報量、風邪発症あり/なしのかなりの情報量が、体温38度以上かの検査でわかることを示唆します。
一方表2では、どうでしょう。同様なことを求めてみます。計算は省略しますが、同様に、
H(A,B)=0.298,H(A)+H(B)=0.302 ,H(B)=0.290,HB(A)=0.008, I(A,B)= 0.0034
この相互情報量I(A,B)=0.034、検査した後の疾患あり/なし情報量変化、HB(A)=0.008等を、表1の
I(A,B)= 0.361。HA(B) = 0.573と比べると表1と表2がどちらが疾患に対する情報量を有しているか、つまりどちらが効率的な検査であるかの指標となり得ます。
つまり、有意差検定で、有意差が出る、リスク比またはオッズ比で差が大きい、だけで判断するのは危険であり、ここで調査した情報量をなど、その他の指標を調べるなどして総合的に判断することが推奨されます。