ベイズの定理の復習
日本人の0.01%が罹患しているある病気について考えます。この病気の検査方法では、実際に病気に罹患している人が陽性と判定される確率が95%、逆に罹患していない人が陰性と判定される確率は80%であると言われています。 ある人がこの病気の検査を受けて陽性という判定を受けた時、本当にこの病気に罹患している確率はいくらでしょうか。
(中略)
陽性と判定されたときに実際に病気に罹患している確率は0.0475%
(10-6. ベイズの定理の使い方 | 統計学の時間 | 統計WEB)
「日本人の0.01%が罹患しているある病気」を「対象者(100万人)の1%が罹患している」に変えてみる。
病気に罹患している確率:0.01(1%)(1万人)
病気に罹患していない確率:0.99(99%)(99万人)
実際に罹患している人が検査で陽性となる確率:0.95(95%)(9500人)
実際に罹患している人が検査で陰性となる確率:0.05(5%)(500人)
実際に罹患していない人が検査で陰性となる確率:0.80(80%)(79万2千人)
実際に罹患していない人が検査で陽性となる確率:0.20(20%)(19万8千人)
陽性と判定された人が罹患している確率=(0.01×0.95)/(0.01×0.95+0.99×0.2)=0.045783133=4.58%
陰性と判定された人が罹患している確率=(0.01×0.05)/(0.01×0.05+0.99×0.8)=0.000630915=0.063%
陽性と判定された人が罹患していない確率=(0.99×0.2)/(0.01×0.95+0.99×0.2)=0.954216867=95.42%
陰性と判定された人が罹患していない確率=(0.99×0.8)/(0.01×0.05+0.99×0.8)=0.999369085=99.94%
「日本人の0.01%が罹患しているある病気」を「対象者(1万人)の40%が罹患している」に変えてみる。
病気に罹患している確率:0.40(40%)(4千人)
病気に罹患していない確率:0.60(60%)(6千人)
実際に罹患している人が検査で陽性となる確率:0.95(95%)(3800人)
実際に罹患している人が検査で陰性となる確率:0.05(5%)(200人)
実際に罹患していない人が検査で陰性となる確率:0.80(80%)(4800人)
実際に罹患していない人が検査で陽性となる確率:0.20(20%)(1200人)
陽性と判定された人が罹患している確率=(0.40×0.95)/(0.40×0.95+0.60×0.2)=0.76=76%
陰性と判定された人が罹患している確率=(0.40×0.05)/(0.40×0.05+0.60×0.8)=0.04=4%
陽性と判定された人が罹患していない確率=(0.60×0.2)/(0.40×0.95+0.60×0.2)=0.24=24%
陰性と判定された人が罹患していない確率=(0.60×0.8)/(0.40×0.05+0.60×0.8)=0.96=96%
検査対象を罹患している確率が高そうな人に絞った場合、誤診率(実際に罹患している人が検査で陰性となる確率と実際に罹患していない人が検査で陽性となる確率)は変わらない。これは検査方法が同じなので当たり前。
検査対象を罹患している確率が高そうな人に絞った場合、陽性と反対された人が罹患している確率は圧倒的に絞らない場合と比べて高くなる。ただし、陰性と判定された人が罹患している確率も、対象を絞らない場合と比べて高くなる。だから、陰性だったから安心だと誤解すると、対象を絞った場合の方が危険。
人数で見てみる。対象を絞らずに100万人を検査する場合、罹患しているのは1万人で、その内で正しく陽性と判定されるのは9500人。罹患率40%と思われる1万人に対象を縛って検査した場合、罹患しているのは4千人で、その内で正しく陽性と判定されるのは3800人。
さて、もし、100万人を検査できるのに罹患率40%と思われる1万人に対象を絞って検査した場合、100万人を検査した場合よりも見つけられる患者数は5700人も少ない。100万人の内1万人が罹患しているのに、見つけられたのは3800人。残りの6200人は罹患しているにもかかわらず罹患しているとはみなされない。例えば、感染症の場合、感染者はできるだけ早く、できるだけ多く見つけなければいけないのだが、検査対象を上記のように絞った場合、6200人が隔離されずに感染を広げる。対象を絞らずに100万人を検査すれば、隔離されずに感染を広げるのは500人だけである。
そして、上記の例では100万人で計算したが、1億人を対象にしたら罹患している人はもっと多く、対象を絞って検査することにより、隔離されずに感染を広げる人数はもっと多くなる。
さて、検査能力が不足しているのなら検査対象を絞らざるを得ないが、検査能力に余裕がある状態で検査対象を「罹患率が高そうなグループ」に絞ることは正しいだろうか?
ベイズの定理を持ち出して検査対象を絞ることの正しさを主張するのは正しいのだろうか?
追記:
感染して陽性だった人は治るまで陰性にならないが、感染してなくて陰性だった人も検査した日に感染しているかもしれないので陰性だからといって安心できないのだが、感染しているのに陰性という検査結果になるかもしれず、そちらも安心できない。
では、上記の例で「陰性と判定された人が罹患している確率」ではなく人数で比較してみる。これはベイズの定理は必要ない。対象を絞らずに100万人を検査した場合は罹患しているのに陰性となる人は500人。罹患率40%と思われる1万人に絞った場合は200人。対象を絞った方が少ない(差は300人)。しかし、対象を1万人に絞ることで、100万人(罹患者1万人)の内検査せずに見逃された6千人を加えると6200人が罹患していることに気付かない。対象を絞らずに検査した場合の500人と比べて多いが、検査対象を絞った方が良いのだろうか?
もう一つ忘れてはいけないことがある。早期発見、早期治療が必要なのは、罹患者の中に一定割合で死亡する人がいるからである。
例えば、治療しなかった場合に罹患者の1%が亡くなるとすると、100万人の内の罹患者1万人の内100人が亡くなる。早期治療で死亡率を0.1%に減らせるとしたら、100万人を検査した場合、亡くなるのは罹患しているのに陰性だった500人の内の5人と陽性だった9500人の内の9~10人の合計14~15人である。それに対して上記のように1万人に絞って検査した場合は、罹患しているのに陰性だった200人の内2人と陽性だった3800人の内3~4人、そして検査せずに見逃された6000人の内の60人の合計65~66人が亡くなる。検査対象を絞らずに検査した場合よりも亡くなる人が多くなるが、検査対象を絞って検査した方が良いのだろうか?
追記(ツイート):
10%が罹患していると思われる集団50万人を検査した場合と1%が罹患していると思われる集団500万人を検査した場合を比較してみた。当たり前だけど、母集団の罹患率が高いと検査で陰性なのに罹患している人の割合が増える。→【ベイズの定理の復習:正己の異論・反論(雑感)】 https://t.co/VcCpAXAiXk pic.twitter.com/WaGNEdTtby
— 正己 (@self7777) May 2, 2020
検査で陽性だった人の割合P(A)=(P(B1)×P(A|B1)+P(B2)×P(A|B2))。本当の罹患率P(B1)=(P(A)-P(A|B2))/(P(A|B1)-P(A|B2))。P(A|B1)=0.7、P(A|B2)=0.2と仮定すると、P(A)=50%ではP(B1)=60%。→【ベイズの定理の復習:正己の異論・反論(雑感)】 https://t.co/VcCpAXAiXk pic.twitter.com/oxwJZkjdL2
— 正己 (@self7777) May 2, 2020
10%が罹患していると思われる集団50万人を検査した場合と1%が罹患していると思われる集団500万人を検査した場合を比較してみた。当たり前だけど、母集団の罹患率が高いと検査で陰性なのに罹患している人の割合が増える。→【ベイズの定理の復習:正己の異論・反論(雑感)】 https://t.co/VcCpAXAiXk pic.twitter.com/9GrFVEPghL
— 正己 (@self7777) May 4, 2020
「実際に罹患していない人が検査で陰性となる確率」が0.99なら、検査で陽性だった人の割合が約50%だった時、その集団の本当の罹患率は約70%。「実際に罹患していない人が検査で陰性となる確率」が0.80なら約60%だった。https://t.co/b2BnUjlyId pic.twitter.com/RXUo8gLlsy
— 正己 (@self7777) May 4, 2020
応用してみた。貧しそうな人ばかり10万人に生活保護の審査をした場合と貧困率10%の国で無作為に100万人を選んで生活保護の審査をした場合の比較。ただし審査の精度は適当。→【ベイズの定理の復習:正己の異論・反論(雑感)】 pic.twitter.com/KFNGZiHuMb
— 正己 (@self7777) May 2, 2020