ランダムでないサンプリングを伴う観察研究のデザイン②

東京大学大学院情報学環 准教授 篠崎 智大

マッチング

マッチングも同様に、サンプリングを工夫することで比較条件を揃えるまたは効率的に推定値を得るために使われます。ただし、コホート研究でのマッチングとケースコントロール研究でのマッチングは、役割が全く違います。ここの混同は理論上も実用上も非常に危険なので、しっかり区別して理屈を十分理解しておく必要があります。

 コホートマッチング

次のコホート研究は性別により曝露割合が大きく異なるために交絡が生じている例です。

男性女性
発症非発症発症非発症
曝露あり41900504000
曝露なし270180002480
層別オッズ比(41*18000)/(900*270) = 3.04(50*480)/(4000*2) = 3.00
表2.交絡のあるコホート:性で層別


男性・女性それぞれの層別オッズ比は約3であるにもかかわらず、性別を無視して全体で求めた粗(crude)オッズ比は(91*18480)/(4900*272) =1.26となり大きなバイアスが生じています。1オッズ比には併合不能性(non-collapsibility)という性質があり、全体に併合したときに交絡がなくても、全体のオッズ比が層別のオッズ比の平均で表せないことがあります(これはバイアスではなくオッズ比という指標の性質です)。しかし、この数値例では併合可能な指標であるリスク差やリスク比でも「全体の値」が「男性・女性それぞれの値」の外に出てしまっていることから、性別による交絡が生じているということができます。

発症非発症
曝露あり914900
曝露なし27218480
表3.交絡のあるコホート:性を併合


ここで、性別でマッチしたコホートを考えます。性別でマッチするには、頻度マッチング(frequency matching)として性別内で曝露あり群と曝露なし群の人数を揃えるようにランダムにデータを選びます。

男性女性
発症非発症発症非発症
曝露あり419006476
曝露なし149272480
表4.性別でマッチされたコホート


太字で書いた数字がマッチングでサンプリングされた対象者です。男性では曝露なしの18270(= 270 + 18000)人から曝露ありと同数の941(=41 + 900)人をランダムに選び(元のコホートの各人数に941/18270をかけています)、女性では曝露ありの4050(= 50 + 4000)人から曝露なしと同数の482(= 2 + 480)人をランダムに選んでいます(各人数に482/4050をかけています)。このマッチされたデータを性別で併合すると、オッズ比は(47*1407)/(1376*16) = 3.00と性別の結果と整合的になり、先ほどコホートで見た性別による交絡が除かれていることが分かります。