ランダムでないサンプリングを伴う観察研究のデザイン①

東京大学大学院情報学環 准教授 篠崎 智大

ケースコントロールデザインによるオッズ比

同じ500人のサンプリングであっても、次のようにすることで推定値の精度を上げられる(信頼区間を狭くできる)場合があります。

  • イベント発症160人を全員測る(「ケース」とします)
  • イベント非発症から340人を選んで測る(「コントロール」とします)

これをケースコントロールサンプリング(ケースコントロールデザイン)と呼びます。

ケースコントロール
曝露あり6057
曝露なし100283
合計160340
表3.ケースコントロールサンプリング(500人)


「コントロール」の列に記載した曝露群ごとの人数は、コホート全体の「非発症」(840人)からランダムに340人を選んだときの期待的な人数です(実際にはランダム性からぴったり表内の数字にはなるとは限りません)1曝露の有無によらず340/840の確率でサンプリングされるので、元コホートの「非発症」の人数(140人と700人)にこの分数をかけたものとなります。ただし、四捨五入して整数に丸めているので、正確な期待人数から少しずれた数を示しています。そのためオッズ比もコホートのオッズ比にぴったり一致しませんが、期待人数を四捨五入せず分数のまま使えばきちんと一致します。。この表でオッズ比を計算すると3.0となり(丸め誤差を除き)コホート全体で求めたオッズ比と変わらないのですが、その95%信頼区間は1.94~4.57 となり、先ほどのランダムサンプリングより狭くなっています。このように、同じデータ数(500人)でも推定値の信頼区間が狭くなる(推定精度が高くなる)ことを、統計的に効率的(statistical efficient)といいます。

ところで、上の表で各曝露群の「合計」の列を書いていないことにお気づきでしょうか? このようなケースコントロールデザインは発症者を意図的に多く集めているので、アウトカムに依存した「バイアスのあるサンプリング(biased sampling)」の一種です。そのため、ケースコントロールデザインで、(行を見て)発症割合を求めたり、それらをそのまま比較したりしてはいけません。例えば、この表での曝露あり・なしの「リスク」はそれぞれ60/(60 + 57) = 0.513、100/(100+283) = 0.261となりますが、これらの数字には全く意味がありません。ためしに「リスク比」を求めても0.513/0.261 = 1.96となり、(当然ですが)コホートでのRRcohort= 2.4にも合いません。このように、ケースコントロールデザインは「何でも推定できるバイアスのないサンプリング」ではなく、オッズ比に限ってバイアスなく効率的に推定することに特化した、バイアスを伴うサンプリングデザインです2ではなぜケースコントロール研究でオッズ比が上手く推定できるかというと、たまたまとしか言いようのないオッズ比の「対称性」によります。そもそもコホートでのオッズ比とは、「曝露群での発症オッズ(=発症あり割合となし割合の比)」と「非曝露群での発症オッズ」の比(発症オッズ比)として解釈される、曝露とイベント発症との関連の指標です。ただ、この発症オッズ比は「発症者(ケース)での曝露オッズ(=曝露あり割合となし割合の比)」と「非発症者(コントロール)での曝露オッズ」の比(曝露オッズ比)に必ず一致します。曝露オッズ比は一見すると、曝露あり vs. 曝露なしを直接比較している指標に見えないのですが、そのような比較の指標である発症オッズ比にたまたま等しくなっているのです(このような「偶然」の一致は他の指標では見られません)。そして、発症・非発症での曝露オッズは、発症者と非発症者でサンプリング確率が変わっても(即ちケースを全て選択した上で、残りの人数分コントロールをサンプリングしても)期待的には変化しないので、ケースコントロール研究でもコホート研究の曝露オッズは保持され、その比(曝露オッズ比)も変わりません。そして、この曝露オッズ比は、コホート研究の発症オッズ比に一致しています。 3ただし、コントロールのサンプリング確率が分かっていれば(コホートが明確な場合など)、それを利用してコホート全体の曝露・イベント発症の分布を復元することができ、任意の指標(各群のリスクとその差や比)をケースコントロール研究から求めることも可能です。この場合は、本文に書いた「オッズ比に限って効率よく推定」というわけではなくなります。

ケースコントロール研究の「オッズ比に対する統計的効率性」はこのデザインの一つの正当化です。しかし、実際には統計的効率性は二義的なことが多く、もっと実用的な効率性のために行われることも事実です。例えば、医療データベースでは、アウトカム(入院、死亡など)情報は比較的拾いやすい一方で、(実際の服薬状況、検査値の妥当性確認、生活習慣の精査など)曝露や交絡因子を研究目的に耐える精度で測定するには、カルテレビューや追加調査が必要になることがあります。全員分を測定するのに代えて、なるべく情報を失わずに一部を選んでくる方法としてのケースコントロール研究は、費用に対して(cost-efficient)または時間に対して効率的(time-efficient)なデザインだと言えるでしょう。あるいは、単にデータ数が(数百万件を超えるなど)多すぎて計算コストが大きすぎる場合に、一部のデータに間引いて計算することで十分な比較ができるのであれば、計算資源に対する(computational efficiency)、または運用手順に対する効率性(operational efficiency)がケースコントロール研究を使う動機となりえます。

東京大学大学院情報学環 准教授

篠崎 智大
しのざき ともひろ

  • 1
    曝露の有無によらず340/840の確率でサンプリングされるので、元コホートの「非発症」の人数(140人と700人)にこの分数をかけたものとなります。ただし、四捨五入して整数に丸めているので、正確な期待人数から少しずれた数を示しています。そのためオッズ比もコホートのオッズ比にぴったり一致しませんが、期待人数を四捨五入せず分数のまま使えばきちんと一致します。
  • 2
    ではなぜケースコントロール研究でオッズ比が上手く推定できるかというと、たまたまとしか言いようのないオッズ比の「対称性」によります。そもそもコホートでのオッズ比とは、「曝露群での発症オッズ(=発症あり割合となし割合の比)」と「非曝露群での発症オッズ」の比(発症オッズ比)として解釈される、曝露とイベント発症との関連の指標です。ただ、この発症オッズ比は「発症者(ケース)での曝露オッズ(=曝露あり割合となし割合の比)」と「非発症者(コントロール)での曝露オッズ」の比(曝露オッズ比)に必ず一致します。曝露オッズ比は一見すると、曝露あり vs. 曝露なしを直接比較している指標に見えないのですが、そのような比較の指標である発症オッズ比にたまたま等しくなっているのです(このような「偶然」の一致は他の指標では見られません)。そして、発症・非発症での曝露オッズは、発症者と非発症者でサンプリング確率が変わっても(即ちケースを全て選択した上で、残りの人数分コントロールをサンプリングしても)期待的には変化しないので、ケースコントロール研究でもコホート研究の曝露オッズは保持され、その比(曝露オッズ比)も変わりません。そして、この曝露オッズ比は、コホート研究の発症オッズ比に一致しています。
  • 3
    ただし、コントロールのサンプリング確率が分かっていれば(コホートが明確な場合など)、それを利用してコホート全体の曝露・イベント発症の分布を復元することができ、任意の指標(各群のリスクとその差や比)をケースコントロール研究から求めることも可能です。この場合は、本文に書いた「オッズ比に限って効率よく推定」というわけではなくなります。