リアルワールドデータ(RWD)分析手法

はじめに

リアルワールドデータ(RWD)には、患者アンケートなどの回答者単位で取得されるようなシンプルな構造のデータもあれば、レセプトデータや電子カルテデータのように個々の患者について日付ごとに実施された診断や診療行為の単位で細かく蓄積されるような複雑な構造のデータも存在します。さらには、前述のようなテーブル形式のデータに限らず、画像診断の結果などは画像データとして存在することも考えられます。

ここでは、データプロバイダーから入手が可能で、かつ、製薬企業のメディカルアフェアーズ部門が利用することの多いと考えられるレセプトデータや電子カルテデータに焦点をあて、分析に関わる基本事項について簡単に説明します。

RWDの前処理に必要なPC環境・スキル

データベースプロバイダーから購入できるレセプトデータベースや電子カルテデータベースには、一般的に、患者、診断、医療資源利用に関わる情報が主として含まれています。患者の情報としては、患者IDのほか、性別、生年月などの人口統計学的な情報が一つのテーブルにまとまっています。診断の情報としては、患者IDごとに、いつ、どのような診断がなされたかの情報が、ICD-10コードや傷病コードなど何らかの体系化された形式でテーブルにまとまっています。医療資源利用の情報としては、医薬品の処方、処置・検査などの診療行為、医療材料の利用、さらには電子カルテデータであれば検査結果など、細かいカテゴリに分類され、それぞれテーブル化されています。それらごとに、いつ、どのような医療資源の利用がなされたか、どのような検査結果であったかの情報が、薬価収載医薬品コードやレセプトコードなど何らかの体系化された形式でテーブルにまとまっています。これらのすべての情報は、一つひとつのテーブルごとに患者IDやレセプトIDなどをキーとして連結可能なリレーショナル・データベースという構造を成しています。

レセプトデータベースや電子カルテデータベースは、テーブルによっては数GBから数十GBの容量のCSVファイルとしてプロバイダーから提供されます。そこから研究目的に合わせて研究対象とする患者を特定・抽出し、さらに、その患者の診断の情報、医療資源利用の情報などを特定・抽出・整理する作業が必要となります。これらの作業を一般的な事務用PCでエクセル等の手軽なソフトウェアを利用して手作業で行うのは現実的ではありません。基本的には、高負荷・高容量のデータ処理に応えるため、CPU・メモリー・HDDをハイスペックにした解析専用のPC環境の構築が必要となります。また、複数のテーブルからデータをつなぎ合わせ、研究対象とする患者の目的とする解析項目に相当するデータを抽出することが求められるため、データベース言語であるSQLや、プログラミング言語であるR、Pythonなどを駆使して、作業プロセスの再現性が高く、かつ、作業効率の高いデータ処理を実現することが求められます。次項で紹介する統計解析の前に行われる前述のようなデータ処理は一般的には前処理といわれます。データ解析業務のほとんどの時間が、この前処理に充てられているといわれています。