概要はこちらから 放射線影響協会疫学センター » 調査概要
・これについての疑問点など。
お断り。筆者は疫学についての専門家ではないので、この分野固有の分析手法、現象についてわからない部分も多い。しかし、統計モデルの定式化、提示すべき情報などについては学問分野によらず共通であるはずである。そこからわかる範囲でコメントする。
この報告書では原発従業員と一般の人との比較「外部比較」と原発従業員内での被曝線量などについての「内部比較」が行われている。前者については一般の人と比較するには情報が不足していると考えられるので、後者についてのみ考察する。
この報告書では原発従業員と一般の人との比較「外部比較」と原発従業員内での被曝線量などについての「内部比較」が行われている。前者については一般の人と比較するには情報が不足していると考えられるので、後者についてのみ考察する。
・p.5の結論
「内部比較では、累積線量の増加にともなう慢性リンパ性白血病を除く白血病の死亡率に有意の増加傾向は認められなかった。また白血病を除く全悪性新生物および喫煙関連の悪性新生物の死亡率に、累積線量の増加にともなう有意の増加傾向が認められた。しかし、これらの悪性新生物から肺の悪性新生物を除いた場合には、有意の増加傾向は認められなかった。非喫煙関連の悪性新生物の死亡率に、累積線量にともなう有意の増加傾向は認められなかった。これらの事実を勘案すると、今回認められた白血病を除く全悪性新生物の死亡率と累積線量との有意な関連は、生活習慣等の交絡による影響の可能性を否定できない。」
日本語がわかりにくいので統計がわかる人は数表を見た方が早い。
日本語がわかりにくいので統計がわかる人は数表を見た方が早い。
表1 死因別解析結果一覧
・確認
この調査の対象の原発従事者の一人当たりの平均累積線量は13.3mSv(報告書p.32合計列によれば10年以上勤務はこのうち28.2%)。それでも、部位によっては統計的に有意に発症率を引き上げる可能性ありということ。
(喫煙などとの交絡や多重検定の問題はあるが)、子供の保護を考えると、20mSVに引き上げるべきではない。
(喫煙などとの交絡や多重検定の問題はあるが)、子供の保護を考えると、20mSVに引き上げるべきではない。
xx mSV以下ならば安全という主張もみられるが、そもそもここでの分析は、そのような閾値モデルではなく、線型モデルを想定している(はずな)ので、死亡率-線量グラフの傾きが正である限り、1mSv被爆するとその分、死亡率は増加する(症状もある)。
この傾きのパラメータが提示されていないので絶対値については評価できないが、SMRという値をみるとp<0.05の症状で、20mSV以下でも1を越えるものもある。慎重には慎重を期すべきである。
この傾きのパラメータが提示されていないので絶対値については評価できないが、SMRという値をみるとp<0.05の症状で、20mSV以下でも1を越えるものもある。慎重には慎重を期すべきである。
そもそも、この傾きのパラメータが示されていないことがこの報告書の大きな問題である。唯一示されているのは、白血病(慢性リンパ性白血病を除く)についてのみ(p.38)。 -3.01/Sv とマイナスと直感に反する結果だが、90%信頼区間(-6.52;0.49)に0が含まれているので、有意ではないということのみ。
概要をみるといかにも直線をあてはめて傾きのパラメータを推定したようにみえるが、傾きのパラメータを推定して公開したのは、この白血病のみ。
→同協会に確認したところ、ポアソン回帰によって傾きのパラメータ(過剰相対リスク)を推定したのは白血病のみ。上記の検定結果は、クロス集計表を用いたトレンド検定の結果であるという(報告書をよく読むと確かに書いてあった)。
概要をみるといかにも直線をあてはめて傾きのパラメータを推定したようにみえるが、傾きのパラメータを推定して公開したのは、この白血病のみ。
→同協会に確認したところ、ポアソン回帰によって傾きのパラメータ(過剰相対リスク)を推定したのは白血病のみ。上記の検定結果は、クロス集計表を用いたトレンド検定の結果であるという(報告書をよく読むと確かに書いてあった)。
・この報告書の印象
低線量でも死亡率が増加するという結果が得られているようにみえるが、そうではないことにしようとしているようにもみえる。
・疑問点、改善方向
ここに細かくコメントしたが、内部比較についての疑問、改善点は以下の通り。
1)分析方法
λ=λ0(1+d*被曝量)というモデルは「3.6 慢性リンパ性白血病を除く白血病(p。36)」にのみ適用したとの回答を得た。
他の疾病についてはライフスタイル因子との交絡が疑われるため推定しなかったとのこと。しかし、しかし、他の研究(例えばこちら)では交絡効果をいれないモデルの推定結果も公開している。推定して、その結果(傾きのパラメータ)を提示すべきである。
そもそも上掲表にあるように症例数の少ない白血病で線型モデルをあてはめて、それよりも明らかに症例数が多くより信頼性の高いパラメータが推定できそうな症例に対して線形パラメータをあてはめないという論理がわからない。
クロス表のトレンド検定なので、セルの数は地域×年齢層×...と多くなり、度数0のものが多くなるはず。そもそもχ2検定が成立しているのかも確認すべき。
クロス表のトレンド検定なので、セルの数は地域×年齢層×...と多くなり、度数0のものが多くなるはず。そもそもχ2検定が成立しているのかも確認すべき。
2)線量のカテゴライズ
個人別に線量は細かく測定、管理されているにも関わらず、10mSv以下、20mSv、、、のように5つに粗くカテゴライズしている。しかも、全サンプル27万人中、20万人が10mSv以下に割り当てられているという不適切なカテゴリ化。広島、長崎の被爆者データでも最小カテゴリは0-5mSvが設定されている。この研究の目的は低線量での被曝の効果をあきらかにすることであるので、カテゴライズするのではなく、そのままの値を用いて個人別に推定すべきである。
白血病の線型モデルを推定する際も、このようにカテゴライズしたものを用いているよう。線量は5段階に区分せずにそのままの値を用いるべきである。
3)交絡効果を入れたモデル
交絡効果を測定したのは4万+4万(重複1万を差し引くと)7万人であるという。死亡数が少ないので交絡を入れたモデルは推定していないとの回答を得たが、上記の白血病の死亡数は170程度。
第一次交絡調査後、疾病によって異なるが死亡数が170よりも大きい疾病は多くある。それらを用いて、交絡効果を入れたモデルは推定できるはずである(相関が高くなって推定不能となる可能性はむろんあるが)。
第一次交絡調査後、疾病によって異なるが死亡数が170よりも大きい疾病は多くある。それらを用いて、交絡効果を入れたモデルは推定できるはずである(相関が高くなって推定不能となる可能性はむろんあるが)。
→その後、交絡調査2の報告書から、喫煙量と被曝量の関係のクロス集計の連関係数を算出。
0.016と低い値。下のように線量が多いほど喫煙量が大きくなるという明確な関係はみえない。交絡効果のせいにするべきではない。
線量 mSv | |||||||
喫煙量 | く10 | 10 | 20 | 50 | 100+ | 合計 | (サンプル数) |
<10 | 3% | 3% | 3% | 2% | 2% | 3% | 616 |
-19 | 21% | 23% | 22% | 21% | 20% | 22% | 4547 |
-29 | 46% | 47% | 46% | 48% | 48% | 47% | 9843 |
-39 | 18% | 18% | 19% | 20% | 20% | 19% | 3910 |
-49 | 8% | 7% | 7% | 7% | 8% | 8% | 1678 |
-59 | 1% | 1% | 1% | 1% | 1% | 1% | 226 |
60+ | 1% | 1% | 1% | 0% | 1% | 1% | 161 |
不明 | 1% | 0% | 1% | 1% | 1% | 1% | 136 |
合計 | 100% | 100% | 100% | 100% | 100% | 100% | 21117 |
出所)第Ⅲ期調査結果報告書(第2次交絡因子調査編:PDF) より作成。
4)個人レベルのモデルによる推定
原爆生存者データと同様、線型モデルの推定にはポアソン回帰モデルを利用。ポアソンモデルは、平均と分散が同じという極めて強い仮定をしている。しかし、原爆生存者データのコホートを確認したところ、あきらかに0の割合が高く、ポアソン回帰モデルを用いるのは不適切である。負の二項分布モデル、もしくはzero inflatedモデルなどを適用すべき。
ただし、個人別に線量、生存か否か、死亡の場合はその原因が、得られているはずである。疫学の常のようだが、線量、地域、などによって層化(集計)して分析している。 これによって、個人別に測定されている線量などの情報が失われている。個人レベルでの二項ロジットモデル、亡くなられた日付についての情報も用いたハザードモデルなども適用可能であろう。
さらに、多重検定の補正をしてあるが、どの疾病でなくなられたのかをモデル化するmulti-stage modelなど、多重検定を避けることは可能である。下に述べるように、そもそも従業員のリスクを重視するという立場からは多重比較の補正は必要ない。
ただし、個人別に線量、生存か否か、死亡の場合はその原因が、得られているはずである。疫学の常のようだが、線量、地域、などによって層化(集計)して分析している。 これによって、個人別に測定されている線量などの情報が失われている。個人レベルでの二項ロジットモデル、亡くなられた日付についての情報も用いたハザードモデルなども適用可能であろう。
さらに、多重検定の補正をしてあるが、どの疾病でなくなられたのかをモデル化するmulti-stage modelなど、多重検定を避けることは可能である。下に述べるように、そもそも従業員のリスクを重視するという立場からは多重比較の補正は必要ない。
→被爆者データを用いた部位別推定がされているが、その際には多重比較の補正はしていない。
5)データの公開
できれば、放射線影響研究所が広島、長崎の被爆データを公開されているように、このデータもプライバシーに配慮した上で公開すべきである。
6)多重比較
16部位について検定したので、検定力を保つためにBonferroniの方法で調整したとのこと。これは例えば個別検定したp値を16倍してしまう方法(通常は有意と判断する有意水準5%を5%/16とする方が多いような気がするが、報告書を読むと、p値の方を16倍したものだと思われる)→報告書に記載のp値はこのような調整はしていない、そのままの値とのこと(下記参照)。
クロス集計のトレンド検定のp値を16倍するのだから、影響がない(トレンドがない)という仮説が棄却されにくくくなってしまう。従業員、国民からみると、リスクはなるべく低い方がよいので、多重比較は不要だと考えられる。
例えば柳川堯 (2002), 環境と健康データ―リスク評価のデータサイエンス (データサイエンス・シリーズ): 共立出版. http://amzn.to/ph2aaX を参照のこと。
上掲のp値が16倍したものであるならば、それを1/16すれば、補正前のp値になる。すると、16部位中14部位が5%水準で有意となる。
クロス集計のトレンド検定のp値を16倍するのだから、影響がない(トレンドがない)という仮説が棄却されにくくくなってしまう。従業員、国民からみると、リスクはなるべく低い方がよいので、多重比較は不要だと考えられる。
例えば柳川堯 (2002), 環境と健康データ―リスク評価のデータサイエンス (データサイエンス・シリーズ): 共立出版. http://amzn.to/ph2aaX を参照のこと。
上掲のp値が16倍したものであるならば、それを1/16すれば、補正前のp値になる。すると、16部位中14部位が5%水準で有意となる。
→これらについて再度問い合わたところ、p値はそのような補正をしていないとのこと。多重比較の補正をしていない値なので、これを通常のように使えばよい。
2012/2/4 追記
その後同協会に、データを再分析すべきではないか、しないならば、こちらでさせてもらえないか、少なくともトレンド検定に用いたクロス表ぐらい公開しないかと要望したが断られる。
米国では DOEが従業員調査個票を公開している(CEDR ブラウザ:Safariには非対応。IEもしくはFFで)。ユーザー登録が必要で、私が登録してもらえるかは不明だが、日本でもデータの公開が望まれる。
ドイツ WISMUT社のウラン鉱山労働者データ が研究計画が認められれば利用可能。
2012/2/4 追記
その後同協会に、データを再分析すべきではないか、しないならば、こちらでさせてもらえないか、少なくともトレンド検定に用いたクロス表ぐらい公開しないかと要望したが断られる。
米国では DOEが従業員調査個票を公開している(CEDR ブラウザ:Safariには非対応。IEもしくはFFで)。ユーザー登録が必要で、私が登録してもらえるかは不明だが、日本でもデータの公開が望まれる。
ドイツ WISMUT社のウラン鉱山労働者データ が研究計画が認められれば利用可能。