
1925年,英国の遺伝学者・統計学者フィッシャー(Ronald Fisher)が『研究者のための統計的方法』という本を出版した。地味な書名ながら世界的ベストセラーとなり,フィッシャーは現代統計学の父としての地位を確立した。彼は同書のなかで,研究者が観測データから結論を導き,引き続き追求するに値するかどうかを決めるために,数値データを統計的にどう検定すればよいかという問題を扱った。そして,観測データと仮説との概ねの適合性を端的に表す「p値」という指標を出力する統計的検定法について述べた。
p値0.05を手ごろな目安と考えてよいだろうと彼は提案した。「偏差が有意であるか否かを判断する目安として,この値を用いるのが便利である」。p値がこの閾値を下回る場合にはさらに詳しく調べ,0.05を上回る場合は追跡に値しないと判断する。こうしてp値0.05未満を「統計的に有意」とする考え方が生まれた。これが「有意な」結果の数学的定義となった。
その後100年近くたった現在も,科学研究の多くの分野でp値0.05未満は実験の価値を判断する黄金律とみなされている。p値が0.05なら研究費助成や論文発表への扉が開かれ,論文発表された科学的結論のほとんどをこの閾値が支えている。だがフィッシャーその人も統計的有意性の概念とそれを支えているp値に少なからぬ限界があることを理解していたし,それらの限界の多くは数十年前からずっと認識されてきた。1978年,心理学者のミール(Paul Meehl)は「有意性検定に頼りすぎるのは科学の方法としてお粗末である」と述べた。p値は誤解されることが多いうえ,統計的有意性は実際の有意性とは別物だ。加えて,どの研究も実行の方法を選ぶ必要があるので,実験者は意識的にあるいは無意識にp値を上下させることにもなる。(続)
原題名
A Significant Problem(SCIENTIFIC AMERICAN October 2019)
サイト内の関連記事を読む
キーワードをGoogleで検索する
p値/帰無仮説/対立仮説/信頼区間/ベイズ法/情報量(サプライザル)/効果量