例えば,ある2つの母集団から得られた標本について,その平均値が異なるかどうかを確かめたい場面は多くある。そのような場合に必要となる統計手法を検定と呼ぶ。
検定においては,データから算出される検定統計量の確率分布をもとに,ある仮説が「どの程度の確率で正しいと言えるか」について調べられる。
検定においては,相反する2つの仮説,帰無仮説と対立仮説を考える。このうちの片方を棄(す)てることができれば(片方が棄却されれば),他方を採択することができる,という考え方をする。
「棄却されるかどうか」の判断基準は帰無仮説が成立する確率を指標とする。この確率を有意水準(もしくは危険率)と呼ぶ。
有意水準の設定に明確な基準はないが,一般的には5% (0.05)か1% (0.01)が採用されることが多い。例えば,「有意水準5%」ということは,「帰無仮説が成立する確率は5%」という意味である。
算出された検定統計量の値が現れる確率が有意水準より低ければ,「めったに起こらないことが起こった」ということになるから,帰無仮説は棄却され,対立仮説が採択される(下図)。
上の図では,検定統計量が両端の方に外れる確率を求めているので「両側検定」と呼ばれる。どちらか片側に外れる方にだけ注目したい場合は「片側検定」となるが,実際問題として片側検定が必要な場面はほとんどないと考えていてよい。
帰無仮説が棄却された場合,「有意水準(危険率)○%で有意差がある」と表現する。ただし,検定の結果得られるのは「差があるか否か」に関する情報だけであり,その差を生んだ要因についての情報は何も得られない。差を生んだ要因については,別の手段で検証する必要がある。
帰無仮説が棄却されない場合,「有意水準(危険率)○%で有意差はない」と表現する。ただし,これは「差がないことが証明された」という意味ではなく「差があるとは言えない」というだけである。
本講義では,母集団が正規分布することがわかっているデータについての検定法を扱う。
2標本の平均値に差があるかどうかを検定する場合,2標本のデータに対応があるかないかで方法が分かれる。
データに対応のない2標本の場合は,母集団の分散が等しいかどうかにしたがって,以下の2つのどちらかを選択する。
分散が等しいかどうかは,母分散の比の検定(F-検定)を行って判定する。
なお,母集団の分布が明らかでない場合は,母集団の分布を仮定しない「ノンパラメトリック検定」と呼ばれる方法を使う。興味があれば,各自で調べること。
Excelには「データ分析」ツールが用意されている。「データ分析」ツールが見つからなければ,Officeボタン →「Excelのオプション」→「アドイン」から読み込む。
「データ」タブ →「データ分析」