基本統計量

前回の講義では,ヒストグラムを作成してデータの分布について概観した. データの分布の特徴を把握するには,ヒストグラムを描いてみるのが一番良いのだが, 統計量をみてデータの特徴を把握することもできる. 分布の特徴を代表させる値(基本統計量)として,「位置」と「広がり」がある. ここでは,よく使われるもののいくつかを簡単に紹介する.


最小値・最大値・範囲

データを昇順(小→大)に並び替えたとき,先頭の値が最小値,最後の値が最大値である. あるいは,データを降順(大→小)に並び替えたとき,先頭の値が最大値,最後の値が最小値となる.

範囲とは,値のとる全範囲そのもので,最大値から最小値を引いた値である.


平均値

いろいろな平均値

一般に平均といえば,算術平均を指す.すなわち,データをすべて足して,データの個数で割った値である. 平均は分布の位置を示す指標として,最も頻繁に用いられている. しかし,平均はいくつかの欠点をもっている.

つまり,外れ値や打ち切りがあったりするデータ(分布)では,位置の指標として平均値を使うのは妥当ではない.


中央値

そこで登場するのが中央値である.中央値とは,データを昇順あるいは降順に並び替えたとき,真中(中央)の値をいう. データの個数が偶数個のとき,真中の2つの値の算術平均をとって中央値とする.

中央値には「極端な外れ値の影響を受けにくい」という利点がある.言い換えれば,外れ値に対して頑健である. 中央値は,歪んだ分布に対する中心傾向(分布の位置)を示す代表値である.


最頻値

最も数が多い値が最も典型的であると考えるのが最頻値である.つまり,最頻値とは最も度数の多い値をいう. 名義尺度の代表値として最頻値が使われる. 試験の点(サッカーのゴール数など)で何点の人が多かったかを見たい場合は最頻値が役に立つ. すべての値の出現頻度が等しい場合,最頻値は存在しない.


分散・標準偏差

平均値だけではデータの分布がどのように広がっているのかわからないため, データのばらつきを示す散布度として分散と標準偏差がよく用いられる. 分散とは,個々のデータと平均値との差(偏差)の2乗の平均値である. なぜ2乗するのかを簡単に説明すると, プラスの偏差とマイナスの偏差を同等に扱うためである (個々の偏差を合計すると0になることに注意). 分散の平方根をとったものが標準偏差であり,平均値と次元を揃えるという意味をもつ. 標準偏差の具体例はこちら


尖度(せんど)・歪度(わいど)

省略


Excel関数


参考文献

詳しく勉強してみたいと考える学生のために,次の文献をお薦めする.