前回の講義で使用したプロ野球選手のデータを用いて,球団ごとに身長と体重の基本統計量 (最小値,中央値,最大値,平均値および標準偏差)を求めよ.
プロ野球選手の身長・体重データここでは,ロッテ選手の身長データを例にとり, 実際に最小値,中央値,最大値,平均値および標準偏差の計算方法について説明する.
まず,ロッテの選手(70人)の身長のデータをコピーして,別のシートに貼り付けよう(図1).
このデータを昇順(小→大)に並び替える.このときの先頭の値が最小値,最後の値が最大値である. 中央値は真中の値である.70人のデータの場合,35と36番目の値を真中と考えて, 両者の平均(35と36番目の値を足して2で割る)を中央値とする. 平均値を求めるには,選手全員の身長の合計を求めて,その合計を人数で割ればよい.
ここでは,データそのもののばらつき具合を調べたいものとする. すなわち,データを母集団とみなして標準偏差を求める.
標準偏差を求めるために,まず分散を計算する.
図2のように,選手iの身長と平均値との差(偏差)とその2乗した値をそれぞれ求める.
この偏差の平方(2乗)の平均が分散である.
(注意)偏差を求めるときは,平均値のセルのアドレスを絶対参照にすること!
最後に,分散の平方根をとれば,標準偏差が求められる.
上述の方法で基本統計量を算出するのはかなり面倒であろう. 実践的には,Excel関数を利用すれば迅速に求められる. Excel関数については,『基本統計量とは』のページで紹介しているので, そちらを参照してほしい.