分析によく使われる統計記述

  • 投稿日:
  • by
  • カテゴリ:

 データ分析で多く使われるのは合計値や平均値である。学校のテストなどで、どちらのクラスの成績がよいかを一目で見分ける場合には、合計や平均で足りる場合もあるが、あるクラスは平均点に近い生徒が多く、他のクラスの方は、最高と最低点の差が大きいといった場合、これをどのように評価し、どのような指導方針を立てるべきか迷うことがある。

 こうした場合は、合計点や平均値だけで評価するのは不合理な点があり、点数のバラツキを調べて、各生徒の理解力のバラツキの程度を数値で把握する必要に迫られる。この場合に用いられるのが標準偏差という定義式である。標準偏差は{ }の平方根=(偏差平方和/データ数)の平方根=分散の平方根という計算式で求める。

 しかし、この例のように100点満点のテスト成績などの場合は、この標準偏差を算出すれば十分であるかもしれないが、単位がことなったものや最小と最大の差が大きいものを比べる場合には、変動係数=標準偏差/平均を算出してみると、変動の状況がより明確に把握できる。なお、平均ゼロ、標準偏差を1に調整し、全ての数値を基準化する場合もある。

 以上のような理由から、データをクロス集計して表を作る場合、合計、最大、最小、平均、標準偏差、変動係数、データの基準化(標準化)も同時に計算して表示しておくようにしておけば、データの単位が異なったものが混在していた場合や変動幅が大きく異なっていた場合でも、容易に見分けがつくほか、グラブ化してトレンドを見ることができる。

 また、データをこのように加工しておくことで、各変数間の相関を調べる必要が生じた場合や回帰分析をする場合などにも、即座に対応できるというメリットがある。元データからこれらのことが読み取れれば、重回帰分析や主成分分析などの多変量解析を行うときも便利である。つまり、これらの統計記述は、仮説の構築にも検証にも大いに活用できる。

 実務的にいうと、特にありがたいのは、単位が異なりかつ変数の変動幅が大きいデータを分析する場合、データを基準化することで、同じサイズのグラフに全データがプロットできることである。例えば、何十億単位の売上高と数百万単位で変化するデータの相関の大きさを、同一グラフ上でビジュアルに認識できるので、プレゼンテーションも楽になる。