次のデータセットを考えてみよう。
4; 5; 6; 6; 7; 7; 7; 8; 8; 9; 10

このデータセットは次のヒストグラムによって表すことができる。

図2.11

このヒストグラムはデータの対称的な分布を表しています。 ヒストグラムのある位置で垂直線を引き、その垂直線の左側と右側の形状が互いに鏡像になるような分布が対称であるといいます。 平均値、中央値、最頻値は、それぞれ7つです。 完全に対称な分布では、平均値と中央値は同じになります。 この例では最頻値が1つ(単峰性)であり、最頻値は平均値や中央値と同じである。 モードが2つある対称な分布(バイモーダル)では、2つのモードは平均値や中央値と異なることになります。

データのヒストグラムです。 図2.11の4;5;6;6;7;7;7;8のデータのヒストグラムは、左右対称ではありません。 右側が左側に比べて「切り落とされている」ように見えます。 このような分布は、左に引っ張られているので、左側に偏っているといいます。 データの中心荷重や一般的な「speadness」を数学的に測定するのと同じように、分布の歪度を正式に測定することができます。 歪度の数式は次のとおりです。a3=∑(xi-x¯)3ns3a3=∑(xi-x¯)3ns3. ゼロからの偏差が大きい程、歪度が大きいことを示します。 歪度が負の場合は、図2.12のように分布が左に偏っていることになります。 歪度が正であれば、図2.13のように右歪みであることを示します。

図2.12

平均値は6.3、中央値は6.5、最頻値は7である。 平均値は中央値より小さく、両者とも最頻値より小さいことに注目しよう。

図2.12に示す6; 7; 7; 7; 8; 8; 9; 10のデータのヒストグラムも対称的ではありません。

図2.13

平均値は7.7、中央値は7.5、最頻値は7である。 3つの統計量のうち、平均値は最も大きく、最頻値は最も小さい。

まとめると、一般にデータの分布が左に傾いている場合、平均値は中央値より小さく、それは最頻値より小さいことが多いのです。

平均、中央値、最頻値、そしてまもなく見るように分散と同様に、データの分布のこれらの特性を正確に測定する数式があります。 再び歪度の公式を見ると、これはデータの平均と個々の観測値を3乗したものとの関係であることがわかります。

a3=∑(xi-x¯)3ns3a3=∑(xi-x¯)3ns3

ここで ss はデータのサンプル標準偏差、XiXi 、および x¯x¯ は算術平均、nn はサンプルサイズです。 これから見る第2モーメントは分散で、歪度は第3モーメントです。 分散は平均値からのデータの差の二乗を、歪度は平均値からのデータの差の三乗を測定します。 分散が負の数になることはありませんが、歪度の測定値は負の数になることがあり、これによってデータが右か左に偏っているかどうかを判断するのです。 正規分布の歪度は0であり、対称的なデータであれば歪度は0に近いはずです。 歪度が負の値であれば左に、正の値であれば右に偏っていることを示しています。 左側に偏っているとは、左側の尾が右側の尾に対して長いことを意味します。 同様に、右に偏っているというのは、左のテールに対して右のテールが長いことを意味します。 歪度は、平均を中心とした分布の非対称性の度合いを特徴づけるものです。 平均や標準偏差が次元的な量(だから分散の平方根をとる)、つまり測定量XiXiと同じ単位を持つのに対し、歪度は無次元となるような定義が慣例的になされています。 これは分布の形だけを特徴づける純粋な数値です。 歪度の値が正であれば、より正の X に向かって伸びる非対称な尾を持つ分布を意味し、負であれば、より負の X に向かって伸びる尾を持つ分布を意味します。

コメントを残す

メールアドレスが公開されることはありません。