Rozważmy następujący zbiór danych.
4; 5; 6; 6; 6; 6; 7; 7; 7; 7; 7; 7; 8; 8; 8; 9; 10

Ten zbiór danych można przedstawić za pomocą następującego histogramu. Każdy przedział ma szerokość jeden, a każda wartość znajduje się w środku przedziału.

Rysunek 2.11

Histogram przedstawia symetryczny rozkład danych. Rozkład jest symetryczny, jeśli w pewnym punkcie histogramu można narysować pionową linię w taki sposób, że kształty po lewej i prawej stronie pionowej linii są lustrzanymi odbiciami siebie nawzajem. Średnia, mediana i tryb są po siedem dla tych danych. W idealnie symetrycznym rozkładzie, średnia i mediana są takie same. Ten przykład ma jeden tryb (jednomodalny), a tryb jest taki sam jak średnia i mediana. W symetrycznym rozkładzie, który ma dwa tryby (bimodalny), dwa tryby byłyby różne od średniej i mediany.

Histogram dla danych: 4; 5; 6; 6; 6; 7; 7; 7; 7; 8 przedstawiony na rysunku 2.11 nie jest symetryczny. Prawa strona wydaje się „obcięta” w stosunku do lewej. Rozkład tego typu nazywamy skośnym w lewo, ponieważ jest on wyciągnięty w lewą stronę. Możemy formalnie zmierzyć skośność rozkładu, tak samo jak możemy matematycznie zmierzyć wagę środka danych lub ich ogólną „szparowatość”. Wzór matematyczny na skośność to: a3=∑(xi-x¯)3ns3a3=∑(xi-x¯)3ns3. Im większe jest odchylenie od zera, tym większy jest stopień skośności. Jeżeli skośność jest ujemna, to rozkład jest skośny w lewo, jak na rysunku 2.12. Dodatnia miara skośności wskazuje na skośność prawostronną, jak na rysunku 2.13.

Rysunek 2.12

Średnia wynosi 6,3, mediana 6,5, a tryb 7. Zauważ, że średnia jest mniejsza niż mediana, a oba są mniejsze niż tryb. Zarówno średnia, jak i mediana odzwierciedlają skośność, ale średnia odzwierciedla ją bardziej.

Histogram dla danych:6; 7; 7; 7; 7; 8; 8; 8; 9; 10 pokazany na rysunku 2.12, również nie jest symetryczny. Jest przechylony w prawo.

Rysunek 2.13

Średnia wynosi 7,7, mediana 7,5, a tryb siedem. Z tych trzech statystyk, średnia jest największa, podczas gdy tryb jest najmniejszy. Ponownie, średnia odzwierciedla skośne najbardziej.

Podsumowując, ogólnie, jeśli rozkład danych jest skośny w lewo, średnia jest mniejsza niż mediana, która jest często mniejsza niż tryb. Jeśli rozkład danych jest skośny w prawo, tryb jest często mniej niż mediana, która jest mniejsza niż średnia.

Jak ze średnią, medianą i trybem, i jak zobaczymy wkrótce, wariancja, istnieją wzory matematyczne, które dają nam dokładne środki tych cech rozkładu danych. Ponownie patrząc na wzór na skośność widzimy, że jest to relacja między średnią danych a poszczególnymi obserwacjami sześciennymi.

a3=∑(xi-x¯)3ns3a3=∑(xi-x¯)3ns3

gdzie ss jest próbkowym odchyleniem standardowym danych, XiXi , a x¯x¯ jest średnią arytmetyczną i nn jest wielkością próby.

Formalnie średnia arytmetyczna jest znana jako pierwszy moment rozkładu. Drugim momentem, który zobaczymy, jest wariancja, a skośność jest trzecim momentem. Wariancja mierzy kwadratowe różnice danych od średniej, a skośność mierzy sześcienne różnice danych od średniej. Podczas gdy wariancja nigdy nie może być liczbą ujemną, miara skośności może i w ten sposób określamy, czy dane są skośne w prawo czy w lewo. Skośność dla rozkładu normalnego wynosi zero, a wszelkie dane symetryczne powinny mieć skośność bliską zeru. Ujemne wartości dla skośności wskazują na dane, które są przechylone w lewo, a dodatnie wartości dla skośności wskazują na dane, które są przechylone w prawo. Przez skośność w lewo rozumiemy, że lewy ogon jest długi w stosunku do prawego ogona. Analogicznie, skośność w prawo oznacza, że prawy ogon jest długi w stosunku do lewego ogona. Skośność charakteryzuje stopień asymetrii rozkładu wokół jego średniej. O ile średnia i odchylenie standardowe są wielkościami wymiarowymi (dlatego będziemy brać pierwiastek kwadratowy z wariancji), czyli mają te same jednostki co mierzone wielkości XiXi, o tyle skośność jest umownie zdefiniowana w taki sposób, że nie jest wielowymiarowa. Jest to liczba czysta, charakteryzująca jedynie kształt rozkładu. Dodatnia wartość skośności oznacza rozkład z asymetrycznym ogonem, który rozciąga się w kierunku bardziej dodatniego X, a ujemna wartość oznacza rozkład, którego ogon rozciąga się w kierunku bardziej ujemnego X. Zerowa miara skośności oznacza rozkład symetryczny.

Skośność i symetria stają się ważne, gdy omawiamy rozkłady prawdopodobieństwa w późniejszych rozdziałach.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.