Variasjon gjør at verden aldri blir kjedelig, og at statistikere aldri blir arbeidsledige, skrev jeg tidligere i sommer.

Variasjon i barn.

Siden variasjon er så viktig, finnes det mange måter å beskrive den på. Det har jeg, trebarnsmor og strikkende statistiker, tenkt å vise med barn og garn.

Variasjon i garn.

Før vi kan beskrive variasjon nærmere, må vi velge å fokusere på noe interessant som varierer. Jeg velger svangerskap. Det er mange ting som varierer med svangerskap, og en av dem er svangerskapslengden.

Det er bokstavelig talt barnelærdom at en graviditet varer i 9 måneder. De som jobber med gravide måler det i uker. Jeg har derfor målt og tegnet både unnfangelse, 9 måneder og 40 uker med gatekritt på fortauet utenfor der vi bor:

Uke 0: Unnfangelse. (Mens jeg tegnet dette, skjønte jeg at naboen i det nærmeste huset hadde bursdagsfest. Heldigvis kom verken han eller noen av gjestene ut mens jeg tegnet dette digre hjertet på gata rett utenfor huset hans. Det kunne blitt litt -eh- rart.)

9 måneder, eventuelt 40 uker senere: Fødsel! Legg merke til avstanden fra hjertet langt der borte. Dette tar tid!

Men de færreste føder etter nøyaktig 40 uker. Noen barn skvetter ut etter 38 eller 39 uker. Andre babyer har null hastverk, og venter til mor er overmoden og i 42. uke før de omsider lar seg trykke ut.

Jeg har ikke nyfødte barn å drysse utover fortauet, så jeg har tatt det som rimer mest, nemlig garn. Hvert nøste garn symboliserer nå et lite (nøste)barn.

Her er 31 nyfødte garn, lagt utover for å vise hvor langt svangerskapet var.
Tallene er oppdiktet, men de er basert på det jeg kan om svangerskapslengder, så sånn kan det veldig gjerne se ut i virkeligheten også.

Det er en opphoping av garnefødsler rundt uke 40. Hvis vi teller opp, viser det seg at like mange garn er født før uke 40, som etter uke 40. Det betyr at medianen er 40. Regner vi på det, finner vi at gjennomsnittet også er nøyaktig 40. Da har vi to tall som beskriver det typiske, det vanlige.

Hvordan skal vi beskrive variasjonen? Det enkleste er å oppgi minste og største verdi:
Alle svangerskapene varte mellom 37,1 uker og 41,8 uker. Naturen er altså ikke mer presis enn at det er et slingringsmonn på ca 5 uker.

Disse svangerskapene varte mellom 37,1 uker og 41,8 uker. Vi kaller det «range».

Noen ganger er det mer hensiktsmessig å oppgi variasjonen for de midterste 50%:
De midterste 50% av svangerskapene varte mellom 39,5 og 40,7 uker. 50% av barna er altså født innen litt over en uke. Det er ganske lite variasjon!

Den hvite pila går fra minimum til maksimum. Den lyseblå går fra nedre til øvre kvartil. Vi kaller det «interkvartil range».

Variasjon: Fra minste til største, og de midterste 50%.

Men vi gir oss ikke med det: Her kommer standardavviket!

Overskriften inneholder både variasjon og standardavvik. Den er helt symmetrisk fordi standardavviket er en måte å beskrive variasjon på som er basert på at variasjonen er like stor på hver side av midten. Vi som kjenner standardavviket godt kaller det bare SD.

Størrelsen på SD tilsvarer omtrent avstanden mellom den minste og største målingen, delt på 4 (eller 5 eller 6),

At jeg i garasjen fant 4 planker som var omtrent et SD lange er nærmest et statistisk mirakel.

men det er bare hvis fordelingen er omtrent lik på hver side av gjennomsnittet, og det ikke er noen ekstremt høye eller ekstremt lave verdier. SD gir altså ikke meining å regne ut hvis fordelingen er skjev eller du har ekstremverdier i datasettet ditt. Formelen for SD er sånn:

Men for min magefølelse for statistikk er det mye nyttigere å tenke sånn: 4*SD spenner over nesten alle dataene mine.

Dokumentet Deskriptiv statistikk for kontinuerlige data pdf gir to eksempler med repetisjonsoppgaver om dette temaet og kan fritt brukes av elever, studenter eller lærere. Velbekomme!

Livet kan bare forstås baklengs, men det må leves forlengs.

~Søren Kierkegaard 

Ok! Snurr film!