Blant mine nærmeste facebook-venner er dette yndlings-quizen fra Start.no.

Hestetest. Prøv selv!

Statistisk analyse er basert på tall og kategorisering av informasjon, og det er mange måter å finne disse tallene og kategoriene på. Alder, høyde, hvor mye sjokolade du spiser hver dag eller hvor mye matavfall din familie kaster hver uke er tall som kan telles og måles direkte. Og kategoriene som forteller hvilket kjønn du har eller hva du stemte på forrige stortingsvalg er også lett å svare på.

Det er verre å finne gode tall eller kategorier for hvor stresset du er, hvor godt du liker å strikke, hvor fornøyd du er med livet ditt, smerteterskelen din eller hvilken personlighetstype du har. Forskerne har laget mange ulike måleinstrumenter for å fange opp slike ting. Noen er basert på konkrete målinger, for eksempel av hjerterytmer, av spesielle proteiner i blodet etc. Et godt eksempel er testen der du skal holde hånda i isvann så lenge du klarer. Tiden det tar før du ikke klarer mer og må ta den opp gir et godt tall for smerteterskel (Les om kjønnsforskjeller i smertetoleranse på forskning.no). Andre måleinstrumenter er basert på spørreskjemaer. Spørreskjemaet SF36 er kanskje det mest brukte spørreskjemaet for å finne tall for livskvalitet. På SF36-skalaen scorer du 100 hvis du har maksimal livskvalitet, og 0 hvis du har minimal livskvalitet. Figuren under er hentet fra en artikkel om fysisk helsetilstand hos personer som søker uføretrygd, les hele her.

Noen slike spørreskjemaer gir ikke (bare) tall, men kategoriserer personene i ulike grupper, for eksempel om du lider av post-traumatisk stress-lidelse eller ikke, hvilken personlighetstype du ligner mest på etc. Dette er atskillig mer gjennomtenkt enn de hjemmesnekrede quiz-ene på Start.no.

Tenk om forskerne bare kunne scanne kroppene våre og lese tankene våre, da hadde de ikke trengt alle disse målingene, blodprøvene og spørreskjemaene for å få tak i den informasjonen de trengte.

Valghatten i Harry Potter gjør faktisk dette. Den bedriver rett og slett en slags kropps-, sjel- og tankelesing som med høy treffsikkerhet kategoriserer elevene til ulike hus på Galtvort . Som statistiker stiller jeg meg tvilende til denne deterministiske måten å behandle elever på. Dessuten er det fullstendig uklart hvilke signaler hatten fanger opp fra de tildels vettskremte elevene, og hvilke algoritmer som så ligger bak selve kategoriseringen.

Men underholdende er det. Akkurat som hestetesten på Start.no.
Og svaret:

Jeg er Hiawata, den skvetene, følsomme, søte, snille og ganske rolige!

Det er lett å forstå at påliteligheten til en sånn quiz ikke er den beste. Quiz-en har dårlig validitet, sier forskerne. Denne typen informasjon gir derfor ikke gyldige forskningsresultater, uansett hvor korrekte statistiske metoder vi måtte velge for å analysere den: Resultatene fra statistiske analyser blir ikke bedre enn tallene du putter inn i analysene!

Både fordi testen er så søt, og fordi den illustrerer dette superviktige poenget i statistisk analyse, bruker jeg hestetesten fra Alnabru ridesenter som eksempel hver gang jeg skal undervise om validitet. Også i høst. I pausa kom en av de blide studentene bort til meg:
-Hehe, jeg må bare fortelle deg at jeg har hatt Hiawata på fôr i et år!

Hiawata-venner

Det er det kuleste! Jeg lovet deg et blogginnlegg om validitet, Stine. Her er det.

Bak god kvantitativ forskning ligger det mye arbeid i å tallfeste og kategorisere informasjon på riktigst mulig (mest valid) måte. Vi bruker godkjente laboratorier, validerte spørreskjemaer og har hatt grundige diskusjoner omkring kategorier. Når vi stoler på at informasjonen er så god som den kan bli, er neste oppgave å velge riktig statistisk analyse.

Alt dette vurderes grundig når vi sender inn forskningsartikler til vitenskapelige tidsskrifter. Da sendes artikkelen vår til minst to andre forskere som jobber innen det samme fagfeltet (såkalte fagfeller). Disse har som jobb (fritidsaktivitet egentlig, fagfellevurdering er et gigantisk dugnadsarbeid som gjøres i fritiden) å plukke fra hverandre det som er gjort og finne enhver svakhet, slik at analysene og artikkelen eventuelt kan omarbeides og gjøres enda bedre før den offentliggjøres. Det er en nitidig og langsom prosess, men forskning er for viktig til å overlates til flaks og tilfeldigheter. Dette med kategorisering, valg av modeller, analyse og fagfellevurdering er noe av det som har vært diskutert i den støyende prosessen i SSB i det siste. Les Kyrre Lekves gode kommentar om det her.

Mens debatten om SSB sine valg av modeller, (manglende?) fagfellevurdering og kategorisering av innvandrere har rast, og dette blogginnlegget har modnet, har jeg både tatt en quiz om min mentale alder (50 år Du er gammel og koslig!  Hæ? Jeg er bare 46!), og Which murderous villain are you:

Aiai. Under Words of warning står det:
Points to consider for people with your personality – have you ever:
Been so enamored with your own knowledge and insight into a problem that you proceeded to play the role of teacher, even though the other party may have been just as knowledgeable about the problem as you were?

Eh ja?
Kjære lesere, dere visste kanskje allerede at internett-quizer ikke er særlig pålitelige?

Eller som den ganske enkle strikke-quiz-en:
Vis meg alt du har strikket i år, så skal jeg fortelle deg om du liker å strikke!