Sju måter å feile med statistikk på

Av: Kristin S. Grønli Publisert: 19.12.2018

– I forskningens verden er det mye dårlig kompetanse på statistikk. Det er vanlig å gjøre grove feil og komme til gal konklusjon, sier Lars Holden ved Norsk Regnesentral.

Statistikere som ramler rundt en graf (illustrasjon) — Illustrasjon: David Parkins for Nature

forside bladet forskningsetikk nr 4 2018

Forskningsetikk nr. 4, 2018 Magasinet Forskningsetikk er et uavhengig fagblad som utgis av De nasjonale forskningsetiske komiteene (FEK).

PDF Gratis abonnement / endre adresse

Flodbølger av data gjør liten nytte dersom forskerne mangler innsikt i egne statistiske analyseverktøy. Det er nok av feller å gå i.

Statistikken er i tillegg såpass komplisert at det kan være ganske enkelt å trikse med resultatene uten særlig risiko for å bli oppdaget.

– Det skal mye til å sette seg inn i data, metoder og utregninger i en studie. Det er ganske få som har kompetansen til å gå grundig inn i andres statistiske analyser, sier Holden, som er administrerende direktør i Norsk Regnesentral (NR).

Krise!

Hvorfor er statistikk så viktig i forskning? Statistiske metoder gjør det mulig å undersøke et utvalg for å trekke konklusjoner om en helhet. Medisiner prøves ut på grupper med forsøkspersoner i flere runder, før det kan antas at de vil virke bra for folk flest. En utvalgt gruppe mennesker får spørsmål om sine politiske preferanser så samfunnsforskeren kan vurdere hvor stor oppslutning de ulike partiene har for tiden.

«Reproduserbarhetskrisen» er navnet på et mye omtalt uføre forskningen har stått i de siste tiårene – og det handler ikke om at forskere har problemer med å formere seg. En stor andel publiserte forskningsfunn kan ikke gjenskapes.

Selv med tilgang til de originale dataene og regneverktøyene, så går det ikke. Selve dataanalysene lar seg ikke repetere. Forskeres misbruk og/eller manglende forståelse av statistikk blir nesten alltid trukket frem som en viktig forklaring på krisen.

– Det er så utrolig mye som kan gjøres feil. Flere ting enn det forskerne har beskrevet i en studie, kan ha innvirkning, sier Anders Løland, assisterende forskningssjef ved NR.

Her er sju vanlige feilskjær:

1. Dårlig datagrunnlag

Størrelsen på utvalget og utvelgelsesmetodene er viktige valg for alle forskere.

– Det er en vanlig misforståelse at det alltid er best med et stort utvalg og masse data. Et utvalg som ikke er representativt, er mye verre enn et lite utvalg, sier Jan Terje Kvaløy, professor ved Universitetet
i Stavanger.

Han ser for seg et tenkt eksperiment hvor forskere spør 10 000 næringslivsledere om synet på norsk EU-tilknytning.

– Det vil ikke akkurat gi representative data for befolkningen som helhet. Et representativt utvalg på 500 personer vil gi et mye riktigere bilde, sier professoren.

Andre ganger er det mindre åpenbart at et utvalg er skeivt, som i en amerikansk undersøkelse fra 2015. Den så på 35 000 tenåringer som kom til legevakten etter ATV-ulykker, og viste at det gikk bedre med de som ikke hadde brukt hjelm.

– Problemet er at det kan ha vært mange ATV-ulykker hvor hjelmen beskyttet så godt at de involverte ikke trengte å dra til legevakten, sier Kvaløy.

For tenåringene med hjelm måtte ulykken altså være av en viss alvorlighetsgrad for at den i det hele tatt skulle bli inkludert i undersøkelsen.

– Dette er ei felle det er fort gjort å gå i. Den kalles Berksons paradoks, forteller Kvaløy.

2. Feil statistisk modell

Før forskere kommer i gang med å regne på dataene de har samlet inn, må de velge hvordan data skal grupperes og kodes inn i en datamaskin, og de må velge statistisk modell. Det vil si at de må velge hvilke statistiske verktøy som passer.

– Det er enormt mange forskjellige modeller der ute. Her er det helt klart mye som kan gå galt, sier Kvaløy.

Johs Hjellbrekke er sosiologiprofessor ved Universitetet i Bergen og for tiden direktør for Det norske universitetssenter i Paris. Han understreker at valgene får konsekvenser og derfor må kunne forsvares.

– Det er ikke bare å gå til en datamaskin med datasettet, riste godt og se hva som kommer ut. Strukturen vi påfører data gjennom koding, er vi for eksempel garantert å møte på igjen i resultatene.

Da må vi kunne forsvare analytisk hvorfor ting er gruppert som de er, sier han.

Løland ved NR understreker dessuten at alle statistiske verktøy hviler på noen antagelser.

– Spørsmålet er om det er hold i disse antagelsene for det konkrete datasettet, sier han.

Veldig ofte er det en antagelse at dataene er tilfeldig utvalgt.

– Dersom det er skjevheter i datamaterialet, må forskeren velge en annen måte å modellere på, som korrigerer for dette, forklarer han.

Det kan innebære bruk av mer avanserte statistiske analyser.

– Valget av statistisk modell bør rettferdiggjøres, sier Løland.

Han understreker at gode valg forutsetter kunnskap om både fenomenet man ser på, dataene man jobber med og hva som finnes av relevante statistiske modeller.

3. Ut på fisketur

Se for deg at du kaster en terning, og får seksere på de første fem kastene. En usannsynlig tilfeldighet. Selv om du kaster terningen veldig mange ganger, er det en teoretisk mulighet for at sekseren dukker opp forholdsmessig ofte. Dermed kan en påfølgende dataanalyse vise at det er størst sjanse for å få seks på terningen.

Her er vi så heldige å vite på forhånd at med mindre noen har jukset med terningen, er det like stor sannsynlighet for hver av terningens sider for hvert kast. Vi trenger bare et regneverktøy for å beskrive usikkerheten tilfeldighetene skaper.

Forskere har flere slike statistiske verktøy. Det mest brukte og etter hvert også mest omdiskuterte er p-verdien. Den oppgis fra 0 til 1, og jo lavere p-verdi, jo mindre er usikkerheten. I mange vitenskapsgrener har det blitt slik at en p-verdi på mindre enn 0,05 er lavt nok – altså et signifikansnivå på fem prosent. Det vil si at et slikt eksperiment vil gi et falskt positivt resultat 1 av 20 ganger i situasjoner uten reell effekt. P-verdi under 0,05 gir altså ingen garanti for at funnet er riktig, men det har likevel blitt en magisk grense for å få ting publisert.

Et vanlig og alvorlig problem i vitenskapen er forskere som kjører mange analyser på dataene sine for å lete etter p-verdier som er mindre enn 0,05. De drar rett og slett på fisketur etter dem, og den som leter, skal finne.

– Når vi gjør mange tester, blir det etter hvert stor sannsynlighet for at minst én av dem gir en p-verdi på mindre enn 0,05, uten at det er noen reell effekt, sier Kvaløy ved UiS.

Dette er årsaken til at det er viktig å spesifisere på forhånd hvilke hypoteser man ønsker å teste.

– Dersom man vil kjøre flere tester, må man kompensere for dette ved å kreve lavere p-verdi for hver hypotese som testes, sier Kvaløy.

Den kjente spisevaneforskeren Brian Wansink ved Cornell University i USA måtte gå fra jobben sin tidligere i år, etter avsløringer om feil og problematisk bruk av statistikk i en rekke mye omtalte og siterte forskningsartikler. Mange av dem er nå trukket tilbake.

Oppsiktsvekkende nok var det Wansinks egne uttalelser som utløste granskingen. I en bloggpost oppmuntret han nemlig studenter til å teste mange hypoteser på datasettene dersom de ikke fant det de lette etter i første runde. Selv mens han mistet jobben og tidsskriftene trakk artiklene hans tilbake, fastholdt han at metodene var gode og funnene solide.

– Mye av det som går galt, handler ikke om fanteri og dårlige holdninger. Kanskje er det bare snakk om dårlige kunnskaper – at man ikke tenker helt over hva man driver med. Det med fisking må uansett kalles en ukultur, sier Løland ved NR.

Fisking av denne typen har flere navn. Det kalles blant annet p-hacking, signifikansjakt, selektiv inferens, «data dredging», kirsebærplukking og data-tortur. Typisk rapporteres ikke jakten på den lave p-verdien i forskingsartiklene.

4. Blande statistisk signifikans og relevans

Lav p-verdi og et signifikant resultat trenger ikke bety at et forskningsfunn er særlig interessant eller relevant. For å vurdere dette, må vi derimot se på størrelsen av effekten som er påvist.

I dag øker forskernes tilgang til data, og stadig flere studier undersøker store utvalg. I store grupper kan selv små effekter påvises med lav p-verdi. Selv om forskeren kan hevde å være ganske trygg på at effekten er reell, er den kanskje så liten at den ikke betyr noe i praksis.

– Dette er enda en grunn til å være skeptisk mot p-verdier. I medisin skiller man for eksempel ofte mellom statistisk signifikans og medisinsk signifikans, sier Kvaløy ved UiS.

Vi kan tenke oss en avisoverskrift om at det å spise veldig mye lakris dobler risikoen for en bestemt krefttype. Dobbelt så stor risiko! Det høres dramatisk ut, men kanskje det er snakk om en type kreft som nesten ingen rammes av. Og hvor mange spiser egentlig veldig mye lakris? Funnet kan bety fint lite i praksis.

5. Simpsons paradoks

– Forskere må også være på vakt når de undersøker ulike grupper og ulike størrelser, understreker Løland ved NR.

Han trekker fram et eksempel som handler om mord, diskriminering og dødsstraff i USA. I 1981 viste den amerikanske forskeren Michael Radelet at det ikke er en sterk sammenheng mellom etnisiteten til tiltalte og dødsstraff. Likevel viste han at det amerikanske rettssystemet diskriminerer svarte i slike saker. Hvordan var det mulig?

I første runde delte han data inn i to grupper: svarte og hvite tiltalte. Resultatene viste at hvite fikk dødsstraff i 11 prosent av sakene, mens svarte fikk det i 8 prosent.

Bildet forandret seg dramatisk da Radelet delte de to gruppene inn i undergrupper etter offerets etnisitet: Hvite tiltalte som hadde drept hvite (11 prosent dødsstraff), hvite tiltalte som hadde drept svarte (0 prosent), svarte tiltalte som hadde drept hvite (23 prosent), og svarte tiltalte som hadde drept svarte (3 prosent).

Dødsstraff ble altså mye oftere resultatet i saker der offeret var hvitt, og veldig mye vanligere dersom tiltalte var svart og offeret hvitt.

– Faren ved Simpsons paradoks er at det kan være forskjeller i undergrupper som forskerne ikke ser. Dette tror jeg folk ofte glemmer, sier Løland.

Derfor kan det være viktig å forfine analysen og bruke tid på å forstå hva spørsmålet man stiller egentlig innebærer – gjerne allerede når man planlegger hvordan datagrunnlaget skal innhentes.

6. Blandet sammenheng og årsak

Falske årsaksforhold eller såkalte spuriøse sammenhenger er et vedvarende problem i vitenskapen. Selv om det er påvist en statistisk sammenheng, for eksempel mellom lite søvn og hjertesykdom, er det slett ikke sikkert at lite søvn gir hjertesykdom.

Såkalte kausalanalyser ble opprinnelig designet for det naturvitenskapelige, eksperimentelle forskningsdesignet.

– I samfunnsvitenskapene har det vært diskutert hvorvidt bestemte typer kausalanalyser i det hele tatt er forsvarlig rent kunnskapsteoretisk, forklarer sosiolog Hjellebrekke.

Når det gjelder eksemplet med lite søvn og hjertesykdom, kan det hende at stress er den underliggende faktoren som både påvirker søvnen og risikoen for hjertesykdom.

– Feiltolking av statistiske sammenhenger som årsakssammenhenger er klassisk og ganske velkjent, men fremdeles er dette noe vi stadig ser, sier Kvaløy ved UiS.

7. Ufullstendig rapportering

De foregående punktene viser at det er mange valg som må foretas når en forsker skal analysere et datasett. Valgene påvirker resultatet, men det er ikke slik at forskerne nødvendigvis rapporterer om alle valgene når de skriver ut sine forskningsartikler.

På toppen av alle skjevhetene dette kan medføre, finnes det enda et stort og alvorlig problem i vitenskapen i dag. Vi snakker om publiseringsskjevheten. Det er mye lettere å få publisert artikler med tydelige funn, og vanskelig å få publisert artikler med nullfunn. De sistnevnte arbeidene havner derfor ofte i skuffen.

Hvorfor er det et problem? Om vi tenker tilbake på punktet om å være på fisketur, husker vi at all forskning har en viss risiko for falske positive funn. Dersom det bare er de positive funnene som publiseres, danner det seg derfor et veldig galt bilde etter hvert.

– Dette er ikke en type feil som enkeltforskere gjør, men et resultat av hele det vitenskapelige systemet, sier Løland.

– Ring en statistiker

Noe av løsningen på reproduserbarhetskrisen kan være å fremme en bedre og mindre mekanisk forståelse av statistikk. P-verdien bør for eksempel ikke beskrives som et verktøy for å få det beviset som trengs for publisering. Når alt kommer til alt, er ikke statistikk en portvokter for sannheten.

Statistikken er et språk forskerne kan bruke for å snakke om tilfeldigheter og usikkerhet. Den diskusjonen kan fort bli ganske komplisert.

– Det er lett å gjøre feil, men mange føler likevel at de har nok kompetanse, sier NR-direktør Holden.

Heller enn å sende alle forskere på en rekke statistikk-kurs, tror han det er bedre å bygge en kultur for å kalle inn de virkelige ekspertene.

– Ring en statistiker i tide, sier Holden.

– Gjør det før du starter med datainnsamlingen. Post mortem-statistikk er ikke alltid så gøy, sier Kvaløy.