Ingen kvikkfiks for statistikken
P-verdien er omstridt og det finnes ingen enkle løsninger på reproduserbarhetskrisen, men samarbeid med statistikere reduserer fortsatt muligheten for feil.
Av Lars Holden, adm. dir. Norsk Regnesentral og Anders Løland, ass. forskningssjef Norsk Regnesentral
Yoccoz og Hamel skriver i Forskningsetikk 1/2019 at «å ringe en statistiker» ikke er en mirakelkur for å bli kvitt datamishandling. Det er vi enige i. Innlegget var en kommentar til et intervju med oss og andre statistikere i foregående utgave av Forskningsetikk: «Datamishandling – eller sju måter å feile med statistikk på».
Der sa vi at et godt samarbeid mellom forskere som er eksperter på anvendelsesområdet og statistikere vil redusere statistiske feil og misbruk av data. At en statistisk modell må tilpasses problemstillingen og ikke motsatt er helt åpenbart.
Den større diskusjonen om reproduserbarhet av forskningsresultater, bruk av p-verdier og statistisk signifikans er viktig. P-verdien er sannsynligheten for et testresultat gitt en hypotese, for eksempel at en medisin ikke er bedre enn et placebo. Hypotesen forkastes hvis p-verdien er under en viss grense, for eksempel én promille, én prosent eller fem prosent.
The American Statistical Association skriver i «The ASA's statement on p-values» fra 2016 at vitenskapelige konklusjoner ikke bør basere seg på p-verdier alene og at en p-verdi ikke måler størrelsen på effekten eller viktigheten av et resultat.
Reproduserbarhetsskandalen
En altfor høy andel av resultater publisert i anerkjente tidsskrifter lar seg ikke reprodusere. For eksempel klarte Open Science Collaboration i 2015 bare å gjenskape en p-verdi på under fem prosent i 35 av 97 psykologiartikler. Gjennomsnittlig effektstørrelse var dessuten halvert fra tidligere studier.
Årsakene er blant annet representativitetsproblemer, feil eller svakheter i eksperimentet eller den statistiske analysen eller manglende rapportering
av negative funn.
Mer enn 800 forskere skrev i år under på et opprop i Nature (Amrhein med flere) der de protesterer på bruken av ordet signifikant. Forskerne henviser til fem studier som til sammen tar for seg 791 artikler. I halvparten av dem feiltolket artikkelforfatterne egne resultater.
Bør vi slutte med p-verdier?
Paradoksalt nok er forskjellen mellom et statistisk signifikant og ikke-signifikant resultat – som en p-verdi på 4,9 prosent og en p-verdi på 5,1 prosent – i seg selv heller ikke statistisk signifikant fordi små endringer i dataene kan påvirke om en p-verdi er over eller under en grenseverdi.
Det finnes ikke noen enkle løsninger på problemet. Å simpelthen slutte å bruke ordet «signifikant» eller flytte terskelen for p-verdier fra 5 prosent til 0,5 prosent, tror vi er gal tilnærming. Å publisere datagrunnlaget, i større grad bruke konfidensintervaller for effekt istedenfor p-verdier og å anerkjenne de statistiske utfordringene, er riktig vei å gå. Å anerkjenne problemet med manglende reproduserbarhet og generelt å være ydmyk i tolkningen av egne (og andres) resultater er enda viktigere.
Forskere og tidsskrifter er naturlig nok – men også dessverre – mer interessert i banebrytende funn enn avkreftelser av resultater. Det medfører en skjevhet i rapporteringen, noe annet Amrhein med flere belyser godt i en helt ny artikkel i The American Statistician.
Vi støtter derfor Yoccoz og Hamels konklusjon om at det bør bli enklere
å presentere usikkerheten i vitenskapelige studier, uten at det blir sett som noe negativt, og at dette må vektlegges i statistikkundervisningen.