FORSKERE GENTOG 100 PSYKOLOGISTUDIER, OG FÆRRE END HALVDELEN FIK DE SAMME RESULTATER

Akademiske tidsskrifter og pressen serverer regelmæssigt frisk hjælp af fascinerende psykologiske forskningsresultater. Men hvor mange af disse eksperimenter ville give de samme resultater en anden gang?

Relateret indhold

Biomedicinske videnskabelige studier er chokerende svære at gengive
Undersøgelser med kortere titler citeres oftere
Hvorfor så få videnskabsfolk studerer årsagerne til pistolvold

I henhold til det arbejde, der præsenteres i dag i Science, kunne færre end halvdelen af 100 undersøgelser, der blev offentliggjort i 2008 i tre øverste psykologitidsskrifter, replikeres med succes. Den internationale indsats omfattede 270 videnskabsfolk, der gendannede andres studier som en del af Reproducibility Project: Psychology, ledet af Brian Nosek fra University of Virginia.

Resultaterne med åbning af øjne betyder ikke nødvendigvis, at de originale fund var forkerte, eller at den videnskabelige proces er mangelfuld. Når en undersøgelse finder en effekt, som en anden undersøgelse ikke kan gentage, er der flere mulige grunde, siger co-forfatter Cody Christopherson fra det sydlige Oregon University. Undersøgelse A's resultat kan være falsk, eller undersøgelse Bs resultater kan være falske - eller der kan være nogle subtile forskelle i den måde, de to undersøgelser blev udført på, der påvirkede resultaterne.

”Dette projekt er ikke bevis for, at noget er ødelagt. Det er snarere et eksempel på, at videnskab gør det, som videnskaben gør, ”siger Christopherson. ”Det er umuligt at tage fejl i en endelig forstand inden for videnskaben. Du skal være midlertidigt forkert, måske mange gange, før du nogensinde har ret. ”

På tværs af videnskaberne betragtes forskning som reproducerbar, når et uafhængigt team kan udføre et offentliggjort eksperiment, følge de originale metoder så tæt som muligt og få de samme resultater. Det er en vigtig del af processen for opbygning af bevis til støtte for teorier. Selv i dag, 100 år efter, at Albert Einstein præsenterede sin generelle relativitetsteori, gentager forskere regelmæssigt test af dens forudsigelser og kigger efter tilfælde, hvor hans berømte beskrivelse af tyngdekraften ikke finder anvendelse.

”Videnskabelig dokumentation er ikke afhængig af at have tillid til autoriteten af den person, der har fundet opdagelsen, ” sagde teammedlem Angela Attwood, en psykologiprofessor ved University of Bristol, i en erklæring ”snarere akkumuleres troværdighed gennem uafhængig replikering og uddybning af ideerne og beviser. "

Reproducerbarhedsprojektet, en samfundsbaseret crowddsourcing-indsats, startede i 2011 for at teste, hvor godt dette mål af troværdighed gælder for nyere forskning i psykologi. Forskere, nogle rekrutterede og nogle frivillige, gennemgik en pool af studier og valgte en til replikation, der matchede deres egen interesse og ekspertise. Deres data og resultater blev delt online og gennemgået og analyseret af andre deltagende videnskabsfolk for at blive inkluderet i den store videnskabsundersøgelse .

For at hjælpe med at forbedre fremtidig forskning forsøgte projektanalysen at bestemme, hvilke typer undersøgelser, der klarede sig bedst, og hvorfor. De fandt, at overraskende resultater var de sværeste at gengive, og at erfaringerne eller ekspertisen fra de videnskabsmænd, der gennemførte de originale eksperimenter, havde lidt at gøre med succesrig replikation.

Resultaterne gav også en vis støtte til det ofte kritiserede statistiske værktøj, der kaldes P- værdi, som måler, om et resultat er signifikant eller skyldes en chance. En højere værdi betyder, at et resultat sandsynligvis er en fluke, mens en lavere værdi betyder, at resultatet er statistisk signifikant.

Projektanalysen viste, at en lav P- værdi var ret forudsigelig for, hvilke psykologistudier, der kunne replikeres. 20 af de 32 originale undersøgelser med en P- værdi på mindre end 0, 001 kunne for eksempel replikeres, mens kun 2 af de 11 papirer med en værdi større end 0, 04 blev med held replikeret.

Men Christopherson har mistanke om, at de fleste af hans medforfattere ikke ønsker, at undersøgelsen blev taget som en ringende påtegning af P- værdier, fordi de anerkender værktøjets begrænsninger. Og mindst et P- værdiproblem blev fremhævet i forskningen: De originale undersøgelser havde relativt lille variation i P- værdi, fordi de fleste tidsskrifter har etableret et cutoff på 0, 05 til offentliggørelse. Problemet er, at værdien kan nås ved at være selektiv med hensyn til datasæt, hvilket betyder, at forskere, der ønsker at kopiere et resultat, også nøje bør overveje metoderne og de data, der blev brugt i den originale undersøgelse.

Det er heller ikke klart, om psykologi muligvis er et særligt vanskeligt felt for reproducerbarhed - en lignende undersøgelse er i øjeblikket i gang med kræftbiologisk forskning. I mellemtiden håber Christopherson, at den enorme indsats vil anspore til mere sådanne dobbeltkontrol og revisioner af tidligere forskning for at hjælpe den videnskabelige proces.

”At få det rigtigt betyder regelmæssigt at gennemgå tidligere antagelser og tidligere resultater og finde nye måder at teste dem på. Den eneste måde, videnskaben er succesrig og troværdig på, er, hvis den er selvkritisk, ”bemærker han.

Desværre er der incitament til at forfølge denne form for forskning, siger han: ”For at blive ansat og forfremmet i akademia skal du offentliggøre original forskning, så direkte replikationer er sjældnere. Jeg håber fremover, at de universiteter og finansieringsbureauer, der er ansvarlige for at incitamere denne forskning - og de medier, der dækker dem - vil indse, at de har været en del af problemet, og at devaluering af replikering på denne måde har skabt en mindre stabil litteratur end vi kunne ikke lide det. ”