Inhoudsopgave:

Psychologische studies bleken in meer dan 50% van de gevallen niet waar te zijn
Psychologische studies bleken in meer dan 50% van de gevallen niet waar te zijn

Video: Psychologische studies bleken in meer dan 50% van de gevallen niet waar te zijn

Video: Psychologische studies bleken in meer dan 50% van de gevallen niet waar te zijn
Video: Inside the Emperor's Tomb - A look inside the tomb of Holy Roman Emperor Frederick III 2024, Mei
Anonim

Er zijn "sterke houdingen" die vertrouwen opbouwen en stresshormonen verminderen. Als mensen een kopje warme drank in hun handen houden, worden ze vriendelijker voor de mensen om hen heen. Wilskracht is een hulpbron die we uitgeven als we verleidingen weerstaan. Het vermogen om beloningen uit te stellen bepaalt het toekomstige succes van het kind.

Deze uitspraken lijken erg op elkaar: daarachter staan bekend psychologisch onderzoek, populairwetenschappelijke bestsellers, columns in populaire tijdschriften en TED-talks.

Ze hebben ook nog één ding gemeen: ze bleken allemaal niet te kloppen.

De reproduceerbaarheidscrisis heeft hele wetenschapsgebieden in twijfel getrokken. Veel van de resultaten, die op grote schaal in de media werden geciteerd, worden nu als overdreven of onjuist beschouwd. Toen wetenschappers probeerden zowel klassieke als recente psychologische experimenten te repliceren, waren de resultaten verrassend consistent, waarbij ongeveer de helft van de gevallen succesvol was en de andere helft faalde.

De crisis werd eindelijk duidelijk in 2015, toen wetenschappers onder leiding van Brian Nosek 100 psychologische onderzoeken controleerden. Slechts in 36 gevallen konden ze eerste resultaten behalen. De hoofdredacteur van de Lancet, Richard Horton, verklaarde al snel:

“De beschuldigingen aan het adres van de wetenschap zijn vrij rechttoe rechtaan: minstens de helft van de wetenschappelijke literatuur klopt gewoon niet. Lijdend aan studies met een kleine steekproefomvang, karig effect en onjuiste analyses, evenals een obsessie met modetrends van twijfelachtig belang, heeft de wetenschap een wending genomen in de richting van onwetendheid.

Reproduceerbaarheid is een van de belangrijkste vereisten voor wetenschappelijke kennis. Hoe beter het resultaat wordt gereproduceerd, hoe betrouwbaarder het is - dit is de enige manier om echte patronen te scheiden van eenvoudige toevalligheden

Maar het bleek dat niet altijd aan deze eis wordt voldaan.

De crisis begon in de geneeskunde, maar trof de psychologie het meest. In de zomer van 2018 probeerden wetenschappers een selectie van psychologische onderzoeken te repliceren die zijn gepubliceerd in Science and Nature, 's werelds meest prestigieuze wetenschappelijke tijdschriften. Van de 21 experimenten werden er slechts 13 bevestigd - en zelfs in deze gevallen waren de oorspronkelijke resultaten met ongeveer 50% overdreven.

Vaak wordt de reproduceerbaarheidstest gefaald door die onderzoeken die op grote schaal werden herhaald in de media en erin slaagden het publieke bewustzijn te beïnvloeden. Zo ontwikkelen de werken die zoekmachines het geheugen aantasten, en het lezen van fictie ontwikkelt het inlevingsvermogen. Als herhaalde experimenten mislukken, betekent dit niet dat de oorspronkelijke hypothesen waardeloos zijn. Maar er is nu beter onderzoek nodig om ze te bewijzen.

Hoe de toekomst te voorspellen met statistieken

In 2011 publiceerde de beroemde Amerikaanse psycholoog Daryl Boehm een artikel dat de mogelijkheid van helderziendheid aantoonde. Deze conclusie was niet het product van zijn gewelddadige verbeeldingskracht, maar was gebaseerd op tientallen jaren onderzoek, waarbij honderden mensen betrokken waren. Velen vermoedden dat Boehm besloot om zoiets als Sokal's zwendel te regelen en psychologie aan de kaak te stellen met een nepartikel met opzettelijk absurde conclusies. Maar naar alle methodologische maatstaven was het artikel zeer overtuigend.

In een van de experimenten van Behm werden twee schermen voor de deelnemers geplaatst - ze moesten raden welk beeld erachter verborgen was. De afbeelding werd willekeurig gegenereerd onmiddellijk nadat de selectie was gemaakt. Als de deelnemers het goed zouden doen, zou dat erop wijzen dat ze op de een of andere manier kunnen anticiperen op de toekomst. Het experiment gebruikte twee soorten afbeeldingen: neutraal en pornografisch.

Boehm suggereerde dat als het zesde zintuig bestaat, het waarschijnlijk een oude evolutionaire oorsprong heeft. Als dat zo is, is de kans groter dat het is afgestemd op onze oudste behoeften en driften

Deelnemers raadden 53% van de tijd pornografische afbeeldingen - iets vaker dan ze zouden moeten als ze puur toeval waren. Gezien het grote aantal experimenten zou Boehm kunnen beweren dat er vooruitziendheid bestaat.

Later ontdekten experts dat hij bij het analyseren van de resultaten niet helemaal correcte methoden gebruikte. In de regel wordt een onderzoeksresultaat als betrouwbaar beschouwd als de kans dat het per ongeluk is verkregen niet groter is dan 5%. Maar er zijn veel manieren om deze waarde tot het vereiste niveau te verlagen: verander de initiële parameters van de analyse, voeg het vereiste aantal voorbeelden toe aan of verwijder ze uit de steekproef, gebruik meer succesvolle hypothesen na het verzamelen van de gegevens.

Het probleem is dat niet alleen Boehm, maar ook veel andere wetenschappers dezelfde technieken gebruikten. Volgens een onderzoek uit 2011 gaf bijna de helft van de psychologen dit toe

Toen het helderziende artikel uitkwam, realiseerden sociale wetenschappers Joseph Simmons, Leaf Nelson en Uri Simonson zich dat de wetenschap afstevent op haar eigen ondergang. Ze bouwden verschillende computermodellen en ontdekten dat je met behulp van vrij standaard statistische technieken het aantal fout-positieve resultaten meerdere keren kunt verhogen. Dit betekent dat methoden die formeel wetenschappelijk zijn, gemakkelijk tot volkomen absurde conclusies kunnen leiden.

Om dit te illustreren, voerden wetenschappers een experiment uit dat bevestigde dat het luisteren naar het nummer "When I'm Sixty-four" de luisteraar anderhalf jaar jonger maakt.

Iedereen wist dat het verkeerd was om dergelijke technieken te gebruiken, maar ze dachten dat dit een schending was van de betekenis ervan - zoals het oversteken van de weg op de verkeerde plaats. Het bleek meer om een bankoverval te gaan”, besluit Simmons.

Hoe je slecht onderzoek van goed kunt onderscheiden

Al snel werd duidelijk dat reproduceerbaarheidsproblemen niet beperkt waren tot psychologie. Bij kankeronderzoek wordt in 10-25% van de gevallen wetenschappelijk bewijs ondersteund. In de economie waren 7 van de 18 laboratoriumexperimenten niet in staat om te repliceren. Onderzoek naar kunstmatige intelligentie vertoont ook tekenen van crisis.

Maar het lijkt erop dat het verliezen van vertrouwen in de wetenschap het nog steeds niet waard is. Wetenschappers hebben al verschillende manieren bedacht die de betrouwbaarheid en kwaliteit van nieuw onderzoek sterk hebben verbeterd

Enkele jaren geleden publiceerde bijna niemand de resultaten van herhaalde experimenten, ook al waren ze uitgevoerd. Dit werd niet geaccepteerd, leverde geen subsidies op en droeg niet bij aan een succesvolle wetenschappelijke carrière. Volgens een Nature-enquête heeft meer dan 70% van de psychologen geprobeerd om andermans onderzoek te reproduceren, maar ongeveer de helft is niet in staat geweest om hun eigen onderzoek te herhalen, en bijna niemand heeft geprobeerd deze resultaten bekend te maken.

Toen de reproduceerbaarheidscrisis de kop opstak, is er veel veranderd. Herhaaldelijk onderzoek werd langzamerhand gemeengoed; experimentele gegevens werden steeds vaker in het publieke domein gepubliceerd; tijdschriften begonnen negatieve resultaten te publiceren en het algemene onderzoeksplan vast te leggen nog voordat ze begonnen.

Onderzoek is uitgebreider geworden - een steekproef van 30-40 mensen, wat vrij standaard was in de psychologie, past nu bij heel weinig mensen. Grote internationale organisaties - zoals de Psychological Science Accelerator - testen dezelfde hypothesen in verschillende laboratoria over de hele wereld.

Alvorens de artikelen uit Nature and Science te controleren, waarover we in het begin schreven, werd wetenschappers gevraagd om weddenschappen te plaatsen op de sweepstakes. Ze moesten voorspellen welk onderzoek de test zou doorstaan en welk onderzoek zou mislukken. Over het algemeen waren de tarieven zeer nauwkeurig. "Dit betekent ten eerste dat de wetenschappelijke gemeenschap kan voorspellen welke werken kunnen worden herhaald, en ten tweede dat de onmogelijkheid om het onderzoek te repliceren niet louter toeval was", zeggen de organisatoren van het experiment.

Wetenschappers zijn over het algemeen goed in het onderscheiden van betrouwbaar van onbetrouwbaar onderzoek - dat is goed nieuws. Nu proberen experts van het Center for Open Science samen met het bureau DARPA een algoritme te maken dat dezelfde taak kan uitvoeren zonder menselijke tussenkomst.

Er worden elk jaar te veel artikelen gepubliceerd om zelfs maar een klein deel ervan handmatig opnieuw te controleren. Als kunstmatige intelligentie van de grond komt, wordt alles veel eenvoudiger.

Al in de eerste tests kon de AI in 80% van de gevallen met succes omgaan met voorspellingen.

Wat maakt onderzoek het vaakst onbetrouwbaar? Kleine steekproeven, inconsistenties in aantallen, te mooie bevestiging van hypothesen. En ook - het verlangen naar sensaties en te eenvoudige antwoorden op moeilijke vragen.

Te goed om waar te zijn

De gemakkelijkste manier om sensationeel onderzoek te creëren is door middel van bedrog. De bekende sociaal psycholoog Diederik Stapel gebruikte gefabriceerde data in enkele tientallen wetenschappelijke artikelen. Stapels onderzoek verspreidde zich met grote snelheid via kranten en tijdschriften, hij ontving diverse prestigieuze wetenschappelijke onderscheidingen, werd gepubliceerd in Science en gold als een van de grootste specialisten op zijn vakgebied.

Ooit bleek dat Stapel lange tijd helemaal geen onderzoek deed, maar simpelweg data uitvond en ter analyse aan studenten gaf.

Dit is zeer zeldzaam in de wetenschap. Veel vaker luide, maar onjuiste uitspraken ontstaan om andere redenen. Mensen zijn wanhopig op zoek naar eenvoudige, begrijpelijke en effectieve antwoorden op spannende vragen. Het kan heel gemakkelijk zijn om in de verleiding te komen te denken dat je deze antwoorden hebt, zelfs als je dat echt niet hebt. Het streven naar eenvoud en zekerheid is een van de belangrijkste redenen waarom veel onderzoeken niet op reproduceerbaarheid testen. Hier zijn enkele opmerkelijke voorbeelden.

Marshmallow-experiment

In een experiment werden kinderen gevraagd om te kiezen tussen een kleine beloning - zoals marshmallows - die onmiddellijk kon worden ontvangen, en een dubbele beloning als ze even konden wachten. Later bleek dat kinderen die de tweede prijs ontvingen, succesvoller werden op volwassen leeftijd. De studie werd erg populair en beïnvloedde sommige schoolcurricula.

In 2018 werd het experiment herhaald op een grotere steekproef. Het bleek dat rijkdom in het gezin een veel belangrijkere factor is, waarvan de mate van zelfbeheersing ook afhangt.

"Poses van kracht" en "Poses van zwakte"

De deelnemers aan het experiment namen twee minuten lang een van de twee poses aan: ze leunden achterover in een stoel en gooiden hun benen op de tafel ("strength pose") of kruisten hun armen voor hun borst ("weakness pose"). Als gevolg hiervan voelden de deelnemers uit de eerste groep zich zelfverzekerder en gingen ze vaker akkoord om risico's te nemen bij het gokken. Degenen die in een sterke houding zaten, verhoogden hun testosteronniveau en degenen die in een zwakke positie zaten, verhoogden hun cortisol. In herhaalde experimenten werd slechts één effect gereproduceerd: "krachthoudingen" hielpen de deelnemers meer zelfvertrouwen te krijgen, maar veranderden hun gedrag of hormonale parameters niet.

Associaties met ouderdom zorgen ervoor dat je langzamer beweegt

Deelnemers aan het experiment werden gevraagd om verschillende puzzels op te lossen. Als er woorden in werden ingevoegd die geassocieerd zijn met ouderdom - "vergeetachtig", "ouderen", "eenzaam" - dan verlieten de deelnemers de kamer in een langzamer tempo.

In recente proeven werd het experiment slechts in één geval met succes gereproduceerd: als de onderzoekers zelf wisten dat de deelnemers in de tests op hoge leeftijd hintten. Het effect zelf bleef, maar de redenen waren al anders.

Warme voorwerpen maken mensen vriendelijker

Deelnemers aan het experiment mochten een kopje warme of koude koffie voor een korte tijd vasthouden en vervolgens werd gevraagd om de persoonlijkheid van de persoon te beoordelen met behulp van een korte beschrijving. Deelnemers die een warme kop koffie vasthielden, beoordeelden de persoon als sympathieker. In een ander experiment kregen de deelnemers een item in een warme of koude verpakking en vroegen ze het te houden of aan een vriend te geven. Als het item in een warme verpakking was verpakt, zouden deelnemers eerder voor de tweede optie kiezen. Herhaalde experimenten met een grotere steekproef leverden niet zulke resultaten op. Het lijkt erop dat warme kleren je geen altruïst maken.

Wilskracht is uitgeput als we verleidingen weerstaan

Voor de deelnemers aan het experiment werden twee borden geplaatst - met koekjes en radijs. In de eerste groep mochten de deelnemers koekjes eten, en in de tweede groep alleen radijs. Vervolgens werd elke deelnemer gevraagd een onmogelijke puzzel op te lossen. Deelnemers die in het eerste deel van het experiment alleen radijs aten, gaven het veel eerder op dan anderen. Bij herhaalde experimenten werden de resultaten niet bevestigd.

In sommige gevallen nam het vermogen tot zelfbeheersing niet af, maar nam in de loop van de tijd zelfs toe. Veel psychologen vinden het begrip 'wilskracht' nu te simplistisch.

Er is al veel gedaan in de wereldpsychologie om onderzoek betrouwbaarder en reproduceerbaarder te maken. In Rusland moet dit probleem nog worden begrepen.

"In de Russische psychologie hebben de problemen van de crisis vooral te maken met wetenschappelijke jongeren, die grotendeels gericht zijn op de westerse wetenschap", vertelde Ivan Ivanchey, universitair hoofddocent bij RANEPA, aan The Knife. - Controle over de kwaliteit van publicaties in het Russisch is over het algemeen niet erg hoog. De tijdschriften wijzen zelden artikelen af, waardoor er veel onderzoek van lage kwaliteit wordt gepubliceerd. Vaak worden kleine steekproeven gebruikt, wat ook de kans op een succesvolle reproductie verkleint. Het vermoeden bestaat dat, als men de kwestie van de reproduceerbaarheid van Russischtalige werken serieus aanpakt, er veel problemen kunnen worden ontdekt. Maar niemand is hier direct bij betrokken."

In januari 2019 werd bekend dat de Russische regering de eisen voor wetenschappers wat betreft het aantal publicaties fors gaat uitbreiden: het minimum aantal gepubliceerde artikelen per jaar zou met 30-50% moeten groeien.

Wetenschappers van de invloedrijke academische "Juli 1 Club" bekritiseerden het initiatief: "De taak van de wetenschap is niet om het maximale aantal publicaties te produceren, maar om het universum te verkennen en te profiteren van de opgedane kennis voor de mensheid." Hoogstwaarschijnlijk zullen de nieuwe vereisten de omvang van het probleem alleen maar vergroten.

Het verhaal over de reproduceerbaarheidscrisis is geen verhaal over de komende apocalyps en de invasie van de barbaren. Als de crisis niet had plaatsgevonden, zou alles veel erger zijn geweest: we zouden nog steeds verwijzen naar foutief onderzoek in het volle vertrouwen dat we de waarheid kennen. Misschien komt er een einde aan de tijd van gewaagde koppen als 'Britse wetenschappers hebben bewezen'. Maar geruchten dat de wetenschap dood is, moeten enigszins overdreven worden beschouwd.

Aanbevolen: