Neue Studie: Wie reproduzierbar sind wissenschaftliche Ergebnisse?

Ein internationales Forscherteam unter Beteiligung der Universität Innsbruck hat 21 hochkarätige sozialwissenschaftliche Studien wiederholt. Ihre Ergebnisse zeigen, wie herausfordernd die Reproduzierbarkeit von Ergebnissen ist und schlagen Lösungen zur Verbesserung der Glaubwürdigkeit der Forschung vor. Acht der 21 erneut durchgeführten Studien wiesen keinen signifikanten Beleg für die ursprünglichen Ergebnisse auf. Zudem sind die Effektgrößen der Replikationen um etwa 50 Prozent kleiner als die der ursprünglichen Studien. Die ForscherInnen sind allerdings zuversichtlich, dass die sich derzeit wandelnden Normen in Richtung Transparenz und wissenschaftlicher Strenge die Glaubwürdigkeit veröffentlichter Forschung verbessern werden.

Ein Team von Mitgliedern fünf wirtschafts- und sozialwissenschaftlicher Forschungsgruppen haben aktuell im Fachjournal Nature Human Behaviour die Ergebnisse der Wiederholung von 21 hochkarätigen sozialwissenschaftlichen Experimenten veröffentlicht. Darunter befanden sich mit Felix Holzmeister, Jürgen Huber, Michael Kirchler und Julia Rose auch Forscherinnen und Forscher eines Teams der Universität Innsbruck. Die zu replizierenden Studien wurden ursprünglich in Science und Nature, zwei der renommiertesten wissenschaftlichen Fachzeitschriften, publiziert. Ziel der Forscherinnen und Forscher war, jeweils ein zentrales Ergebnis aus jeder in Frage kommenden, zwischen 2010 und 2015 veröffentlichten Arbeit zu reproduzieren. Um die Aussichten auf erfolgreiche Reproduktion zu erhöhen und die experimentelle Durchführung der Studien so nah wie möglich an den ursprünglichen Studien auszurichten, erhielt das Team die Originalmaterialien und Protokolle von fast allen Originalstudien, bevor die Experimente durchgeführt wurden. Kommentare und Anregungen der Originalautoren wurden in der Umsetzung berücksichtigt und die finalen Protokolle wurden von fast allen Originalautoren befürwortet.

Vorsicht bei statistischer Signifikanz

Jede der 21 Replikationen wurde vor der Durchführung öffentlich registriert, um den experimentellen Ablauf sowie die geplante Auswertung der Daten so transparent wie möglich zu gestalten. Die Replikationsstudien waren derart entworfen, dass sie die ursprünglichen Ergebnisse selbst dann bestätigen würden, wenn die neuen Effekte nur halb so groß wären wie das ursprüngliche Ergebnis. „Um eine hohe statistische Trennschärfe zu gewährleisten, war der durchschnittliche Stichprobenumfang der Replikationsstudien etwa fünfmal größer als der durchschnittliche Stichprobenumfang der Originalstudien“, sagt Felix Holzmeister, einer der Projektleiter.

Das Forscherteam berichtet, dass 13 der 21 Replikationen (62 %) signifikante Ergebnisse aufzeigen, die mit der ursprünglichen Hypothese übereinstimmen. Außerdem zeigen die Replikationsstudien im Durchschnitt Effektgrößen, die etwa 50 % kleiner sind als die der ursprünglichen Studien. „Die Ergebnisse verdeutlichen, dass statistisch signifikante wissenschaftliche Erkenntnisse mit Vorsicht interpretiert werden sollten, solange sie nicht unabhängig reproduziert werden konnten. Und das auch dann, wenn sie in den renommiertesten Fachzeitschriften veröffentlicht werden“, sagt Michael Kirchler, einer der Projektleiter.

Die Weisheit der Vielen

Vor der Wiederholung der Studien richtete das Team Prognosemärkte für andere Forscher ein: Diese konnten, basierend auf ihrer Einschätzung über die Reproduzierbarkeit der jeweiligen Hypothese, auf die Replikationsergebnisse wetten und Geld verdienen (oder verlieren). Interessant dabei: Diese Märkte haben sehr genau vorhergesagt, welche der Studien sich reproduzieren bzw. nicht reproduzieren lassen würden. Für 18 der 21 Wiederholungen wurden die Ergebnisse korrekt vorhergesagt und die Überzeugungen der Marktteilnehmer waren stark mit den Effektgrößen der Replikationen korreliert. Jürgen Huber, ein weiterer Projektleiter, dazu: „Die Ergebnisse der Prognosemärkte deuten darauf hin, dass die Händler die Wahrscheinlichkeit einer erfolgreichen Replikation der Resultate tatsächlich im Voraus einschätzen können.“ Es ist noch nicht klar, welche Faktoren entscheidend für diese Einschätzungen sind, aber zwei Möglichkeiten liegen nahe: Einerseits die Plausibilität des ursprünglichen Befundes, andererseits die Stärke des ursprünglichen statistischen Nachweises. Michael Kirchler ergänzt: „Der Einsatz von Prognosemärkten könnte eine weitere Möglichkeit in der wissenschaftlichen Forschung sein, Ressourcen effizienter zu nutzen und dadurch die Entdeckung von neuen, zuverlässigen Forschungsergebnissen zu beschleunigen.“

Herausforderungen bei Replikation

Diese Studie liefert zusätzliche Belege für die Herausforderungen bei der Reproduktion wissenschaftlicher Arbeiten und geht auf einige Kritikpunkte früherer Replikationsversuche ein. Beispielsweise ist es möglich, dass sich die Ergebnisse aufgrund der hohen Standards und des Prestiges des Verlagshauses besser reproduzieren ließen. In dieser Studie wurden deshalb Arbeiten aus den renommiertesten Fachzeitschriften ausgewählt. Auch eine Kritik am Reproduzierbarkeitsprojekt in der Psychologie deutete darauf hin, dass ein trennschärferes Forschungsdesign und die Nähe zu den ursprünglichen Studien zu höheren Replikationsraten führen könnten. Die aktuelle Studie basiert auf äußerst trennscharfen statistischen Tests, Originalmaterialien für alle bis auf eine Studie und der Befürwortung der experimentellen Protokolle durch die Originalautoren für alle bis auf zwei Studien. „Dass einige der Ergebnisse dennoch nicht reproduziert werden konnten und die Replikationen im Durchschnitt deutlich geringere Effektgrößen aufweisen, zeigt auf, dass selbst eine deutliche Erhöhung der statistischen Güte nicht ausreicht, um alle publizierten Ergebnisse zu reproduzieren“, sagt Co-Autorin Julia Rose.

Dass einige der Ergebnisse nicht reproduziert wurden, bedeutet allerdings nicht, dass die ursprünglichen Resultate falsch sind. „Es ist möglich, dass Fehler in der Replikation oder Unterschiede zwischen der Original- und der Replikationsstudie verantwortlich für ‚Reproduktionsausfälle‘ sind. Die Tatsache, dass die Marktteilnehmer in der Lage waren, Erfolg und Misserfolg im Vorfeld zu prognostizieren, macht diese Erklärungen aber weniger plausibel“, sagte Felix Holzmeister. Die aktuellen Replikationen folgen Best Practices zur Erhöhung der Sorgfalt und Reproduzierbarkeit der Forschung. „In diesem Projekt sind wir mit gutem Beispiel vorangegangen und haben die höchsten Standards von wissenschaftlicher Rigorosität und Transparenz verfolgt, um die Reproduzierbarkeit und Robustheit von Studien in unserem Bereich zu testen“, ergänzt Michael Kirchler.

Das Wesen der Wissenschaft

Einer der Projektleiter, Brian Nosek, Exekutivdirektor des Center for Open Science und Professor an der University of Virginia, merkt an: „Jemand, der diese Fehler beobachtet, könnte zu dem Schluss kommen, dass die Wissenschaft in die falsche Richtung geht. Die größte Stärke der Wissenschaft ist ihre ständige Selbstkontrolle, um Probleme zu erkennen und zu korrigieren.“ Dieses groß angelegte Replikationsprojekt ist nur ein Teil einer laufenden Reform der Forschungspraktiken. Forscher, Förderinstitutionen, Fachjournale und Gesellschaften ändern derzeit ihre Politik und Praxis, um die Forschungskultur zu mehr Offenheit, Rigorosität und Reproduzierbarkeit zu bewegen.

Eine umfassende Informationsseite zum aktuellen Projekt mit Kontakten, relevanten Artikeln, Links zu den Artikeln und ergänzenden Materialien finden Sie hier (englisch).

Publikation:

Colin F. Camerer, Anna Dreber, Felix Holzmeister, Teck-Hua Ho, Jürgen Huber, Magnus Johannesson, Michael Kirchler, Gideon Nave, Brian A. Nosek, Thomas Pfeiffer, Adam Altmejd, Nick Buttrick, Taizan Chan, Yiling Chen, Eskil Forsell, Anup Gampa, Emma Heikensten, Lily Hummer, Taisuke Imai, Siri Isaksson, Dylan Manfredi, Julia Rose, Eric-Jan Wagenmakers, Hang Wu: Evaluating the replicability of social science experiments in Nature and Science between 2010 and 2015, Nature Human Behaviour 2018, http://dx.doi.org/10.1038/s41562-018-0399-z