Ein falsches Lächeln

Der Psychologe Fritz Strack hat sein Forscherleben der Frage gewidmet, wie Menschen zu ihren Urteilen gelangen. Denken sie nach oder arbeitet ihr Gehirn automatisch und ohne bewusstes Zutun? An der University of Illinois entwarf Strack mit zwei Kollegen Mitte der 1980er-Jahre ein Experiment dazu, das ihn in Fachkreisen schnell bekannt machen sollte. Er wollte untersuchen, warum sich Menschen, wenn sie lächeln, etwas besser fühlen - und ein unterdrücktes Lächeln das Glücksgefühl dämpft. Wirken die Gesichtsmuskeln direkt auf das Gemüt oder kommt das Urteil "Ich bin glücklich" erst zustande, wenn man sich selbst als lächelnd wahrnimmt? Stracks Experiment, das er 1988 veröffentlichte, sprach für einen engen Zusammenhang von Mimik und Emotion. Die Aktivität der Lachmuskeln verbessert die Stimmung ohne den Umweg über das Denken. Die Studie des vor einem Jahr an der Universität Würzburg emeritierten Forschers gilt heute als Klassiker - und erfährt Aufmerksamkeit, weil die Psychologie eine Krise erlebt: Viele ihrer Studien lassen sich nicht reproduzieren. Werden die Experimente wiederholt, bringen sie häufig nicht das erhoffte Ergebnis, auch im Fall der Versuche von Fritz Strack.

Wird ein Muskel mit Botox gelähmt, hellt sich die Stimmungen der Patienten auf

Für das Experiment entwickelten die Psychologen zwei Tricks, um die Lachmuskeln zu aktivieren und ein Lächeln zu unterdrücken - ohne, dass es die Probanden merken. Dazu täuschten sie vor, die Motorik von Menschen zu untersuchen, die einen Stift nicht in der Hand halten können. Ihre 92 Versuchspersonen sollten ausprobieren, wie gut man mit dem Mund malen und schreiben kann. Nach einigen Aufgaben zum Einüben mussten sie vier Cartoons von Gary Larson bewerten: auf einer Skala von 0 für "überhaupt nicht lustig" bis 9 für "sehr lustig". Die Hälfte der Probanden hielt den Stift zwischen den Zähnen fest, was komisch wirkt, aber letztlich die Lachmuskeln aktiviert. Diese Versuchspersonen bewerteten die Cartoons im Durchschnitt mit 5,1 und lagen damit 0,8 Punkte über den Probanden, die den Stift mit den Lippen hielten - was ein Lächeln unterdrückt und offenbar dazu führt, dass man weniger amüsiert ist.

Die Studie ist heute also ein Klassiker des Fachs, und die Theorie hat sich auch in einem anderen Experiment bewährt: Wenn man den Corrugator-Muskel von depressiven Patienten mit Botox lähmt, hellt sich deren Stimmung auf. Der Corrugator-Muskel zieht sonst die Augenbrauen zu einem Stirnrunzeln zusammen und damit wohl auch die Gefühle nach unten. Doch einige Psychologen rütteln nun am Fundament dieser Theorie: 17 Forscherteams haben das Phänomen in den vergangenen Jahren überprüft und sich dabei - von Fritz Strack beraten - recht genau an den Versuchsablauf aus den 1980er-Jahren gehalten. Ihr Ergebnis ist kürzlich als gemeinsamer Fachartikel erschienen: Keine Gruppe fand einen so deutlichen Effekt wie Strack, und wenn man die Befunde der insgesamt etwa 1900 Probanden zusammenrechnete, gab es keinen Unterschied in der Bewertung der Cartoons. Die umfangreiche Wiederholung konnte die Originalstudie also nicht bestätigen. Der Hauptautor Eric-Jan Wagenmakers von der Universität Amsterdam bezeichnet sie als eine der sorgfältigsten Studien dieser Art in der Geschichte der Psychologie.

Der Versuch von Fritz Strack ist nicht der einzige unter Verdacht. Das Forschernetzwerk "Open Science Collaboration" hat etwa 100 psychologische Experimente geprüft und den Originaleffekt nur in gut einem Drittel der Fälle bestätigen können. In Stracks Themengebiet, der Sozialpsychologie, lag die Quote sogar nur bei 23 Prozent. Seitdem sieht sich das Fach in der Krise. Stimmen die Theorien, die im Psychologiestudium gelehrt werden?

In anderen Disziplinen sieht es ähnlich aus: Auch in der Biomedizin und den Neurowissenschaften scheitern viele Experimente in sogenannten Replikationen, allerdings variiert die Bestätigungsquote von Fach zu Fach. Im präklinischen Bereich - dort werden Medikamente an Zellkulturen und Tieren getestet, bevor sie den ersten Versuchspersonen verabreicht werden - liegt sie bei etwa 50 Prozent.

Die nicht reproduzierbaren Studien kosten in der Biomedizin jedes Jahr viele Milliarden Euro und motivieren zudem weitere Experimente, die mutmaßlich in einer Sackgasse enden. Die Deutsche Forschungsgemeinschaft bezeichnet diesen Befund in einer Stellungnahme als "besorgniserregend" und fordert die Wissenschaft auf, das Problem ernst zu nehmen: "Es gefährdet die Leistungsfähigkeit der Wissenschaften ebenso wie das gesellschaftliche Vertrauen in sie." Für die Biomedizin macht sie als Ursache den gestiegenen Wettbewerb in der Wissenschaft aus, der Forscher dazu drängt, aufsehenerregende Ergebnisse wie am Fließband zu produzieren. Gute Forschung, hält sie dagegen, "braucht Zeit, Gelegenheit, Mittel und Personal".

Jetzt sucht die Wissenschaft nach kurzfristigen Lösungen. Auf einem Kongress zur wissenschaftlichen Integrität war in Amsterdam kürzlich zu verfolgen, wie rapide sie sich wandelt. In der Psychologie liegen die Dinge zwar anders als in der Biomedizin - Fritz Strack stand bei seiner Studie nicht unter Druck. Aber auch hier wird gefordert, dass Forscher ihre Experimente künftig vorab registrieren und anschließend die Daten für Kollegen freigeben. Dadurch sollen nicht nur Replikationen vereinfacht werden. Die Registrierung soll verhindern, dass ein Forscher seine Theorie nach dem Experiment an die Daten anpasst. Denn Experimente sollen Theorien testen - und müssen daher auch fehlschlagen können.

Haben jüngere Forscher einfach weniger Skrupel, etabliertes Fachwissen über Bord zu werfen?

In der Breite haben sich diese Maßnahmen zwar noch nicht durchgesetzt: Bisher ermuntern nur einige Dutzend der mehr als 1000 psychologischen Fachjournale ihre Autoren, Experimente zu wiederholen. Doch wichtige Herausgeber haben bereits Zeichen gesetzt und die Anforderungen an ihre Autoren erhöht.

Von einer Krise wollte Daniele Fanelli beim Kongress in Amsterdam daher nicht reden. In seinem Hauptvortrag fragte der Statistiker von der Stanford University, ob die Debatte nicht vielmehr zeige, dass die Wissenschaft funktioniere - und sich bei Bedarf selbst korrigiere.

Über die Korrektur wird freilich gestritten. Wenn zwei gleichartige Experimente zu unterschiedlichen Ergebnissen gelangen, heißt das nicht, dass die Wiederholung stimmt und die ursprüngliche Studie ein falsches - oder gar gefälschtes - Ergebnis präsentierte. Der Widerspruch in den Aussagen müsste daher die Forschung anspornen: Wenn man herausfindet, warum die Wiederholung scheiterte, kennt man einen neuen wichtigen psychologischen Faktor. Die Debatte könnte also dazu führen, dass alte Theorien verbessert werden.

Doch so läuft sie nicht. Fritz Strack kritisiert, dass sich Eric-Jan Wagenmakers gar nicht für den Faktor interessiere, der die Wiederholung scheitern ließ, sondern den Effekt, den Strack in den 1980er-Jahren beobachtete, für flüchtig erklärt - oder gar für irreal. Aus Sicht von Strack kann die Wissenschaft so nicht vorankommen, doch Wagenmakers hat ein anderes Ziel im Blick: "Wir sind mitten in einer Revolution, und am Ende wird unsere Wissenschaft transparenter und besser reproduzierbar sein."

Eine mögliche Erklärung für das Scheitern der Replikation könnte darin liegen, dass Wagenmakers die Probanden während des Experiments filmen ließ, um anschließend alle auszusortieren, die den Stift nicht vorschriftsmäßig hielten. Diese Zusatzbedingung sollte die Versuche stringenter machen, doch damit unterscheiden sie sich von Stracks Original. Strack wartet nun auf die Ergebnisse einer israelischen Forschergruppe, die untersucht hat, ob das Gefilmt-Werden die Selbstwahrnehmung der Versuchspersonen verändert. Mit einem anderen Kritikpunkt wartet er hingegen nicht: Es sei einfach, ein Experiment scheitern zu lassen, wenn man aus Nachlässigkeit oder fehlender Erfahrung Störfaktoren zulasse, sagt er. Versuchsleiter müssten in psychologischen Experimenten umsichtig sein, um die Probanden nicht zu irritieren. "Experimente werden aber auch von Kollegen wiederholt, die noch nie auf dem jeweiligen Feld gearbeitet haben."

Eine Analyse der Texas A&M University zeigt tatsächlich, dass erfahrenere Versuchsleiter in Wiederholungsstudien größere Effekte beobachten als weniger erfahrene. Als Maß für die Erfahrung diente den US-amerikanischen Forschern die Zahl der Fachveröffentlichungen. Doch dass die Psychologen mit einer längeren Veröffentlichungsliste bei Replikationen größere Effekte messen, muss nicht unbedingt mit ihrer Erfahrung zusammenhängen. Es könnte auch sein, dass sie eher darauf bedacht sind, das Forschungserbe zu bestätigen, während die jüngeren Kollegen weniger Skrupel haben, etabliertes Fachwissen über Bord zu werfen.

Auch der 67-jährige Strack hält es für möglich, dass solche Motive eine Rolle spielen - aber man solle sie auf beiden Seiten berücksichtigen, fordert er. "Bisher wurden Motivationen dieser Art immer nur den Autoren der Originalstudien unterstellt, während die Replikationen sozusagen als höchstrichterliche Entscheidung über Wahr oder Falsch präsentiert wurden." Der 45-jährige Wagenmakers sieht hingegen ein neues Zeitalter aufziehen, das Kritiker wie Strack nicht aufhalten können: "Das Fach wird sich bewusst, dass wir nicht mehr in den Achtzigern leben. Das Internet macht es einfach, Daten auszutauschen, Befunde zu diskutieren und Analysen vorab zu registrieren."