Psychologie: Im Kopf der Soldaten

Die Katastrophe eines Krieges zerreißt Menschen in jeglicher Hinsicht. Auch wer dieser extremsten aller Extremsituationen körperlich unversehrt entrinnt, kann seelisch zerstört sein, als Soldat, als Zivilist, als Mensch. Armeen trainieren seit jeher ihre Soldaten, um in den Maximalstresssituationen eines Gefechtes zu funktionieren - um zu überleben und auch, um effektive Kämpfer zu sein. Dazu brauchen Militärs präzise Kenntnisse über den menschlichen Geist. Nur wer weiß, wie Soldaten ticken, kann sie adäquat schulen. Aber wie es aussieht, hat die Wissenschaft bisher zu wenig verlässliche Informationen geliefert und das beschäftigt nun das US-Militär.

In den vergangenen Jahren ist schmerzhaft klar geworden, dass sich viele psychologische Experimente nicht replizieren lassen. Mehrere große Projekte, in denen teils Hunderte Forscher gemeinsam zahlreiche Studien wiederholten, konnten oft die ursprünglichen Ergebnisse nicht bestätigen. Und so wurde immer häufiger über die Frage gestritten, ob man Forschungsergebnissen überhaupt noch vertrauen kann.

Psychologie Was einen guten Therapeuten ausmacht — Psychologie

Was einen guten Therapeuten ausmacht

Was unterscheidet einen guten Psychotherapeuten von einem schlechten? Lange interessierte sich niemand dafür. Doch langsam zeichnet sich ab, was den Unterschied ausmacht. Von Jan Schwenkenbecher

Seit nun immer mehr Forscher auf das Problem aufmerksam geworden sind, suchen auch immer mehr Forscher nach Auswegen. Genau hier hat sich nun ein ganz besonderer Akteur in die Debatte um die Replikationskrise eingeschaltet: die Darpa, das Forschungsinstitut des US-Verteidigungsministeriums. Unter dem Namen Score (Systematizing Confidence in Open Research and Evidence) hat die Darpa ein Projekt gestartet, um einen Algorithmus zu entwerfen, der die Verlässlichkeit wissenschaftlicher Studien vorhersagt.

Die Darpa lässt einen Algorithmus bauen, der die Zuverlässigkeit einer Studie beurteilen soll

"Es ist schwer, sich ein Problem vorzustellen, das für die nationale und internationale Sicherheit von Bedeutung ist, das nicht auf irgendeine Weise von menschlichem Sozialverhalten, Institutionen oder Überzeugungen beeinflusst wird", sagt Adam Russell, Leiter des Score-Projekts. Die Zweifel an vielen Ergebnissen in den Sozial- und Verhaltenswissenschaften würden deren effektive Verwendung behindern. Soldaten sind auch nur Menschen, und darum interessiert sich das US-Verteidigungsministerium für deren Erleben und Verhalten und dafür, welchen Studien man da eigentlich trauen kann. Wie sieht gutes Führungsverhalten aus? Welche Therapie hilft Traumatisierten am besten? Welche Konflikte entstehen in Teams?

Die Darpa setzt das Projekt nicht allein um, sondern sucht sich jede Menge Schützenhilfe aus der Forschung - allein 7,6 Millionen Euro soll das Center for Open Science als Projektpartner bekommen, das schon zahlreiche Großprojekte zur Replikationskrise umgesetzt hat.

Um den Algorithmus zu bauen, wird das Center for Open Science zunächst mal 30 000 wissenschaftliche Behauptungen, die zwischen 2009 und 2018 in mehr als 60 verschiedenen Fachmagazinen erschienen sind, in eine riesige Datenbank zusammentragen. Zu 3000 der so gesammelten Studien sollen anschließend Metadaten gesammelt werden, wie etwa die Versuchsteilnehmerzahl, die Anzahl der Zitationen oder die statistische Auswertungsmethode. Dann sollen Forscher knapp 300 der codierten Studien replizieren oder reproduzieren. Sie werden also entweder komplett wiederholt oder anhand der vorliegenden Daten nachgerechnet. Mehr als 500 Wissenschaftler haben sich bereits angemeldet.

"Confidence: Good", 730 Punkte

Dabei kommt es dann zum heiklen Teil, der sich in einem Wettstreit zwischen Mensch und Maschine äußern wird: Sowohl Forscher als auch der Algorithmus sollen vorhersagen, welche Studien sich replizieren lassen. Dass Menschen, also Experten, das ziemlich gut können, das zeigte eine im August vergangenen Jahres im Fachmagazin Nature Human Behaviour publizierte Studie.

Forscher hatten 21 Studien repliziert, die zwischen den Jahren 2010 und 2015 in Nature und Science erschienen waren - in immerhin 13 Fällen gelang das - und hatten andere Wissenschaftler zuvor gebeten, sich die Studien anzuschauen und zu schätzen, ob sie sich replizieren ließen. Das schafften sie bei 18 von 21 Studien. Braucht es den Darpa-Algorithmus dann überhaupt? "Sollten wir Algorithmen bekommen, die genauso gute oder sogar bessere Vorhersagen treffen wie Menschen, dann haben wir uns ein sehr mächtiges Werkzeug gegeben", sagt Tim Errington, der beim Center for Open Science die Forschungsabteilung leitet.

In einer Projekt-Präsentation von Adam Russell, mit der er Interessenten das Projekt im Juni 2018 vorstellte, ist ein Bild zu finden, das zeigt, wie das Ergebnis des Algorithmus' künftig einmal aussehen könnte. "Confidence: Good" steht da, daneben der Punktewert 730. Ein Pfeil sortiert diesen Wert auf einer Skala von 300 bis 850 Punkten ein. Nebendran stehen Schulnoten für "Replizierbarkeit" und "Reproduzierbarkeit". Ob die Prüfung einer Studie in drei Jahren auf diese Weise ausgedrückt wird, steht noch nicht fest. Das Bild zeigt, was der Algorithmus am Ende liefern soll: einen Punktewert - einen Score.

Und was passiert, wenn die Forscher tricksen?

Was die Frage aufwirft, ob ein Punktewert für verlässliche Wissenschaft das ist, was der Forschung gefehlt hat? Schließlich arbeiten die Open-Science-Anhänger daran, sich von Bewertungen durch Zahlen wie den Impact Factor oder die Anzahl der Publikationen im Lebenslauf freizumachen. Was also, wenn künftig Forscher ihre Arbeit anhand dieses Wertes ausrichten?

Er werde oft gefragt, was passiere, wenn Forscher anfingen, das System auszutricksen, sagt Errington. "Aber wenn Forscher 'tricksen', indem sie ihre Daten teilen, ihre Forschungspläne transparent machen und ihre Studien präregistrieren, ist das dann nicht eine gute Sache?" Eine erste Herausforderung zeichnet sich aber auch jetzt schon ab: Umgekehrt müsse man allerdings aufpassen, so Errington, dass das System nicht gut gemachte, innovative Forschung mit wenigen Punkten bestrafe, weil es zu neuen Fragen noch keine Erfahrungswerte gibt. Deswegen müsse man den Algorithmus stets anpassen. Schließlich gelte ohnehin: "Wenn das Programm dazu führt, dass Forscher offener werden und damit die Effizienz der Wissenschaft steigern, dann wird der Punktewert irgendwann ohnehin nutzlos."