Das magische P

Der wichtigste Buchstabe im Leben vieler Forscher ist das P. Die Größe von P entscheidet, ob eine Studie publiziert wird, ob man Fördergelder oder akademische Titel erhält und in welcher Stadt die Kinder zur Schule gehen. Unterschreitet P die traditionelle Grenze von fünf Prozent, dann ist ein Forschungsresultat "statistisch signifikant". Dann steht es bereit für den Übertritt in den Wissensschatz der Menschheit.

Leider ist nicht klar, was P genau bedeutet. Bekannt ist nur die humorlose technische Definition: P steht für probability, und der P-Wert ist die Wahrscheinlichkeit, das vorliegende oder ein extremeres Studienergebnis zu erhalten, wenn eine sogenannte Nullhypothese zutrifft. Und eine Nullhypothese besagt meist das Gegenteil von dem, woran wir eigentlich interessiert sind. Untersuchen wir die Wirkung eines Medikamentes, nehmen wir als Nullhypothese also an, dass es unwirksam ist. P ist dann die Wahrscheinlichkeit, die beobachtete Wirkung zu messen, wenn es in Wahrheit gar keine Wirkung gibt. Liegt diese Wahrscheinlichkeit unter fünf Prozent, nennen wir die Wirkung signifikant.

Die Geschlechtsunterschiede bei der Ruflänge der Zwerghamster werden einfach plattgemacht

P zeigt also, wie vereinbar die beobachtete Wirkung mit der Wirkungslosigkeit ist. Und was sagt P nun über die tatsächliche Wirkung des Medikamentes? In einem sehenswerten Videoclip erklärt der renommierte Statistiker Steven Goodman: "Ich habe meine gesamte wissenschaftliche Laufbahn mit der Definierung des P-Wertes verbracht, aber ich kann Ihnen nicht sagen, was er wirklich bedeutet. Und so gut wie niemand kann das sagen."

Wir wüssten gerne, wie zuverlässig wissenschaftliche Resultate sind, wie replizierbar ein Ergebnis ist oder wie wahrscheinlich wir danebenliegen. All das kann der P-Wert nicht messen, obwohl viele Forscher fälschlich annehmen, er könne das. Erfunden wurde P, um glaubwürdige Ergebnisse von zufälligen Mustern zu unterscheiden. Inzwischen erweist sich, dass der P-Wert zu unzuverlässig ist, um glaubwürdig über Zuverlässigkeit zu informieren. Denn der P-Wert ist eine statistische Variable wie jede andere, er schwankt von Stichprobe zu Stichprobe, auch wenn sie alle aus demselben Datenpool entnommen werden. "Der launische P-Wert erzeugt nicht-reproduzierbare Resultate", so der Titel einer Studie von Lewis Halsey in der Zeitschrift Nature Methods.

Der wichtigste Buchstabe hat einen flatterhaften Charakter. Das ist bemerkenswert, denn auf die Größe von P verlassen sich nicht nur Wissenschaftler bei ihrer Karriereplanung, sondern auch die Industrie bei der Auswahl von Nahrungsmittelzusätzen und Ärzte bei der Entscheidung über die beste Behandlung.

Seit Sir Ronald Fisher 1925 den P-Wert zur allgemeinen Anwendung empfahl, tobt ein Glaubenskrieg um den Sinn von P. Hunderte Publikationen beschäftigen sich mit dem Für und vor allem mit dem Wider. Trotzdem steigt der Anteil der biomedizinischen Publikationen, die P-Werte enthalten, immer weiter an.

Vergangenes Jahr versammelte die American Statistical Association rund dreißig Experten, um Empfehlungen für den Gebrauch von P-Werten zu geben. Das Positionspapier entstand nach harten Diskussionen und klingt verdächtig nach Kompromiss. Aber es enthält Sätze wie den folgenden: "Die weit verbreitete Benutzung von ,statistischer Signifikanz' als Lizenz, Anspruch auf eine wissenschaftliche Erkenntnis zu erheben, führt zu beträchtlicher Verzerrung der wissenschaftlichen Verfahren."

Tatsächlich ist wohl nicht der P-Wert an sich das Hauptproblem, sondern die "Degradierung von P-Werten in signifikant und nicht-signifikant", wie Sander Greenland und sechs weitere Experten in einer Nachfolgepublikation schreiben. Signifikanz ist mindestens so unzuverlässig wie der P-Wert, denn schließlich ist sie dadurch definiert, dass der launische P-Wert kleiner ist als fünf Prozent.

Zudem kann man mit einfachen Berechnungen zeigen, dass Signifikanz schlecht replizierbar ist. Die Wahrscheinlichkeit ist groß, dass zwei Studien einander scheinbar widersprechen, weil eine signifikant ist und die andere nicht - auch wenn der untersuchte Sachverhalt tatsächlich zutrifft. Das bedeutet, dass Signifikanz oder Nicht-Signifikanz einer Studie nicht dazu benutzt werden kann, eine frühere Studie zu bestätigen oder zu widerlegen. So manche auf den ersten Blick fehlgeschlagene Wiederholungsstudie zeigt vielleicht gar nicht, dass die Forschung unzuverlässig ist, sondern dass ein falsches Kriterium für die Beurteilung benutzt wurde.

Ronald Fisher schrieb 1937: "Kein einzelnes Experiment, wie signifikant auch immer, kann für den experimentellen Nachweis eines natürlichen Phänomens genügen." Replizierbarkeit von Resultaten kann nur dadurch gemessen werden, dass man Studien wirklich repliziert, mehr als einmal. Wissenschaftlicher Fortschritt entsteht durch das Zusammenführen von Wissen aus vielen unabhängigen Studien, von denen jede einzelne die Wirklichkeit so unverzerrt widerspiegeln sollte wie möglich.

Aber die Anwendung von Schwellenwerten wie "P kleiner fünf Prozent" verzerrt die Interpretation der Ergebnisse. Der Schwellenwert verleitet dazu, die Zuverlässigkeit von Resultaten mit kleinen und signifikanten P-Werten zu überschätzen. Gleichzeitig werden Ergebnisse mit größeren und nicht-signifikanten P-Werten oft dazu missbraucht, zu zeigen, dass ein Zusammenhang oder ein Unterschied null beträgt. Etwa jede zweite publizierte Studie führt einen solchen Beweis der Nullhypothese durch und begeht damit eine statistische Kardinalsünde.

Wie absurd ein solcher Beweis ist, das kann man auch ohne statistische Vorbildung beim Lesen der Publikationen erkennen. Hier ein willkürlich aus der Zeitschrift Animal Behaviour entnommenes Beispiel: "Es gab keinen Geschlechtsunterschied in der durchschnittlichen Dauer der Ultraschall-Rufe (Weibchen: 99,7 Millisekunden; Männchen: 76,8 Millisekunden; P = 0,104)". Der P-Wert beträgt 10,4 Prozent, ist also nicht signifikant, und darum wird der Unterschied zwischen Weibchen und Männchen des Dsungarischen Zwerghamsters einfach plattgemacht.

Auch in vielen Vorträgen werden Grafiken, die augenfällige aber nicht-signifikante Unterschiede zeigen, als Beweise präsentiert, dass es keine Unterschiede gab. Und das geschieht nicht mit schlechtem Vorsatz, sondern weil Forscher ein binäres Signifikanz-Denken gelernt haben, in dem Zusammenhänge "entweder als null oder als real existierend behandelt werden", wie der Statistiker Andrew Gelman sagt.

In ihrem Buch über den "Kult der statistischen Signifikanz" schreiben Stephen Ziliak und Deirdre McCloskey, unter anderem der Beweis der Nullhypothese koste uns "Jobs, Gerechtigkeit und Leben". Sie zitieren das Beispiel einer klinischen Studie über das Schmerzmittel Vioxx. Im Verlauf der Studie erlitten zehn Patienten, die das Schmerzmittel nahmen, einen Herzinfarkt oder eine ähnliche Erkrankung. In der Vergleichsgruppe, die ein anderes Medikament bekam, erkrankten nur sieben Patienten. Weil aber das Ergebnis statistisch nicht signifikant war, folgerten die Forscher, die Resultate zeigten keinen Unterschied. Ein Jahr nach Veröffentlichung dieser Studie nahm die Firma Merck das Schmerzmittel Vioxx vom Markt, weil Forscher in einer weiteren Studie eine Verdopplung des Risikos für Herz-Kreislauferkrankungen gefunden hatten.

Die Anwendung von Schwellenwerten und Signifikanz verzerrt nicht nur die Interpretation, sondern sie produziert schlicht falsche Zahlen. Denn die Lupe der statistischen Signifikanz sieht meist nur Resultate, die zu gut sind, um wahr zu sein. Da vor allem bei kleineren Studien nur die größten Unterschiede oder die stärksten Zusammenhänge signifikant werden, sind signifikante Messgrößen fast immer überschätzt. Wählen Forscher nun aufgrund von Signifikanz oder von anderen Schwellenwerten aus, welche Resultate sie publizieren und interpretieren, dann basieren ihre Schlussfolgerungen auf einem verfälschten Abbild der Wirklichkeit. John Ioannidis schrieb schon 2008 einen Artikel mit dem Titel "Warum die meisten entdeckten wahren Zusammenhänge aufgebläht sind".

Vor zwei Jahren hat die Open Science Collaboration Replikationen von hundert psychologischen Studien veröffentlicht. Zusammenhänge oder Unterschiede waren in den Wiederholungsstudien im Durchschnitt nur halb so groß wie in den Original-Studien. Besonders schlecht replizierbar waren frühere Resultate, die als "überraschend" gewertet wurden.

Wiederholungsstudien haben oft größere Stichproben und werden auch dann veröffentlicht, wenn sie schwache und nicht-signifikante Zusammenhänge finden. Sie sind deswegen vergleichsweise zuverlässig. Pionierarbeiten hingegen werden von prestigeträchtigen Zeitschriften meist nur akzeptiert, wenn sie überraschende Ergebnisse mit starken und signifikanten Zusammenhängen beschreiben. "Das ist eine perfekte Kombination für chronische Wahrheitsaufblähung", schreibt Alex Reinhart in seinem Einführungsbuch "Statistics done wrong". Denn wer sich ausschließlich für die größten und neuesten Effekte interessiert, sieht zwangsläufig nicht den Normalzustand der Welt.

Die zentrale Frage: Welche Daten sind zuverlässig genug, um sich danach zu richten?

Was ist zu tun? Seit Langem empfehlen Statistiker, weniger auf P-Werte zu schielen, sondern vor allem die Daten zu beschreiben. Wenn Rufe von Weibchen im Durchschnitt 99 Millisekunden lang sind und die von Männchen nur 76, dann sollte man zunächst einmal über diesen Unterschied diskutieren. Und die Streuung der Daten, sichtbar gemacht durch Fehlerbalken, gibt eine direktere Auskunft über die Zuverlässigkeit der Durchschnitte als der P-Wert.

Ebenfalls seit Langem wird gefordert, dass alle wissenschaftlichen Ergebnisse veröffentlicht werden, egal wie groß der P-Wert ist. Das ist freilich leicht gesagt. Nicht nur Forscher publizieren gern neue und starke Zusammenhänge mit kleinen P-Werten. Auch Journalisten und Zeitungsleser interessieren sich für den großen Unterschied und das überraschende Resultat. Vermutlich sollten wir lernen, uns für Wiederholungsstudien zu begeistern, die zum x-ten Mal untersuchen, was wir bereits zu wissen glauben. Der Zuverlässigkeit der Forschung erwiesen wir damit einen Dienst.

Es sind spannende Zeiten für die Anwender von Statistik. Anfang September forderten 72 Wissenschaftler in der Zeitschrift Nature Human Behaviour, den Schwellenwert des P-Wertes von fünf Prozent auf fünf Promille zu senken, und es damit schwerer zu machen, ein Resultat als signifikant zu deklarieren. Kommenden Montag erscheint in derselben Zeitschrift eine Entgegnung, nach der Schwellenwerte und statistische Signifikanz nicht neu definiert, sondern abgeschafft werden sollten. Weitere Publikationen mit Dutzenden Autoren sind in Vorbereitung und werden bereits auf Internet-Plattformen herumgereicht.

Die Diskussion um den Schwellenwert von P mag sehr technisch erscheinen, aber sie betrifft uns alle: Es geht um die Beurteilung, welche wissenschaftlichen Resultate zuverlässig genug sind, um uns danach zu richten. Und darum, diese Resultate noch zuverlässiger zu machen. Wohin die Entwicklung führt, ist ungewiss; klar ist nur, dass der willkürlich gesetzte Schwellenwert von fünf Prozent stark unter Beschuss steht.

Und warum lehren Universitäten und Hochschulen weiterhin den Schwellenwert des P-Wertes von fünf Prozent? Ronald Wasserstein und Nicole Lazar von der American Statistical Association geben die Antwort: Weil dieser Schwellenwert nach wie vor von den meisten Forschern benutzt wird. Und warum benutzen Forscher weiterhin den Schwellenwert? Weil das an den Universitäten gelehrt wird.

Es ist an der Zeit, dass jemand den ersten Schritt aus diesem Teufelskreis wagt.