27. April 2017, 14:46 Uhr Bundestagswahl Wie wir über Umfragen berichten

Politische Umfragen sind in Verruf geraten - auch weil sie unklar kommuniziert werden. Das wollen wir im Bundestagswahlkampf anders machen.





Von Katharina Brunner , Christian Endt, Sascha Goldhofer und Martina Schories

Je näher eine Wahl rückt, desto wichtiger werden politische Umfragen für den Wahlkampf. Wer liegt vorne? Welche Koalitionen sind denkbar? Wer muss um den Einzug in den Bundestag bangen? Verschiedene Institute, die regelmäßig die politische Stimmung abfragen, versuchen, darauf Antworten zu geben.

Doch zuletzt hat ihr Ruf gelitten: Das Brexit-Referendum und die US-Wahl gingen anders aus, als das viele in Deutschland erwartet - oder gehofft - hatten. Das kann zwei Gründe haben:

1. Die Institute, die Umfragen erheben, schaffen es nicht, einen Querschnitt der Bevölkerung zu befragen oder die Menschen machen falsche Angaben. Die Folge: Die Ergebnisse sind falsch.

2. Die Institute und in der Folge auch meistens die Medien berücksichtigen kaum, dass die Ergebnisse der Umfragen mit großer Unsicherheit behaftet sind.

Wie die SZ mit diesen Problemen umgehen will

Jedes Institut hat seine eigenen Methoden, um am Ende auf ein Umfrageergebnis zu kommen. Eine Auswertung der vergangenen drei Bundestagswahlen zeigt, dass die großen Umfrageinstitute unterschiedlich gut darin waren, das Ergebnis der Wahlen vorherzusehen. Es zeigt sich auch: Bei jeder Wahl waren andere Institute besonders nah am tatsächlichen Wahlergebnis. Die SZ errechnet deshalb einen Mittelwert aus den aktuellen Umfragen der großen Institute. Dazu fassen wir die jeweils neuesten Zahlen jedes Instituts zusammen und berechnen einen Mittelwert, wobei wir die einzelnen Umfragewerte entsprechend der Anzahl der Befragten gewichten. Unsere Software bezieht die Daten vom Portal Wahlrecht.de. Dort werden die Ergebnisse aus sieben Quellen gesammelt, die regelmäßig nach der Wahlabsicht fragen: Allensbach, Emnid, Forsa, Forschungsgruppe Wahlen, GMS, Infratest dimap und INSA.

Besser noch lässt sich das zweite Problem lösen. Umfragen sind keine gesicherten Informationen, keine Fakten, sondern immer mit einer Unsicherheit behaftet. Heißt es also beispielsweise: "Die SPD liegt bei 32 Prozent", ist das vermutlich falsch. Richtiger wäre: "Die SPD liegt zwischen 29 und 35 Prozent." Das berücksichtigt das sogenannte Konfidenzintervall. Konkret heißt das: Mit einer Wahrscheinlichkeit von 95 Prozent liegt das Ergebnis in diesem Bereich. Wenn zwei Parteien in einer Umfrage nur einen Prozentpunkt auseinanderliegen, hat das deshalb keine große Aussagekraft. Das wollen wir optisch darstellen.

Wie werden Umfragen erstellt?

Hundertprozentig exakt ließe sich die politische Stimmung nur erfassen, wenn alle Wahlberechtigten befragt würden. Selbstverständlich ist das viel zu teuer und organisatorisch nicht zu leisten. Deshalb stellen die Institute die Frage an eine Stichprobe der Wahlberechtigten - in der Regel etwa ein- bis zweitausend Personen. Indem sie bestimmte Bedingungen bei der Auswahl erfüllen, ist es mathematisch möglich, von 1000 auf ungefähr 60 Millionen Wahlberechtigte in Deutschland zu schließen.

Der erste Schritt ist die Befragung einer zufällig ausgewählten Stichprobe der Bevölkerung. Dabei werden zufällig Telefonnummern angerufen und jeder, der abhebt, nach seiner Meinung gefragt. Viele Institute rufen allerdings nur bei Festnetznummern an. Je jünger Wahlberechtigte sind, desto wahrscheinlich ist es, dass sie nur eine Mobiltelefonnummer haben. Infratest Dimap bezieht deshalb auch Handynummern in ihre Anruflisten mit ein.

Doch die Demoskopen wollen nicht nur ein Meinungsbild über diejenigen erstellen, die ein Festnetztelefon haben und zum richtigen Augenblick zu Hause waren, sondern über die gesamte deutsche Gesellschaft. Die Institute gewichten deshalb die Antworten, die sie erhalten haben, damit sie auf die tatsächliche Bevölkerungsstruktur passen. Sie benutzen dafür beispielsweise Angaben zu Alter, Geschlecht, Bildung oder Wohnort. Jedes Institut hat dafür seine eigene Berechnungen und Annahmen. Selbst wenn die Institute dieselben Befragungsergebnisse hätten, entstünden deshalb wahrscheinlich unterschiedliche Resultate. Die New York Times hat vor der US-Wahl vier verschiedenen Instituten die gleichen Rohdaten gegeben. Herausgekommen sind deutlich unterschiedliche Umfrageergebnisse.

Wie genau diese Berechnungen und Annahmen aussehen, betrachten die Institute als Geschäftsgeheimnis, daher sind die Methoden nicht transparent nachvollziehbar.

Wie entsteht die Unsicherheit in Umfragen?

Im Wesentlichen gibt es zwei Arten von Unschärfe in den Umfragedaten. Die sogenannte statistische Unsicherheit kommt daher, dass für jede Umfrage nur ein Teil der Bevölkerung befragt wird. Zwar bemühen sich die Institute, die Stichprobe so auszuwählen, dass sie ähnlich zusammengesetzt ist wie die Gesamtbevölkerung - etwa in Bezug auf Geschlecht, Alter, Einkommen, Bildungsstand und Wohnort. Aber es bleibt eben nur eine Stichprobe. Je mehr Menschen befragt werden, desto geringer wird die Abweichung. Um die Abweichung zu halbieren, müssen allerdings viermal so viele Leute befragt werden.

Die zweite Art von Unsicherheit entsteht durch systematische Fehler und lässt sich auch durch zusätzliche Befragte nicht beheben. Dazu tragen viele verschiedene Faktoren bei. So sind manche Wählergruppen besser telefonisch zu erreichen als andere. Manche Wähler, beispielsweise die der AfD, bekennen sich am Telefon möglicherweise nicht zu ihrer bevorzugten Partei. Und viele Menschen wissen Monate vor der Bundestagswahl schlicht noch nicht, wo sie ihr Kreuz machen werden, ändern ihre Meinung später noch mal oder gehen nicht zur Wahl. Wenn das Wahlergebnis schon lange im Voraus feststehen würde, müssten die Parteien schließlich überhaupt keinen Wahlkampf führen.

Die erste Art der Unsicherheit lässt sich berechnen - sie ist in den SZ-Grafiken dargestellt. Die zweite Kategorie der systematischen Fehler lässt sich allerdings nicht genau erfassen. Tatsächlich sind die Zahlen also noch unsicherer als unsere Grafiken suggerieren.

Wie gut ist die Methode?

Wenn vor einer Wahl einige Umfrageinstitute den tatsächlichen Erfolg einer Partei unterschätzen und andere ihn überschätzen, käme der gewichtete Mittelwert dem tatsächlichen Ergebnis näher. Wenn wie bei der Wahl im Saarland alle Institute den Erfolg der CDU unterschätzen, kann natürlich auch die SZ-Berechnung diesen Fehler nicht ausgleichen. Der gewichtete Mittelwert bedingt dann sogar zwangsläufig, dass es ein Institut gibt, das den Wahlausgang genauer vorhersagt. Doch auch in diesem Fall weiß vorher niemand, welches Institut das sein wird - weshalb der gewichtete Mittelwert die beste Annäherung ergibt. Außerdem zeigen wir die Unsicherheit, mit denen die Zahlen behaftet sind. Die Zahlen sind also nicht zwingend besser, aber in jedem Fall ehrlicher.

Wir wollen in den kommenden Wochen und Monaten weiter an unserer Methode arbeiten. Die aktuelle Version verstehen wir als Beta-Version. So wird in der Software-Entwicklung ein vorläufiges Ergebnis genannt, das vermutlich noch weiter verbessert werden kann.

Den Code und die Daten finden Sie auf der Plattform Github.