Das Prinzip des Pi-mal-Daumen

Die jüngsten Landtagswahlen lösten wieder eine Lawine von Umfrage-Ergebnissen der Wahl- und Meinungsforschung aus. Statistiken und Diagramme suggerieren strengste Objektivität. Gleichzeitig redet fast niemand darüber, wie die Daten eigentlich zustande kommen. Der Soziologieprofessor Andreas Diekmann lehrt an der ETH Zürich und gilt als einer der profiliertesten empirischen Sozialforscher der Gegenwart.

SZ: Herr Diekmann, wie seriös gehen Meinungsforschungsinstitute wie die Forschungsgruppe Wahlen oder Infratest / Dimap in ihrer Arbeit tatsächlich vor?

Andreas Diekmann: Auf jeden Fall sind sie bei Weitem nicht so untadelig, wie sie uns glauben machen wollen.

Bekommen Sie denn als Forscher oft Bauchschmerzen, wenn Sie dann erleben, wie ernst Umfrageergebnisse genommen werden?

Nun ja, Umfragen können schlicht beeinflussen, wo ein Wähler sein Kreuz macht. Wenn Umfragen etwa einen Trend übertreiben, können Wähler dazu neigen, sich dem Trend anzuschließen. Die Prognose erfüllt sich dann selbst. Bei kleinen Parteien, von denen mittlerweile ja häufig Regierungskoalitionen abhängen, können kleine Prognose-Unterschiede große Wirkungen haben. Wenn eine Partei wie die FDP faktisch unter der Fünf-Prozent-Hürde liegt, die Umfrage aber suggeriert, dass sie darüber liegt, kann das womöglich CDU-Wähler davon abhalten, eine Leihstimme zu vergeben. Dann killt sich die Prognose selbst.

Ist die Exaktheit, die die Wahlforschung suggeriert, also nichts als eine Illusion?

Na ja, bei allen Messungen gibt es Messfehler. Der Skandal bei der politischen Meinungsforschung ist, dass man die Datenermittlung nicht unabhängig nachvollziehen kann. Auf der Homepage der "Initiative Markt- und Sozialforschung" steht: "Unsere Umfragen sind wissenschaftlich, objektiv, nachvollziehbar und wiederholbar." Doch das ist schlicht nicht der Fall.

Warum nicht?

Weil wir weder die Ausschöpfungsquote der Umfragen noch das Gewichtungsverfahren kennen. Bei wissenschaftlichen Umfragen sind alle Schritte der Datenerhebung transparent. Bei kommerziellen Wahlumfragen nicht. Öffentlich wird nur gemacht, wie groß die Stichprobe ist. Beim "Politbarometer" der Forschungsgruppe Wahlen besteht die Stichprobe zum Beispiel aus 1000 Befragten im Westen und 700 im Osten. Die Forschungsgruppe Wahlen informiert im Unterschied zu anderen Instituten allerdings immerhin über die ungewichteten Rohdaten. Ich fordere vor allem, dass Institute transparenter über ihre Methoden informieren. Sonst tragen sie die Bezeichnung "wissenschaftlich" zu Unrecht.

Was ist denn die Ausschöpfungsquote?

Das ist, vereinfacht gesagt, der Anteil der Befragten in der Stichprobe, die den Interviewern des Befragungsinstituts tatsächlich Auskunft gegeben haben. Ein Großteil der Personen der Stichprobe ist nämlich gar nicht erreichbar oder verweigert das Interview.

Und was ist das Problem einer zu niedrigen Ausschöpfungsquote?

Es liegen irgendwann keine echten Zufallsstichproben mehr vor. Die ganze Statistik beruht jedoch auf der Annahme einer Zufallsstichprobe. Unproblematischer sind Hochrechnungen bei den sogenannten Exit-Polls, dabei handelt es sich um Befragung von Wählern, nachdem sie gerade das Wahllokal verlassen haben. Die meisten Umfragen finden jedoch per Telefon statt.

Gibt es denn auch einwandfreie Umfragen, die die Bezeichnung wissenschaftlich zu Recht tragen?

Landesweite Umfragen, die exakt dem Lehrbuch entsprechen, gibt es nicht. Eine nach wissenschaftlichen Maßstäben durchgeführte Referenz-Umfrage ist etwa der Allbus, die "Allgemeine Bevölkerungsumfrage" von Gesis, dem Leibniz-Institut für Sozialwissenschaften in Köln, einem öffentlich finanzierten Institut. Diese Erhebung wird zur Ermittlung von Daten über Einstellungen, Verhaltensweisen und Sozialstruktur der Bevölkerung Deutschlands seit 1980 alle zwei Jahre durchgeführt. Detaillierte Methodenberichte sorgen für Transparenz. Daher wissen wir, dass in den Achtzigerjahren die Ausschöpfungsquoten bei rund 70 Prozent lagen und seither stetig gesunken sind. Heute hat selbst diese Erhebung nur noch Ausschöpfungsquoten von unter 40 Prozent. Obwohl es nach wie vor eine sehr aufwendige Umfrage ist, die nach allen Regeln der Kunst, methodisch streng kontrolliert und mit viel Zeit durchgeführt wird. Die Teilnehmer werden vorher angeschrieben und erhalten eine kleine Belohnung für die Mühe. Es wird also maximaler Aufwand betrieben, um die Stichprobe so gut wie möglich auszuschöpfen.

Diagrammtorte — Offenbar nehmen sehr viel weniger Menschen an den Umfragen teil, wie die Institute suggerieren. Das hat Auswirkungen. *Grafik: SZ*

Hat heute keiner mehr Lust darauf, an Umfragen mitzumachen?

Offenbar. Die Antwortbereitschaft ist im Laufe der vergangenen Jahrzehnte stark gesunken.

Woran liegt das?

Das Bewusstsein für den Datenschutz ist gestiegen. Viele Leute haben auch einfach keine Lust mehr, weil Umfragen oft für Marketing missbraucht wurden. Darunter leiden dann die seriösen Umfragen. Vor allem gibt es inzwischen aber auch einfach sehr, sehr viele Umfragen, insbesondere im Internet.

Was bedeutet es denn für die kommerzielle Meinungsforschung, wenn selbst bei der Allbus-Umfrage die Ausschöpfungsquote unter 40 Prozent liegt?

Die Qualität leidet natürlich. Denn mit einem vergleichbaren Aufwand und vergleichbar viel Zeit kann dort aus Kostengründen nicht vorgegangen werden. Gute Daten sind eben teuer. Ein kurzes telefonisches Interview kostet so um die 20 bis 30 Euro. Wenn man sich an andere Umfragen mit ein paar Fragen dranhängt, ist es noch billiger. Bei Allbus kostet ein persönliches, also nicht telefonisches Interview eher 200 bis 300 Euro. Eine wirklich gute, landesweite Umfrage mit 3000 Befragten kostet dann leicht eine Million Euro und mehr.

Wie hoch sind denn nun Ihrer Meinung nach die Ausschöpfungsquoten bei den Wahlumfragen?

In der Schweiz haben wir durch Insidertipps und etwas Detektivarbeit Hinweise auf eine Ausschöpfungsquote für Umfragen vor Abstimmungen von etwa 20 Prozent.

Das heißt also: Von 100 Menschen, die man hätte befragen müssen, um so gut zu sein, wie man vorgibt, haben nur 20 Auskunft gegeben.

So ist es. Wobei die deutschen Institute mit einem Zufallsverfahren Telefonnummern generieren, um auch die im Telefonbuch nicht eingetragenen Haushalte erreichen zu können. Es existiert also nicht vorab eine Liste der Stichprobe, sodass streng genommen die Ausschöpfung gar nicht berechenbar ist. Man könnte aber angeben, wie viele der kontaktierten Haushalte Antwort geben oder ein Interview verweigern. Aber alle diese Angaben werden nicht gemacht. Womöglich liegt die Ausschöpfung noch unter 20 Prozent. Das möchten die Institute aber lieber für sich behalten.

Und wie beeinflusst das die Qualität der Ergebnisse?

Eine geringe Ausschöpfungsquote muss nicht zwangsläufig heißen, dass die Ergebnisse verzerrt sind, aber die Gefahr systematischer Fehler ist doch sehr groß. Und es kommen natürlich noch andere Fehlerquellen hinzu. Wenn die "Großwetterlage" insgesamt stabil ist, liegt man vielleicht noch richtig, aber wenn die Parteienlandschaft ins Rutschen kommt und Umbrüche passieren, erlebt die Meinungsforschung oft ein Fiasko, nicht anders als die Analysten an den Finanzmärkten.

So wie jetzt bei den Landtagswahlen?

Durchaus. Insbesondere wurden in allen drei Ländern die Stimmen für die AfD unterschätzt. In Sachsen-Anhalt waren die Umfragewerte noch am Vortag der Wahl bei 18 Prozent, das Endergebnis der AfD war mit 24 Prozent um ein ganzes Drittel höher, in Baden-Württemberg wurden 11 Prozent prognostiziert, am Ende hatte die AfD 15 Prozent, und in Rheinland-Pfalz waren die Vorhersagen auch nicht viel besser.

Wie machen denn Institute wie die Forschungsgruppe Wahlen oder Infrates t/ Dimap ihre Umfragen?

Im Prinzip handelt es sich bei den Wahlumfragen um eine zweistufige Zufallsauswahl. Auf der ersten Stufe geht es um die Auswahl des Haushalts, auf der zweiten um die Auswahl der zu befragenden Person. Allerdings nimmt man heute nicht mehr einfach die im Telefonbuch enthaltenen Nummern, sondern erzeugt Telefonnummern mit einem Zufallsverfahren. So erwischt man auch die nicht eingetragenen Festnetzanschlüsse.

Wahlen: Andreas Diekmann, 1951 geboren in Lübeck, studierte Soziologie, Psychologie und Methodenlehre in Hamburg und Wien. Neben der empirischen Soziologie beschäftigt er sich mit der Spieltheorie und Umweltsoziologie. — Andreas Diekmann, 1951 geboren in Lübeck, studierte Soziologie, Psychologie und Methodenlehre in Hamburg und Wien. Neben der empirischen Soziologie beschäftigt er sich mit der Spieltheorie und Umweltsoziologie.
(Foto: Privat)

Aber keine Mobiltelefone?

Nein, da haben wir ein weiteres Problem. Aber bleiben wir kurz noch beim zweistufigen Verfahren: Wenn man dann die Nummer wählt, dann wird nicht die Person befragt, die ans Telefon geht, sondern zum Beispiel das wahlberechtigte Haushaltsmitglied, das zuletzt Geburtstag hatte.

Warum so kompliziert, bei einem Festnetzanruf kann man heutzutage doch schon froh sein, wenn überhaupt jemand drangeht?

Die Zufallsauswahl der im Haushalt letztlich zu befragenden Person soll Verzerrungen ausschließen. Man kann ja nicht einfach die Person interviewen, die gerade den Hörer abnimmt. Wenn man mittags Festnetzanschlüsse anruft, wird man eher nicht Erwerbstätige erwischen. Es sollen aber keine Bevölkerungsgruppen überrepräsentiert sein. Deshalb wird in Mehrpersonenhaushalten in einer zweiten Stufe zufällig ein wahlberechtigtes Haushaltsmitglied ausgewählt. Pech hat man, wenn derjenige das Gespräch dann verweigert oder gerade nicht da ist. Dann muss man einen Termin ausmachen, was oft auch nicht funktioniert. Dadurch sinkt die Teilnahmequote noch weiter.

Und warum werden immer noch nur Festnetzanschlüsse angerufen?

Bei bundesweiten Befragungen greifen einige Institute auch auf Mobiltelefonnummern zurück. Aber bei Umfragen für Landtagswahlen wäre das zu aufwendig, weil eine Mobiltelefonnummer keinen Hinweis darauf enthält, wo eine Person gemeldet ist. Man müsste dann schon sehr viele Leute anrufen, um Teilnehmer aus dem jeweils richtigen Bundesland zu erreichen.

Über das Festnetz erreicht man vermutlich vor allem ältere Bürger?

Jüngere Leute, hochmobile Menschen, Einpersonenhaushalte erreicht man schwerer, selbst wenn es im Haushalt einen Festnetzanschluss gibt und sie auskunftsbereit wären. Aber die eher jüngeren Leute, die nur ein Handy haben, konnten bei den Umfragen zu den Landtagswahlen überhaupt nicht befragt werden.

Wären Online-Umfragen leichter?

Bei speziellen Gruppen, etwa einer Betriebsbefragung, schon. Aber nicht bei Wahlumfragen, denn da wären die Stichproben noch viel verzerrter. Man würde viele ältere Wähler nicht erreichen. Deshalb verlässt sich auch bei Wahlen kaum ein Institut auf Online-Umfragen.

Ist es eigentlich Zufall, dass die Institute ihre Prognosen selten Prognosen, sondern lieber Stimmungsbilder oder Momentaufnahmen nennen?

Nun, sie sagen, viele Wähler sind noch unschlüssig, ändern ihre Meinung, entscheiden sich erst in der Wahlkabine. Andererseits müssten Umfragen kurz vor der Wahl genauer werden, zumal schon bis zu einem Viertel der Wähler per Briefwahl abgestimmt hat. Dennoch lagen auch die Umfragen vom Vortag der Wahl daneben. Auffallend ist, das wieder zu beobachten war, was der Statistiker Fritz Ulmer schon in den Neunzigerjahren festgestellt hat: Die Meinungsforschungsinstitute liegen meistens gemeinsam richtig oder falsch. Die Voraussagen liegen oft extrem eng beieinander. In Sachsen-Anhalt etwa haben die Forschungsgruppe Wahlen und Forsa der AfD 18 Prozent prognostiziert, und Insa 19. Das Ergebnis der SPD in Rheinland-Pfalz haben alle relativ gut getroffen, aber ebenso gemeinsam geirrt beim Abschneiden der CDU. Wenn aber alle - wie sie behaupten - Zufallsstichproben nehmen, kann es rein statistisch gar nicht sein, dass alle zu so ähnlichen Ergebnissen kommen. Die Unterschiede müssten viel größer sein.

Warum sind sie es nicht?

Weil eben die Rohdaten der Befragungen nicht veröffentlicht werden, sondern nur gewichtete Zusammenfassungen.

Was heißt das?

Die ermittelten Werte werden noch einmal nach oben oder unten verändert. Beruhen die Gewichte auf dem vorher festgelegten Stichprobenplan, so ist das korrekt. In der Regel verwenden die Institute aber geheime Gewichtungsformeln. Das kann Erfahrungswissen sein oder aber Hexenwerk - nachvollziehbar ist es jedenfalls nicht. Womöglich findet vieles auch einfach Pi-mal-Daumen statt, und denkbar ist, dass dabei auch auf die Werte der Konkurrenz geschielt wird. Vermutlich bleibt man doch lieber in der Nähe der Herde und scheut sich, mit krass abweichenden Prognosen aufzufallen.

Weil man als einzelnes Institut weniger schlecht aussieht, wenn man sich mit den anderen gemeinsam irrt?

Ja, insbesondere die Wahlforschung ist für die kommerziellen Markt- und Meinungsforschungsindustrie ja so etwas wie das Schaufenster für ihre Arbeit. Da werden sie am meisten beachtet, und ihre prognostische Qualität ist sehr direkt überprüfbar am objektiven Wahlergebnis. Weshalb alle möglichst gut aussehen wollen - oder zumindest nicht schlechter als die anderen.