Methodik:Wie wir die Antworten von 57 000 Teilnehmern ausgewertet haben

Lesezeit: 6 Min.

Wie werden aus Umfrageergebnissen Geschichten? Wie fügen sich Tausende einzelne Angaben zu einem Gesamtbild zusammen? So sind wir bei der Datenanalyse vorgegangen.

Von Sabrina Ebitsch, Christian Endt und Moritz Zajonz

Wie ist die SZ an die Daten gekommen?

Mitte März hat die Redaktion der Süddeutschen Zeitung eine Umfrage gestartet, an der SZ-Leser etwa vier Wochen lang teilnehmen konnten. 57 000 Menschen haben mitgemacht. Die Teilnehmer haben unter anderem Angaben zu Lage und Größe ihrer Wohnung gemacht, zur Höhe von Miete und Haushaltseinkommen, zur Zufriedenheit mit ihrer Wohnsituation und zu etwaigen Umzugsplänen. Alle Antworten waren freiwillig, es hat also nicht jeder Teilnehmer jede Frage beantwortet. Auch in der gedruckten SZ ist der Fragebogen erschienen - ausgeschnitten und eingeschickt hat ihn allerdings nur eine zweistellige Anzahl von Lesern.

Da so viele Menschen mitgemacht haben - ist die Umfrage repräsentativ?

Nein, das war von vorneherein klar. Für eine repräsentative Umfrage müssten alle Mitglieder der sogenannten Grundgesamtheit (in unserem Fall: alle Menschen in Deutschland, die zur Miete wohnen) die gleiche Chance haben, in der Stichprobe vorzukommen. Bei wissenschaftlichen Befragungen wird das sichergestellt, indem gezielt Haushalte nach bestimmten Kriterien ausgewählt und angesprochen werden. Uns war hingegen wichtig, dass jeder, der wollte, auch mitmachen konnte. Unsere Daten zeigen, dass wir etwas mehr Männer als Frauen erreicht haben, dass Bewohner der großen Städte und insbesondere aus München überrepräsentiert sind, und dass vergleichsweise wenige ältere Menschen und wenige Geringverdiener mitgemacht haben.

Warum hat die SZ die Umfrage trotzdem gemacht - sprich, wie aussagekräftig ist das Ergebnis?

Was wir bekommen haben, ist ein Stimmungsbild. Die schiere Teilnehmerzahl, aber auch die eingegebenen Daten und Geschichten zeigen, wie sehr die Themen Wohnen und Miete die Leute beschäftigen. Wir sind der Meinung, dass sich viele wichtige Fragen zu diesem Thema mit den Daten, die öffentlich verfügbar sind, nur unzureichend beantworten lassen. So werden beispielsweise in öffentlichen Datenbanken die Angaben zu (gewichteten) Mittelwerten aggregiert. Unser Datensatz dagegen enthält 57 000 Einzelgeschichten, die individuell sehr unterschiedlich ausfallen. So können wir die Unterschiedlichkeit persönlicher Wohnsituationen zwar nicht in ihrer ganzen, aber doch in einer großen Bandbreite auswerten und darstellen. Außerdem ermöglicht es der Umfang unserer Umfrage, Zusammenhänge herzustellen: von der Höhe der Miete zu biografischen Angaben wie etwa der Familiensituation und dem Einkommen. So können wir untersuchen, welche Gruppen besonders unter der angespannten Situation auf dem Wohnungsmarkt leiden.

Wie hat die Redaktion die Daten ausgewertet und Schlussfolgerungen gezogen?

Zuerst haben wir uns einen Überblick über die eingegangenen Daten verschafft: Wie viele Leute haben mitgemacht, wie verteilen sich die Teilnehmer auf Regionen, Altersgruppen, Wohnsituationen? Als nächstes haben wir versucht, unplausible Antworten aus dem Datensatz zu entfernen: wenn Teilnehmer sich offensichtlich vertippt oder eine Frage falsch verstanden haben, vielleicht auch absichtlich falsche Angaben gemacht haben.

Dann haben wir in den Daten nach Mustern gesucht: Welche Trends erkennen wir, was ist auffällig, welche Zusammenhänge gibt es? Wann immer wir auf etwas Interessantes gestoßen sind, haben wir gemeinsam diskutiert: Können wir daraus eine belastbare Erkenntnis ableiten? Wenn wir zum Beispiel in einer bestimmten Stadt eine besonders hohe Mietbelastung festgestellt haben, fragten wir uns: Sind die Mieten dort wirklich besonders hoch? Oder haben wir in dieser Stadt eher einkommensschwache Menschen erreicht, Studenten etwa?

Wann immer möglich, haben wir unsere Daten mit Statistiken aus anderen verfügbaren Quellen abgeglichen - etwa vom Statistischen Bundesamt, dem Bundesinstitut für Bau-, Stadt- und Raumforschung, von kommunalen Behörden und privaten Marktforschungsunternehmen.

Wir haben unsere Analyse des Mietmarkts aber nicht allein auf diese Daten stützen wollen, sondern selbst eine Umfrage gestartet, weil den bestehenden Erhebunge zum einen die Detailtiefe fehlt. Meist wird auf Stadt- oder Gemeindeebene ein Mittelwert berechnet, der diese Ebene dann zusammenfassen soll. Dabei gehen aber lokale Details verloren, wie wir sie in unseren Daten für München beobachten konnten. Außerdem haben wir versucht, den Schwächen bereits existierender Erhebungen zu begegnen: Die Berechnung des Mietspiegels beispielsweise ist deutschlandweit nicht einheitlich geregelt, was regionale Vergleiche unmöglich macht. Datensätze von Wohnungsbörsen wie ImmobilienScout24 sind zwar umfangreich und detailliert, jedoch nicht unabhängig erhoben.

Zum anderen fehlt den öffentlichen Datensätzen die persönliche Betroffenheit der Menschen. Die Geschichten, die Teilnehmer uns geschickt haben, zeigen, wie divers die Erfahrungen auf dem Mietmarkt sind. Diese Erfahrungen lassen sich nicht einfach in Zahlen zusammenfassen. Selbstverständlich waren wir auch immer wieder im Austausch mit Experten, um die Daten besser einschätzen zu können. Eng beraten hat uns während des ganzen Prozesses Philipp Doebler von der Fakultät für Statistik an der Technischen Universität Dortmund.

Sind alle Antworten plausibel?

Nein. Uns sind während der Erkundung des Datensatzes einige Kombinationen aufgefallen, die uns unrealistisch erscheinen. Wir haben trotzdem aus zwei Gründen nicht einfach alle dieser Datenpunkte aus dem Datensatz entfernt: Erstens: Wir verwenden robuste statistische Maße wie den Median, die nicht oder kaum von Ausreißern beeinflusst werden. Der Median ist der Mittelwert, an dem die Hälfte aller Angaben darunter, die andere Hälfte darüber liegt.

Zweitens: Bei vielen Angaben lässt sich keine "Plausibilitäts-Grenze" ziehen. Einkommen und Mieten können mitunter auch auf den ersten Anschein unglaubwürdig erscheinen. Zum Beispiel wenn jemand wenig verdient, aber seine Miete teils aus Ersparnissen finanziert - dann ist auch eine Mietbelastung von über 100 Prozent möglich. Wir wollen die Daten deshalb nicht durch unsere eigenen Erwartungen und Annahmen verzerren.

Wir haben allerdings für einige Grafiken Grenzen nach oben und unten gesetzt, beispielsweise bei den Quadratmeterpreisen nach Vermieter-Typ oder bei der Darstellung der Mietbelastung nach Einkommensklassen. Dort schneiden wir die Achse bei fünf beziehungsweise 25 Euro pro Quadratmeter ab beziehungsweise verzichten auf die Darstellung der höchsten Einkommensklasse, weil uns hier die Lesbarkeit wichtiger war als eine lückenlose Abbildung inklusive sämtlicher, mitunter auch für die Gesamtbetrachtung kaum mehr relevanter Ausreißer.

Wie berechnet sich die Mietbelastung?

Unter der Mietbelastungsquote verstehen Soziologen den Anteil des Einkommens, den ein Haushalt für die Miete aufwenden muss. Hierbei wird die Bruttokaltmiete herangezogen, also die Miete einschließlich Nebenkosten, aber ohne Heizung. Wir haben in der Umfrage die Kaltmiete ohne Nebenkosten abgefragt, weil wir davon ausgingen, dass die Teilnehmer diese eher parat haben und die Antworten dazu zuverlässiger sind. Um von diesen Angaben auf die Bruttokaltmiete zu kommen, nehmen wir eine Abschätzung vor: Pro Quadratmeter Wohnfläche addieren wir zur Kaltmiete einen Euro für die Nebenkosten. Bei einer 60-Quadratmeter-Wohnung, die kalt 800 Euro kostet, ergibt sich also eine Bruttokaltmiete von 860 Euro. Nach Einschätzung des Instituts für Immobilienwirtschaft an der Universität Regensburg ist ein Aufschlag von einem Euro pro Quadratmeter Wohnfläche eine sinnvolle Größe, um die Betriebskosten abzudecken, da sie etwa die Hälfte der Nebenkosten betragen, die wiederum in diesem Jahr statistisch bei 2,17 Euro pro Quadratmeter liegen.

Wie wurden die Angaben der Umfrageteilnehmer mit aktuellen Marktdaten in Relation gesetzt?

Viele Menschen, auch viele Teilnehmer unserer Umfrage, können sich ihre Wohnung nur leisten, weil sie schon lange dort wohnen und die Mieten zum Zeitpunkt des Vertragsabschlusses noch moderat waren. Wir wollten herausfinden, was jeder rein hypothetisch zahlen müsste, wenn er seine Wohnung zu den aktuellen Marktkonditionen neu anmieten würde.

Diese Frage lässt sich nicht exakt beantworten, aber zumindest überschlagen. Dazu haben wir mit dem Dienstleister Empirica zusammengearbeitet, der über einen großen Datensatz aktueller Angebotsmieten verfügt. Die Daten stammen ursprünglich aus den großen Online-Wohnungsportalen. Der Vergleich der tatsächlichen Mieten der Umfrageteilnehmer mit den aktuellen Marktmieten erfolgt über die Kriterien Lage und Größe der Wohnung. Wir haben also ermittelt, zu welcher Miete eine Wohnung vergleichbarer Größe im selben PLZ-Gebiet aktuell auf dem Markt angeboten wird. So bekommen wir einen Eindruck davon, wie teuer die Wohnung der Umfrageteilnehmer heute wäre - beziehungsweise welche Mieterhöhung auf Menschen zukommen würde, die sich in naher Zukunft auf die Suche nach einer vergleichbaren, neuen Wohnung machen. Mehr zum Ergebnis hier.

Wie hat die Redaktion Zuschriften ausgewertet?

Teil des Fragebogens war ein Freifeld, in das Leser Geschichten, Anekdoten oder Hinweise für die Recherche schreiben konnten. Es gingen viel mehr dieser Leserbeiträge ein als erwartet. Wir haben sie natürlich alle gelesen - aber nicht mit wie geplant ein bis zwei Kollegen, sondern neun, die eine Vorauswahl nach Region und Art der Zuschrift getroffen haben. Zwei Kollegen haben dann die ausgesucht, die sich für eine Veröffentlichung eignen würden und eine weitere Kollegin wiederum hat diese Beiträge redigiert und für ein neu entwickeltes Tool aufbereitet. Korrigiert wurden dabei lediglich Tipp- oder Kommafehler, Schreibweisen wurden zugunsten einer besseren Lesbarkeit angepasst (zum Beispiel aus € Euro gemacht). Einige ausgewählte Zuschriften haben wir auch zum Anlass genommen, Interviews mit den Teilnehmern zu führen. Angesichts der vielen, vielen Zuschriften mussten wir eine Auswahl treffen und konnten nur einen Teil veröffentlichen oder nachrecherchieren. Wir möchten uns aber bei allen Lesern sehr herzlich für ihren Beitrag bedanken - ohne Sie wäre dieses Crowdsourcing-Projekt nicht möglich gewesen.

Stichwort Datenschutz: Wie geht die Redaktion mit sensiblen Daten wie Einkommen oder Miete um?

Für dieses Crowdsourcing-Projekt wollten wir teils sehr persönliche Daten wie Wohnsituation oder Einkommen von den Teilnehmern wissen. Andernfalls hätten wir beispielsweise keine Aussagen über die Mietbelastung machen können. Weil es mitunter um sehr sensible Informationen ging, die zwar teils anonym, teils (wenn Teilnehmer freiwillig Name und Kontaktdaten hinterlassen haben) aber auch personenbezogen waren, haben wir großen Wert auf Datenschutz gelegt.

In die Vorbereitung der Umfrage war ein Datenschutzbeauftragter eingebunden, die Beantwortung jeder einzelnen Frage war freiwillig und wir nutzen dafür das Umfragetool des zertifizierten Anbieters Easyfeedback, der die Daten über ein SSL-Verschlüsselungsverfahren überträgt und auf Servern in Deutschland speichert. Wir nutzen die Daten ausschließlich zu redaktionellen Zwecken, ohne sie über einen engen Kreis von SZ-Mitarbeitern hinaus weiterzugeben. Und nach dem Abschluss des Projekts #MeineMiete werden sie gelöscht. Mehr zum Datenschutz und zum Umfragetool lesen Sie hier.

© SZ.de - Rechte am Artikel können Sie hier erwerben.
Zur SZ-Startseite

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: