Geschichte des Zugmonitors Decoder für den Bahn-Stau

So einfach war es noch nie, die Verspätungen bei der Bahn zu durchblicken. Die Geschichte hinter dem SZ-Zugmonitor: Ein Computer sammelt Millionen Informationsschnipsel des Unternehmens aus dem Internet, dann werden sie sortiert, gewichtet und live präsentiert - Datenjournalismus macht es möglich.

Von Stefan Plöchinger

Wenn ein Zug am Bahnhof ankommt, sehen die Wartenden allzu oft auf dem Anzeiger die Nachricht: fünf Minuten Verspätung. Oder zehn. Oder mehr - dann wird geflucht, und in der Wut am oft vollen Bahnsteig kann einem der Gedanke kommen: Wie viele andere Leute schimpfen wohl in diesem Moment gerade auf die Bahn, weil sie einen Termin oder Anschlusszug verpassen, oder weil ihr durchgetaktetes Leben sonstwie aus dem Plan gerät? Anders formuliert: Wie verspätet ist die Republik unterwegs?

Jetzt gibt es eine Antwort auf die Frage, minutenaktuell und interaktiv. Die SZ hat mit der Berliner Datenjournalismus-Agentur OpenDataCity das einzigartige Projekt Zugmonitor gestartet, in dem seit Spätsommer 2011 Fernzugfahrten protokolliert werden und auf dem diese Analyse hier basiert. Sobald ein Zug an einem Bahnhof ankommt, wird in einer Datenbank notiert, welche Verzögerung die Bahn selbst auf ihrer Internet-Seite angegeben hatte (Details zur Akkuratheit siehe hier). Die Bahn informiert jeweils nur über jeden Zug einzeln - beim SZ-Zugmonitor entsteht dagegen ein Live-Abbild des Verkehrs auf dem gesamten Schienennetz, und zwar mit Hilfe der Daten des Konzerns.

Unter zugmonitor.sz.de zeigt eine ständig aktualisierte interaktive Grafik, wie viel Verspätung die Bahn den Angaben zufolge gerade hat - oder zu einem beliebigen Zeitpunkt in den vergangenen Monaten. Auf einer einzigartigen Deutschlandkarte bewegen sich Züge wie auf einer Modelleisenbahn, farbig von gelb für leichte bis rot für mehrstündige Verspätungen. Klickt man einen Zug an, sieht man säuberlich aufgeschlüsselt Bahnhöfe und Ursachen.

Mehr Transparenz dank Datenjournalismus

Und nicht genug: Was waren die Problemzüge der jüngsten Zeit, welche Verspätungen gab es zuletzt auf der ICE-Verbindung, die man gerade gebucht hat? Auch darauf gibt es Antworten.

Die SZ hat für die erste statistische Analyse die Daten von 150 Tagen zwischen dem 2. Oktober und dem 1. März ausgewertet. Der Unterschied zwischen Winter- und Normalwetter, Verspätungen nach Tageszeiten, Zugtypen und Einzelstrecken: Wenn man die eigenen Daten der Bahn nur sammelt, neu sortiert und ins Verhältnis zueinander stellt, erhält man detaillierte Erkenntnisse über systematische Probleme (Ergebnisse hier...).

Diese statistische Recherchemethode etabliert sich seit Jahren als sogenannter Datenjournalismus. Die Aufbereitung enormer Informationsmengen mit Computerhilfe wird gerade in den USA schon oft genutzt, um offizielle Zahlenangaben zu hinterfragen und neu aufzubereiten.

Diskrepanzen in den Daten

Wie schwierig dies ist, verdeutlicht die Arbeit der vergangenen Monate am Zugmonitor. So stieß die SZ erst durch Diskrepanzen in Daten darauf, dass die Bahn auf ihrer Internet-Seite Verspätungen schlechter darstellt als in ihrer offiziellen monatlichen Pünktlichkeitsstatistik - weshalb die wahren Verspätungen etwas größer sind als im Datensatz. Auch andere Probleme traten auf. So verändert die Bahn regelmäßig interne Zug-Identifikationsnummern. Mehrere Tage konnten darum hier nicht problemlos ausgewertet werden.

Am besten würde die Bahn detaillierte Statistiken gleich selbst veröffentlichen - der Konzern hat sich ja der Transparenz verschrieben.

Interessierte können sie Datenbank, die ständig mit neuen Echtzeit-Daten gefüllt wird, selbst durchsuchen. Die SZ veröffentlicht Auswertung und Rohdaten - unter sz.de/zugmonitordaten. Wer in dem Datensatz auf noch unentdeckte Problemstellen oder interessante Erkenntnisse stößt: Eine Mail an zugmonitor@sz.de oder ein Tweet an @zugmonitor genügt.

Alle Details zum Zugmonitor hier...