So kommen Sie an alle Daten

Tabellen und API zur Bahn-Verspätung / Veröffentlicht am , im SZblog

Zugmonitor-Tabellen: Werten Sie die Statistik gerne mit aus

Der SZ-Zugmonitor ist nicht nur unser Projekt — auch Sie können mitrecherchieren, denn wir stellen Ihnen die Daten über die Bahn-Verspätungen zur Verfügung.

Prinzip 1: Open Data. Das bedeutet, dass jedermann mit Hilfe unserer Daten eine eigene Auswertung oder Grafik erstellen darf (sofern Sie auf uns verlinken und keine kommerziellen Interessen verfolgen — sonst müssten wir noch mal reden).

Prinzip 2: Crowdsourcing. Das bedeutet, dass Sie, die Nutzer, gerne selbst nach interessanten Informationen in dem Datensatz stöbern dürfen. Hinweise bitte an zugmonitor@sz.de oder auf Twitter an @zugmonitor. Die SZ stellt Ihnen die erste Auswertung des Zugmonitors hier zum Herunterladen, Auswerten und Weiternutzen zur Verfügung, außerdem die aktuellen Daten als Programmierschnittstelle:

[] Excel-Datei — gespeichert auf Google Docs, zur Schnellansicht und zum Download. Bearbeiten Sie diese Datei wie gewohnt in Microsoft Office.

[] Google Fusion Tables — untergliedert nach Bahnhöfen, Verbindungen, ICE-Verbindungen, Ländern, Ursachen, Tageszeit und Zugtypen. Diese Tabellen können Sie direkt im Internet sortieren, filtern, visualisieren und weitergeben (Details...).

[] API-Schnittstelle — Direktzugriff auf die Daten des Zugmonitors für Programmierer. Hier bekommen Sie alle nötigen Informationen zu Verspätungen, um damit weitere Anwendungen zu entwickeln.

Der Zugmonitor hat seit Oktober die Verspätungsangaben fast jedes Fernzugs auf der Internet-Seite der Bahn mitprotokolliert. Für die Statistiken, die Sie hier herunterladen können, wurden 150 Tage zwischen dem 2. Oktober 2011 und dem 1. März 2012 ausgewertet.

Die Schwäche der Zugmonitor-Methode: Die Bahn korrigiert nach SZ-Recherchen auf ihren Internet-Seiten die Verspätungsminuten oft etwas nach unten, weil sie nicht will, dass sich Fahrgäste auf eine exakte Minutenzahl verlassen und der Zug dann doch pünktlicher ist als erwartet. Darum handelt es sich bei den mitprotokollierten Angaben um leicht verzerrte Prognosewerte, keine hundertprozentigen Livedaten. Außerdem verändert die Bahn in ihrem System immer wieder interne Zug-IDs, was die Datenprotokollierung an manchen Tagen verhindert hat, und sie teilt die Pünktlichkeit in Fünf-Minuten-Schritten mit — weshalb ein Zug mit weniger als sechs Minuten Verspätung als pünktlich gilt. All dies schlägt auf den SZ-Datensatz durch. Er unterschätzt damit tendenziell Verspätungen gegenüber der monatlichen offiziellen Pünktlichkeitsquote der Bahn. Diese wird mit akkuraten Zahlen errechnet.

Die Stärke der Zugmonitor-Methode: Obwohl die Pünktlichkeitswerte nicht exakt sind, stimmen nach wie vor die Proportionen, sobald man die Daten tiefer analysiert. Die SZ-Datenbank bildet realistisch die Schwachstellen des Netzes ab — welche Strecken und Bahnhöfe besonders belastet sind, wann, wo und aus welchen Gründen sich Verspätungen häufen etc. Diese Daten vorliegen zu haben, ist besser, als dass man gar keine Einsicht in die Problemzonen der Bahn bekommt.

Die Statistiktabellen, die Sie hier herunterladen können, basieren immer auf den in der Datenbank erfassten Zugeinfahrten, zum Beispiel am jeweiligen Bahnhof. Diese werden in Relation gestellt zur Zahl der verspäteten Zugeinfahrten — daraus errechnet sich die sogenannte Pünktlichkeitsquote. Zugleich werden alle Verspätungsminuten am jeweiligen Bahnhof addiert. Daraus ist die Durchschnittsverspätung der verspäteten Züge (relativer Schnitt) und aller Züge (absoluter Schnitt) in Minuten abzuleiten. Experimentieren Sie mit den Werten, filtern Sie zum Beispiel nach Ländern oder Bahnhofsgrößen: So erschließen Sie sich die Welt der Verspätungen schnell selbst.

Alles zum Zugmonitor finden Sie hier...