Wir speichern, Sie stöbern

Zugmonitor-Ausschnitt: Sehen Sie auf dieser Karte etwas, das Sie uns crowdsourcen wollen? (Foto: N/A)

Es sieht so simpel aus. Pfeile rasen über eine Deutschlandkarte, färben sich erst gelb, dann rot. Ein Klick, dann die Information: Der Pfeil ist ein Zug aus Paris. Und er ist 50 Minuten zu spät, schon seit vier Haltstellen.

Wie kompliziert wäre es sonst, an diese Information zu kommen! Der jetzt in Betrieb genommene SZ-Zugmonitor leistet auf ungekannte Art eine Übersetzungsarbeit, die in einem sehr traditionellen Sinne journalistisch ist: Ein kompliziertes Geschehen wird vereinfacht und der Öffentlichkeit nahe gebracht. Gigantische, komplexe Datenmengen werden aus bis dato nicht erschließbaren Quellen gesammelt, sortiert, gefiltert, neu verpackt und in plötzlich verständlicher Form ausgespuckt.

Datenjournalismus heißt diese innovative Art der Recherche und Aufbereitung riesiger Informationsmengen. Sie ist deshalb so besonders, weil sie nur mit Computertechnik und den Möglichkeiten des Internets denkbar ist. Was Süddeutsche.de jetzt mit der führenden Datenjournalismusagentur OpenDataCity umgesetzt hat, war noch vor wenigen Jahren unmöglich. Erst die digitale Welt erschließt dem Journalismus solche ungekannten Präsentationsmöglichkeiten.

Sogar eine Live-Karte des deutschen Zugverkehrs ist plötzlich möglich

Jeder Bahnreisende hat sich wohl schon gefragt: Wo sind die wahren Schwachstellen des deutschen Schienennetzes? Jetzt ist es jedem Computernutzer möglich, diese Frage zu beantworten, weil es durch moderne Technik simpel geworden ist, Millionen Zugverbindungen mitzuprotokollieren, statistisch auszuwerten und dann verständlich zu präsentieren. Sogar eine Live-Karte des deutschen Zugverkehrs ist plötzlich möglich. Und alles basiert auf offiziellen Daten, die die Bahn auf ihren Internet-Seiten ständig aktualisiert veröffentlicht. Sie präsentiert die Angaben nur nicht so übersichtlich.

Datenjournalismus ist noch keine Massenbewegung in der digitalen Welt - zumindest außerhalb des angelsächsischen Raums -, und auch wir hatten wenig Erfahrung damit. Immer wieder gab es Überraschungen. So entpuppte sich erst in dieser Woche als Problem, dass die Bahn Verspätungsdaten auf ihren Internet-Seiten offensichtlich lückenhaft mitteilt, immer wieder unpünktliche Zugeinfahrten in Bahnhöfen nicht stringent bekannt gibt - und Zug-Identifikationsnummern regelmäßig wechselt. Es fehlen aus diesen Gründen logischerweise Verspätungen in unserem Datensatz.

Wieso die Bahn ihre Daten bewusst ein bisschen schönt

Tagelang beschäftigte uns die Frage: Wieso kommen wir eigentlich im Schnitt auf deutlich bessere Pünktlichkeitswerte als die Bahn selbst? Die gelegentlichen Datenlücken sind ein Teil der Antwort auf diese Frage; in der interaktiven Karte werden sie nun interpoliert. Ein anderer kam bei der Nachrecherche bei der Bahn heraus: Das Unternehmen nutzt intern und in seiner monatlichen offiziellen Pünktlichkeitsstatistik viel genauere, höhere Zahlen als auf seiner Internet-Seite. Denn dort werden die Daten bewusst untertrieben und sind eigentlich eine leicht geschönte Prognose für Fahrgäste, die am jeweiligen Bahnhof starten wollen, erfuhren wir.

Begründung: Die Reisenden sollen sich nicht darauf verlassen, dass ein Zug eh acht Minuten zu spät ist - wenn es nur fünf Minuten sind, weil der Lokführer ein bisschen Zeit aufgeholt hat, wäre man sonst in der dummen Lage, warten zu müssen.

Für uns waren diese Einsichten wie wohl für viele Fahrgäste neu. Der Zugmonitor erreicht damit, was von Anfang an sein Ziel war - ein bisschen mehr Transparenz zu schaffen. Und selbst wenn die Bahn in Wahrheit noch weniger pünktlich ist als in unserer Datenbank: Die Auswertung zu besonders belasteten Strecken, Bahnhöfen, Ursachen etc. ist in jedem Fall recht akkurat. Durch das Herunterskalieren aller Zahlen ändern sich ja nicht die Proportionen der einzelnen Verspätungen.

Was finden Sie? Machen Sie mit

Die Methode, mit der die Daten erhoben werden, ist nicht unaufwändig. Seit dem ersten Gespräch über die Idee sind acht Monate vergangen. Hunderte Programmierstunden wurden in den interaktiven Zugmonitor und die eigentliche Datensammel-Maschine investiert, und die statistische Auswertung der Informationen hat am Ende noch mal sechs Tage gedauert.

Wir sind uns sicher, dass wir dabei noch Problemstellen im Schienennetz übersehen haben. Auch deshalb haben wir uns entschlossen, Ihnen unsere Daten zur Verfügung zu stellen - damit Sie selbst in den Informationen stöbern können. Klicken Sie hier für eine Übersichtsseite, auf der sie die Verspätungsstatistik in der Rohversion aufrufen, die Daten herunterladen oder auf sie zugreifen können. Und dann schreiben Sie uns bitte an zugmonitor@sz.de oder twittern Sie an @zugmonitor, wenn Sie etwas Auffälliges feststellen.

Crowdsourcing heißt das: Sie, die Crowd, die Masse der Nutzer, helfen mit, diese enorme Quelle zu erschließen und darin weitere Geschichten zu entdecken. Open Data ist ein anderes Prinzip, dem wir uns bei diesem Projekt verpflichtet fühlen: Wir öffnen unsere Verspätungsdatenbank, damit jeder Interessierte eine eigene interaktive Grafik oder kreative Auswertung daraus erstellen kann. Wir wollen - wie übrigens prinzipiell die Bahn selbst - Transparenz schaffen. Und Sie dürfen da gerne mitmachen (sofern Sie auf uns verlinken und keine kommerziellen Interessen verfolgen, natürlich).

Wir werden den Zugmonitor so schnell nicht abschalten, wenn es nach uns geht. Wir sind im Gegenteil gespannt, wie sich dieses Projekt jetzt weiterentwickelt - die Geschichte der Bahn-Verspätungen ist vermutlich noch länger nicht auserzählt.

Alles zum Zugmonitor finden Sie hier...