Ein fehlerhaftes Update der US-IT-Sicherheitsfirma Crowdstrike stürzte die Welt am vergangenen Freitag ins Chaos. Weil Computersysteme nicht mehr funktionierten, mussten tausende Flüge gestrichen werden, konnten Krankenhäuser nicht mehr operieren und viele nicht mehr im Supermarkt einkaufen oder Geld abheben. Mehr als 8,5 Millionen Windows-Rechner waren von der Panne betroffen, sie gilt als der bislang global größte IT-Störfall. Die Schäden für die Unternehmen dürften in die Milliarden gehen.
Nun, gut fünf Tage später, hat die Firma, die das riesige Computerproblem ausgelöst hat, einen „Post Incident Report“ veröffentlicht. In diesem Störungsbericht beschreibt Crowdstrike, wie es zu dem Vorfall kommen konnte – und auch, wie so ein massiver Fehler künftig verhindert werden soll.
Am Freitag, 19. Juli, habe man um 4.09 UTC, im regulären Betrieb ein Update veröffentlicht, um Daten über mögliche neue Bedrohungsmethoden zu sammeln. Updates dieser „Falcon Plattform“ würden regelmäßig gemacht, allerdings führte dieses zum Absturz der Windows-Systeme. Mac- und Linux-Rechner waren nicht betroffen. Um 5.27 UTC am selben Tag habe man den Fehler rückgängig gemacht. Systeme, die nach diesem Zeitpunkt online gingen oder die während des Zeitfensters keine Verbindung zu Crowdstrike hergestellt hatten, seien nicht betroffen gewesen.
Im Bericht beschreibt Crowdstrike weiter technisch sehr detailliert, was auf verschiedenen Ebenen schiefgelaufen ist, also wie genau die problematischen Daten des Updates eine Validierung bestanden haben, so nicht erkannt und deshalb ausgespielt wurden. Im Störungsreport will Crowdstrike neben der Fehleranalyse aber auch die Frage beantworten, wie man verhindern kann, „dass so etwas noch einmal passiert“. Dabei helfen soll, dass künftig ausgiebig getestet wird, beispielsweise durch Stabilitätsprüfungen und lokale Entwicklertests.
Erst stückweise testen, dann ausspielen
Zudem plant die IT-Sicherheitsfirma, Updates zeitlich so zu staffeln, dass sie stückweise getestet werden können, bevor sie in großem Umfang ausgerollt werden. Auch soll den Crowdstrike-Kunden eine größere Kontrolle über die Aktualisierungen gegeben werden. Sie sollen in Zukunft auswählen und detailliert festlegen können, wann und wo die Updates bereitgestellt werden – damit sie nicht mehr von fehlerhaften Dateien überrascht werden, die die Firmenrechner komplett lahmlegen. Zudem sollen Kunden Details zu Inhaltsaktualisierungen und Versionshinweisen abonnieren können.
Zusätzlich zum vorläufigen Bericht verspricht Crowdstrike „die vollständige Ursachenanalyse zu veröffentlichen, sobald die Untersuchung abgeschlossen ist“. Denn abgeschlossen ist die Angelegenheit für Crowdstrike noch lange nicht. So verlangt der Ausschuss für innere Sicherheit des US-Repräsentantenhauses, dass Crowdstrike-CEO George Kurtz ihm Rede und Antwort steht.
Und der Firma drohen weltweit Schadenersatzforderungen. So will nach einem Bericht des NDR das Universitätsklinikum Schleswig-Holstein Schadenersatz von Crowdstrike. Man habe 137 OPs in Kiel und Lübeck absagen müssen, zudem habe in den Notaufnahmen nicht gearbeitet werden können. Wie hoch der finanzielle Schaden sei, stehe allerdings bisher nicht fest.