Weltweite IT-Panne:Wie Crowdstrike künftig Fehler verhindern will

Lesezeit: 2 Min.

Die Nachwehen der Computerpanne beschäftigten viele so wie hier am Flughafen von Detroit auch noch Tage danach. (Foto: JOE RAEDLE/Getty Images via AFP)

Ein fehlerhaftes Update der Software-Firma hat den bislang größten IT-Störfall ausgelöst. Nun sagt das Unternehmen, wie es zur Panne kommen konnte – und was man tun will, damit so etwas nicht wieder passiert.

Von Mirjam Hauck

Ein fehlerhaftes Update der US-IT-Sicherheitsfirma Crowdstrike stürzte die Welt am vergangenen Freitag ins Chaos. Weil Computersysteme nicht mehr funktionierten, mussten tausende Flüge gestrichen werden, konnten Krankenhäuser nicht mehr operieren und viele nicht mehr im Supermarkt einkaufen oder Geld abheben. Mehr als 8,5 Millionen Windows-Rechner waren von der Panne betroffen, sie gilt als der bislang global größte IT-Störfall. Die Schäden für die Unternehmen dürften in die Milliarden gehen.

Nun, gut fünf Tage später, hat die Firma, die das riesige Computerproblem ausgelöst hat, einen „Post Incident Report“ veröffentlicht. In diesem Störungsbericht beschreibt Crowdstrike, wie es zu dem Vorfall kommen konnte – und auch, wie so ein massiver Fehler künftig verhindert werden soll.

Am Freitag, 19. Juli, habe man um 4.09 UTC, im regulären Betrieb ein Update veröffentlicht, um Daten über mögliche neue Bedrohungsmethoden zu sammeln. Updates dieser „Falcon Plattform“ würden regelmäßig gemacht, allerdings führte dieses zum Absturz der Windows-Systeme. Mac- und Linux-Rechner waren nicht betroffen. Um 5.27 UTC am selben Tag habe man den Fehler rückgängig gemacht. Systeme, die nach diesem Zeitpunkt online gingen oder die während des Zeitfensters keine Verbindung zu Crowdstrike hergestellt hatten, seien nicht betroffen gewesen.

Im Bericht beschreibt Crowdstrike weiter technisch sehr detailliert, was auf verschiedenen Ebenen schiefgelaufen ist, also wie genau die problematischen Daten des Updates eine Validierung bestanden haben, so nicht erkannt und deshalb ausgespielt wurden. Im Störungsreport will Crowdstrike neben der Fehleranalyse aber auch die Frage beantworten, wie man verhindern kann, „dass so etwas noch einmal passiert“. Dabei helfen soll, dass künftig ausgiebig getestet wird, beispielsweise durch Stabilitätsprüfungen und lokale Entwicklertests.

Erst stückweise testen, dann ausspielen

Zudem plant die IT-Sicherheitsfirma, Updates zeitlich so zu staffeln, dass sie stückweise getestet werden können, bevor sie in großem Umfang ausgerollt werden. Auch soll den Crowdstrike-Kunden eine größere Kontrolle über die Aktualisierungen gegeben werden. Sie sollen in Zukunft auswählen und detailliert festlegen können, wann und wo die Updates bereitgestellt werden – damit sie nicht mehr von fehlerhaften Dateien überrascht werden, die die Firmenrechner komplett lahmlegen. Zudem sollen Kunden Details zu Inhaltsaktualisierungen und Versionshinweisen abonnieren können.

Zusätzlich zum vorläufigen Bericht verspricht Crowdstrike „die vollständige Ursachenanalyse zu veröffentlichen, sobald die Untersuchung abgeschlossen ist“. Denn abgeschlossen ist die Angelegenheit für Crowdstrike noch lange nicht. So verlangt der Ausschuss für innere Sicherheit des US-Repräsentantenhauses, dass Crowdstrike-CEO George Kurtz ihm Rede und Antwort steht.

Und der Firma drohen weltweit Schadenersatzforderungen. So will nach einem Bericht des NDR das Universitätsklinikum Schleswig-Holstein Schadenersatz von Crowdstrike. Man habe 137 OPs in Kiel und Lübeck absagen müssen, zudem habe in den Notaufnahmen nicht gearbeitet werden können. Wie hoch der finanzielle Schaden sei, stehe allerdings bisher nicht fest.

© SZ - Rechte am Artikel können Sie hier erwerben.
Zur SZ-Startseite

SZ PlusE-Mobilität
:Tesla in der Krise, Musk in Hochform

Der Elektroauto-Pionier halbiert seinen Gewinn, die Aktionäre reagieren geschockt. Und was macht der Chef? Redet lieber über Robotaxis und die Zukunft der Mobilität.

Von Christina Kunkel, Jürgen Schmieder

Lesen Sie mehr zum Thema

Jetzt entdecken

Gutscheine: