Large Hadron Collider:Der Daten-Urknall

Fast 100 Billiarden einzelne Informationen - Europas neuer Teilchenbeschleuniger wird mehr Messwerte liefern als die größten Rechenzentren der Welt verarbeiten können.

Alexander Stirn

Es sind so viele Einsen und Nullen, dass am Ende des Jahres eine Eins mit 17 Nullen herauskommen wird. Fast 100 Billiarden einzelne Informationen - oder 100 Petabyte - wird das europäische Kernforschungszentrum Cern künftig Jahr für Jahr produzieren, wenn es in wenigen Wochen erstmals seinen neuen Teilchenbeschleuniger einschaltet.

Large Hadron Collider: "Als würde man mit einer digitalen Kamera pro Sekunde 40 Millionen Fotos machen". Ein Modell des Large Hadron Collider (LHC).

"Als würde man mit einer digitalen Kamera pro Sekunde 40 Millionen Fotos machen". Ein Modell des Large Hadron Collider (LHC).

(Foto: Foto: Getty Images)

In dieser Datenflut soll nach den letzten Geheimnissen des Universums gesucht werden. "Für ein einzelnes Rechenzentrum ist das aber viel zu viel", sagt Gonzalo Merino vom spanischen Informatikzentrum PIC.

Zusammen mit Kollegen vom Cern arbeitet Merino daher daran, Daten und Berechnungen über die ganze Welt zu verteilen, wie er soeben auf der Konferenz Euroscience Open Forum (Esof 2008) in Barcelona erläuterte. Von der neuen Art zu rechnen sollen aber nicht nur Forscher profitieren - sie könnte in Zukunft auch den alltäglichen Umgang mit Computern von Grund auf verändern.

"Wir fühlen uns ein bisschen wie Versuchskaninchen", sagt Merino und schmunzelt. Schließlich habe noch niemand versucht, mit einer derart großen Datenmenge auf einen Schlag klarzu- kommen. Wenn der Large Hadron Collider (LHC), ein mehr als 26 Kilometer langer ringförmiger Beschleuniger, eines Tages mit voller Kraft läuft, wird er Protonen-Pakete 40 Millionen Mal in der Sekunde mit annähernd Lichtgeschwindigkeit aufeinanderprallen lassen.

Durch die hohen Energien können neue, bislang unbekannte Teilchen entstehen. Detektoren, so groß wie Mehrfamilienhäuser, sollen deren Spuren nachweisen.

"Das ist in etwa so, als würde man eine digitale Kamera nehmen und pro Sekunde 40 Millionen Fotos machen", sagt Tejinder Virdee vom Imperial College London. Bis zu 600 Billionen Bytes pro Sekunde produziert die Riesenkamera; selbst ein gemeinsamer Kraftakt aller Rechenzentren und Datenleitungen der Erde würde nicht ausreichen, um die Datenmenge zu bewältigen.

Die Physiker müssen noch vor Ort eine Auswahl treffen - oder sie treffen lassen. Speziell für diese Aufgabe programmierte Chips sollen, wie Pere Mató vom Cern berichtet, alle unnötigen Informationen ausfiltern: bereits bekannte Teilchen, unspektakuläre Geschwindigkeiten, ungünstige Aufprallwinkel. 9999 von 10.000 Daten könnten so direkt entsorgt werden und würden die Leitungen nicht mehr belasten.

Die Entscheidung müsse allerdings innerhalb von drei bis vier Mikrosekunden fallen. Und sie ist endgültig. "Wenn wir die Daten erst einmal ausgeblendet haben, können wir sie nicht wiederherstellen", sagt Mató. Ein heikles Unterfangen. Was, fragt der Cern-Experte, wenn der LHC nach jahrelangem Betrieb noch immer keine neuen Teilchen entdeckt hat und sich herausstellt, dass die entscheidenden Daten im digitalen Orkus gelandet sind?

Beginn des Petabyte-Zeitalters

Im ersten Schritt sollen daher nur offensichtliche Ausreißer ausgeblendet werden. Anschließend ist Zeit für eine etwas genauere Analyse. Einige Bruchteile von Sekunden dürfen die Supercomputer im Genfer Cern-Rechenzentrum verplempern, um sich ein Bild der Kollision und der dabei entstandenen Teilchen zu machen. Komplexe Algorithmen ergründen die Vorgänge, verfolgen Spuren und ermitteln interessant erscheinende Daten. Alles andere bleibt im Filter hängen. Die Datenflut wird dadurch nochmals um mehr als 99 Prozent reduziert.

Dann allerdings beginnt die unvermeidliche Rechenarbeit. Um die Einsen und Nullen aus den Detektoren zu analysieren und in ein für Wissenschaftler verständliches Format zu bringen, ist die Kraft von 60000 Prozessoren nötig. Gleichzeitig müssen die Detektoren fortwährend kalibriert und verfeinert werden, was weitere 20.000 Prozessoren auslastet. Um die Arbeitsweise der Messinstrumente zu verstehen, sind umfassende Simulationen und Vergleiche mit der Praxis nötig; noch einmal 20.000 Prozessoren werden dafür gebraucht.

Zusammen mit den Rohdaten und deren Sicherheitskopien fallen bei den Berechnungen jedes Jahr etwa 90 Petabyte an Daten an. "Es gibt keine Möglichkeit, diesen Speicherbedarf und die nötige Rechenkraft am Cern zu konzentrieren", sagt Gonzalo Merino. Nicht einmal 20 Prozent der notwendigen Ressourcen stünden in Genf zur Verfügung.

Der Daten-Urknall

Mehr als 130 Zentren in 35 Ländern sollen dem Large Hadron Collider daher helfen - ohne dass die Forscher merken, wo ihre Daten gerade lagern oder bearbeitet werden. So wie das World Wide Web nahtlos Zugriff auf überall gespeicherte Informationen gibt, soll das "Grid" weit verstreute Computerressourcen mühelos verbinden. Im Falle des LHC sind das elf primäre Rechenzentren, in denen Rohdaten bearbeitet und Kopien gespeichert werden, sowie 120 weitere Zentren, die für Simulationen und die Analysen der Wissenschaftler zuständig sind.

"Physiker wollen diese Komplexität nicht sehen", sagt Merino. "Sie wollen - ohne nachdenken zu müssen - Berechnungen abschicken und auf ihre Daten zugreifen." In ersten Tests funktioniert das bereits sehr gut.

Bei Testläufen im Mai konnten kontinuierlich 120 Billionen Bytes pro Tag vom LHC ins Grid übertragen werden. 30.000 Prozessoren waren fortwährend am Rechnen. Merino ist sicher, dass davon nicht nur das Cern profitiert: "Das Petabyte-Zeitalter wird in Zukunft viele wissenschaftliche Disziplinen einschließen, wenn nicht sogar alle."

Amazon vermietet Rechenzeit

Astronomen entwickelten derzeit Teleskope, die den Himmel jede Nacht mit bislang nicht gekannter Genauigkeit absuchen sollen. Mehr als zehn Petabyte an Bildern fallen dabei jährlich an. Aber auch in Krankenhäusern, wo Tomographen und Röntgengeräte zunehmend digital arbeiten, würden sich in den nächsten Jahren enorme Datenmengen ansammeln, die ausgewertet oder gespeichert werden müssen.

Noch seien Grids aber alles andere als selbstverständlich, sagt Merino. Auch der Rechnerverbund am LHC müsse erst beweisen, dass er fit für die kommenden Anforderungen sei. Er werde sich anpassen und schnell verändern müssen. Merino ist überzeugt: "In drei Jahren wird das Grid ganz anders aussehen als heute."

Und vielleicht auch seine Nutzer: Statt Teilchenphysikern und Medizinern könnten eines Tages alle Internetnutzer von der verteilten Rechenkraft profitieren. Schon heute beginnen Internet-Unternehmen wie Amazon, die freien Kapazitäten ihrer Rechenzentren zu vermieten. Wenn es gelänge, so etwas über eine offene, transparente, einfach zu bedienende Lösung zu realisieren, könne das die Nutzung von Computern revolutionieren.

Der Informatiker sieht dabei das World Wide Web als Vorbild, das vor 18Jahren ebenfalls am Cern erfunden wurde. Damals dachte niemand an Google & Co. - das Web war lediglich ein System, mit dem ein paar hundert Physiker aus aller Welt gemeinsam auf Informationen zugreifen und sie organisieren konnten. Heute hat es die Art, wie Menschen miteinander kommunizieren, grundlegend verändert.

Zur SZ-Startseite
Jetzt entdecken

Gutscheine: