Internet:Jäger des virtuellen Schatzes

Die Deutsche Nationalbibliothek soll alle deutschsprachigen Internetseiten archivieren - ein ehrgeiziges Projekt mit enormen Problemen.

Jürgen Schmieder

Sisyphos bekam von den Göttern eine Strafe auferlegt: Jeden Tag musste er einen Felsbrocken einen steilen Hang hinaufrollen. Bevor er den Gipfel erreichte, rutschte ihm der Stein aus den Händen, und er musste von vorne beginnen. Seine Aufgabe sollte trotz aller Mühen niemals erledigt sein. Das Gesetz zur Deutschen Nationalbibliothek vom 22. Juni 2006 hört sich an, als wäre es direkt der griechischen Mythologie entsprungen.

Internet: Will das Internet archivieren: Die Deutsche Nationalbibliothek (Leipziger Gebäude)

Will das Internet archivieren: Die Deutsche Nationalbibliothek (Leipziger Gebäude)

(Foto: Foto: dpa)

Dort steht, dass vom 29. Juni an auch Internet-Publikationen gespeichert werden. Jede einzelne deutsche Webseite. Auch Homepages von Privatleuten. Ein ehrgeiziges Projekt, das 2005 von Christina Weiss, zu dieser Zeit noch Beauftragte der Bundesregierung für Kultur und Medien, ins Kabinett eingebracht wurde. Der Vorschlag geht zurück auf die Generalkonferenz der Unesco im Jahr 2001, die eine Resolution zur Bewahrung des digitalen Erbes annahm. Seitdem wird gesammelt. Großbritannien versucht bereits seit drei Jahren, nicht gedruckte Veröffentlichungen zu archivieren.

Übermotiviert oder verrückt?

Es hat jedoch den Anschein, dass der Gesetzgeber bei der Formulierung des Textes ein wenig übermotiviert gehandelt hat. Denn: Das Internet ist groß. Sehr groß. Am 27. Juni überstieg die Anzahl der Webseiten, die auf -.de enden, zum ersten Mal die Zehn-Millionen-Marke. Würde man jede Seite nur einmal aufrufen und sie sich eine Minute lang ansehen - man wäre 19 Jahre lang beschäftigt. Dann ginge es wieder von vorne los. Wer also versucht, sämtliche Netzinhalte zu archivieren, muss verrückt sein. Und über einen riesigen Speicher verfügen.

Es ist eine unglaubliche Datenmenge, die da auf die Nationalbibliothek zukommt. Bisher sind an den drei Standorten der Bibliothek 22,2 Millionen Einheiten gesammelt - alle deutschen, deutschsprachigen und aus dem Deutschen übersetzten Publikationen seit 1913, dazu noch alle Veröffentlichungen über Deutschland. Es ist nicht möglich, auch nur grob zu schätzen, wie viele Internetseiten zusätzlich zu den zehn Millionen Seiten, die auf -.de enden, in deutscher Sprache veröffentlicht sind oder sich mit Deutschland beschäftigen.

Die Nationalbibliothek hat bereits angekündigt, die Suche in drei Schritten anzugehen. Zuerst sollen alle Publikationen gesammelt werden, die eine Entsprechung im Printbereich haben - Monografien, Dissertationen, Online-Ableger von Zeitungen etwa. Dann folgen webspezifische Veröffentlichungen wie Forenbeiträge und Weblogs. Im dritten Stadium soll dann das gesamte deutsche Netz archiviert werden. Inklusive jener Homepages, die nicht unbedingt für die Öffentlichkeit bestimmt sind.

Jäger des virtuellen Schatzes

Die Seite mit privaten Urlaubsfotos etwa, die man nur seinen besten Freunden zeigen will, muss laut Gesetz ebenfalls archiviert werden. "Nicht nur Online-Medien sind Veröffentlichungen. Auch eine private Homepage ist eine Publikation, ob mit Passwort geschützt oder nicht", sagt Stephan Jockel von der Deutschen Nationalbibliothek. "Sie gehört genauso wie Weblogs und Foren zum kulturellen und geistigen Schaffen unserer Gesellschaft. Eine Pflichtablieferungsverordnung wird den Sammelauftrag noch einmal konkretisieren." Bald stehen also auch private Fotos, Texte und Tonaufnahmen in der Nationalbibliothek.

Wie das geht? "Eine Möglichkeit ist das sogenannte Harvesting", sagt Jockel. Dabei sammelt eine Suchmaschine alle Seiten ein, die auf -.de enden oder den Begriff "Deutschland" enthalten. Das kann jedoch zu Problemen führen. Ein Beispiel: Die Maschine findet am 14. September 2006 eine deutsche Internetseite. Einige Wochen später wird sie aufgrund ihrer Inhalte für illegal erklärt und aus dem Netz genommen. In der Bibliothek wäre sie jedoch weiter zugänglich. "Dazu muss man den Leuten mit einem Hinweis klarmachen, dass es sich nicht um das Live-Web handelt, sondern um ein Archiv", sagt Jockel. "Und Seiten mit einem Veröffentlichungsverbot werden auch in der Bibliothek nicht mehr zugänglich sein."

Die Internetgemeinde soll mithelfen

Überhaupt soll die Internetgemeinde beim Aufbau der digitalen Bibliothek mithelfen. Denn ab sofort - und auch dafür gibt es einen Passus im Gesetz - haben Autoren und Betreiber deutschsprachiger Internetseiten die Pflicht, ihre Werke "in einfacher Ausfertigung abzuliefern", und das auch noch "vollständig, in einwandfreiem, nicht befristet benutzbaren Zustand". Um die Forderung zu unterstreichen, droht das Gesetz unter dem Paragrafen 19 gleich ein Bußgeld von bis zu 10000 Euro an. Allerdings steht da kein Wort darüber, wie man das macht: so eine Internetseite bei der Deutschen Nationalbibliothek abliefern.

Es gibt bislang auch keine Regelung für Webseiten, die kostenpflichtig sind. Die Seite playboy.de etwa enthält einen Bereich, der nur gegen Bezahlung sichtbar ist. Wenn der Inhalt bei der Nationalbibliothek archiviert wird, wäre sie für jedermann zugänglich. Kostenlos. "Dazu muss man aber zu uns in die Bibliothek kommen", sagt Jockel. Es sei wie bei anderen Veröffentlichungen auch. Bücher kosten im Handel Geld, können im Archiv aber eingesehen werden.

Also kann der Web-Historiker in zehn Jahren in das Archiv gehen und sich jede deutsche Webseite eines bestimmten Tages ansehen? "Ganz so einfach ist es nicht", sagt Jockel. "Manche Internetseiten sehen nach zehn Minuten schon komplett anders aus. Online-Medien verändern sogar bereits veröffentlichte Texte." Man müsste nicht nur in Tage, sondern auch in Sekunden unterteilen. Man kann nur spekulieren, wie das in der Praxis funktionieren soll.

Die Archivierungsarbeit hat längst begonnen, auch wenn es für 2006 noch keinen Etat dafür gibt. "Etwa zwei bis drei Millionen Euro pro Jahr werden da auf uns zukommen", sagt Jockel. Und eine Aufgabe, die abenteuerlich und eigentlich nicht zu bewältigen ist. Vielleicht sollte man der Suchmaschine, die da nach deutschen Inhalten im Netz sucht, den Namen "Sisyphos" verleihen.

Zur SZ-Startseite
Jetzt entdecken

Gutscheine: