Webarchivierung in der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek (DNB) sammelt und archiviert Webseiten und macht sie so verfügbar. Dies geschieht nach dem "Gesetz über die Deutsche Nationalbibliothek" (DNBG) von 2006. Darin heißt es in § 2: "Die Bibliothek hat die Aufgabe [...] die ab 1913 in Deutschland veröffentlichten Medienwerke [...] im Original zu sammeln, zu inventarisieren, zu erschließen und bibliografisch zu verzeichnen, auf Dauer zu sichern und für die Allgemeinheit nutzbar zu machen [...]." Weiterhin wird in § 3 (3) definiert: "Medienwerke in unkörperlicher Form sind alle Darstellungen in öffentlichen Netzen." Somit fallen Webseiten in den gesetzlichen Auftrag der DNB.

Webseitensammlung als Herausforderung

Webseiten unterscheiden sich grundlegend von anderen körperlichen (z. B. Bücher) und unkörperlichen (z. B. E-Books) Publikationen, die von der DNB gesammelt und archiviert werden. Die Art der Veröffentlichung, die Bereitstellung über Webserver, führt zu einer potenziell sich jederzeit ändernde Publikationen ohne eindeutige Erscheinungsdaten. Zudem sind die Inhalte von Webseiten in verschiedener Hinsicht dynamisch. Sie entstehen letztlich erst im Moment des Abrufs als Prozess der Aufbereitung von verschiedenen Daten. Die Inhalte selbst weisen eine hohe Varianz auf und können zwar auch statisch aus Text und Bildern bestehen, aber technisch ebenso aus interaktiven Elementen, die eher einem Computerprogramm entsprechen.

Daraus ergeben sich Konsequenzen für die Sammlung:

  1. Eine Ablieferung nach Veröffentlichung ist kaum sinnvoll möglich. Zum einen können Änderungen sehr häufig stattfinden (auch im Minutentakt), zum anderen liegen die Webseiten teilweise gar nicht in der Form, wie sie dann benutzt werden, beim Veröffentlichenden vor, da sie aus verschiedenen Datenquellen im Moment des Aufrufs erst dynamisch erzeugt werden. Daher wird stattdessen ein automatisiertes Sammelverfahren eingesetzt, was die Seiten aufruft und dabei abspeichert.

  2. Das Sammeln einer Webseite stellt immer nur eine Momentaufnahme dar. Im nächsten Moment kann die Webseite schon wieder geändert sein. Deshalb wird man die Webseite regelmäßig einsammeln, was allerdings nicht verhindert, dass Sammlungslücken entstehen. Eine Vollständigkeit kann somit prinzipiell nicht erreicht werden.

  3. Hoch interaktive Inhalte können kaum mit dem automatischen Sammelverfahren gesichert werden. Wenn Inhalte etwa erst durch Eingabe von Suchbegriffen angezeigt werden, kann dies nicht automatisiert durchgeführt werden. Somit kann auch für die gesammelten Momentaufnahmen keine inhaltliche und qualitative Vollständigkeit gewährleistet sein.

Trotzdem hat sich das automatisierte Sammelverfahren, auch als Webharvesting oder Webcrawling bezeichnet, als einzig gangbarer Weg für die Webarchivierung etabliert. Dabei ruft eine Software, der sogenannte Harvester oder auch Crawler, in vordefinierten Abständen eine Webadresse (URL) auf und speichert alle zurückgelieferten Inhalte ab. Zugleich werden die Inhalte nach Verweisen (Links) auf weitere URLs durchsucht und diese wiederum aufgerufen. Das geht so lange weiter, bis eine vorher technisch festgelegte Abbruchbedingung eintritt. Eine solche kann etwa sein, wenn der gefundene Link auf einen anderen Server verweist oder eine bestimmte Anzahl von nachverfolgten Links erreicht wurde.

Das Webharvesting-Verfahren wird von allen Webarchiven weltweit eingesetzt. Dabei spricht man vom selektiven Webharvesting, wenn dieses gezielt für ausgewählte Webseiten genutzt wird. Daneben gibt es noch das Crawling innerhalb der länderspezifischen Top-Level-Domain. Damit sind Webseiten mit Adressendungen wie ".fr" für Frankreich oder ".de" für Deutschland gemeint.

Die Sammlung der Deutschen Nationalbibliothek

Die Deutsche Nationalbibliothek führt das selektive Webharvesting thematisch und zu Ereignissen seit 2012 durch. Dabei wird mit dem Dienstleister oia GmbH zusammengearbeitet. Bibliothekarinnen und Bibliothekare wählen Webseiten nach Themenkategorien wie "Behörden und Institutionen des Bundes" und Ereignissen wie "Europawahl 2019" aus und nutzen die Software des Dienstleisters für die Sammlung.

Dazu wird über eine lokal installierte Software die Startadresse der Webseite und ein manuell vergebener Titel erfasst, sowie eine oder mehrere Kategorien vergeben. Außerdem werden als Rahmenbedingungen festgelegt, wie oft bzw. wann die Seite gesammelt werden soll und was die Abbruchbedingung ist. Die Standardfrequenz für thematische Sammlungen ist zweimal pro Jahr. Ereigniscrawls werden zu passenden Zeitpunkten durchgeführt. Als Abbruchbedingung wird im Regelfall alles von der selben Adresse gesammelt.

Diese Daten werden an den Dienstleister übermittelt, deren Harvester-Software entsprechend der Vorgaben die Seiten besucht und abspeichert. Zugleich wird eine grundlegende Qualitätssicherung durchgeführt, die allerdings wegen des Umfangs und der vorgenannten Einschränkungen des Verfahrens weder vollständig sein kann, noch für alle Seiten akkurate Ergebnisse liefert. Die zunehmend dynamischen und technisch komplexen Webseiten lassen sich mit dem beschriebenen Verfahren oft nicht so abspeichern, dass sie den ursprünglichen Webseiten in Aussehen und Verhalten entsprechen. Zwar werden auch die Harvester ausgefeilter, aber mehr als ein "So gut wie möglich"-Ansatz ist mit automatischen Verfahren beim Webharvesting nicht zu erreichen.

Die erfassten Daten generieren Einträge im Bibliothekskatalog der DNB. Nutzende können somit über eine Suche nach einer URL oder einem Titel im Katalog auch archivierte Webseiten finden. Dabei werden für jede Webseite die Datumsangaben aufgelistet, an denen diese eingesammelt wurden, und darüber können die archivierten Webseiten des jeweiligen Tages aufgerufen werden.

Während der Katalog über die Webseite der DNB von überall zugänglich ist, können die archivierten Webseiten in der Regel nur von Rechnern in den Lesesälen der DNB geöffnet werden. Dies liegt an den rechtlichen Rahmenbedingungen. Eine Bereitstellung der archivierten Webseiten im Internet würde eine Rechteeinholung aller Rechteinhaber erfordern, was beim Umfang der Sammlung nicht mit vertretbarem Aufwand machbar und angesichts der vielfältigen Inhalte sehr komplex wäre.

Neben dem Zugang zum Webarchiv über den Katalog gibt es auch eine separate Einstiegsseite, über die die archivierten Seiten nach Kategorien geordnet aufgelistet werden. Zudem wird dort eine Volltextsuche über alle Webseiten im Webarchiv angeboten.

Inhaltlich finden sich inzwischen 35 thematische Bereiche, zu denen Webseiten gesammelt werden, z. B. Musik, Medizin, Nachrichtenwebseiten und Universitäten. Zu den ca. 80 gesammelten Ereignissen gehören z. B. "100 Jahre Erster Weltkrieg 2014–2018", "Bundestagswahl 2013", "Corona-Pandemie" und "Grimme Online Award 2016". Die Sammlung umfasst derzeit (Februar 2021) über 5.000 Webseiten mit ingesamt mehr als 33.000 Crawls. Das ist angesichts des Umfangs des Webs eine recht überschaubare Größe. Daher soll die Sammlung in den nächsten Jahren deutlich ausgeweitet werden. Ziel ist dabei, die exemplarische Vielfalt des Webs besser zu erfassen. Eine Vollständigkeit der Sammlung kann es hingegen nicht geben und wird daher auch nicht angestrebt.

Nationale und internationale Kooperationen

Eine Ausweitung der Sammlung hat sich bereits durch die Zusammenarbeit mit anderen deutschen Pflichtexemplarbibliotheken ergeben, die regionale Webseiten auswählen und so das Webarchiv der DNB um thematische Kategorien wie "Webarchiv Thüringen" und "Webarchiv Hamburg" erweitern. Weitere Kooperationen zu inhaltlichen Erweiterungen sind in Planung.

Im Rahmen der Mitarbeit am AWV-Arbeitskreis "Dokumentation und Archivierung von Webpräsenzen" tauscht sich die DNB mit anderen webarchivierenden Institutionen in Deutschland zu Sammlungen und Verfahren aus.

Als Mitglied des International Internet Preservation Consortium (IIPC) arbeitet die DNB mit Webarchiven weltweit zusammen am Aufbau gemeinsamer Sammlungen und technologischen Weiterentwicklungen zur Verbesserung der Webarchivierung.

Mit dem ältesten und umfangreichsten Webarchiv, dem US-amerikanischen Internet Archive, hat die DNB eine Zusammenarbeit für ein ergänzendes Angebot in ihren Lesesälen. Über ein spezielles Suchportal kann die gesamte Sammlung des Internet Archive gefiltert nach Webseiten in der Top-Level-Domain ".de" durchsucht werden.

Bild: AdobeStock, ProstockStudio/AWV