Software zur Webarchivierung

In Webarchiven finden sich grundsätzlich drei funktionale Softwarekategorien:

1.    Harvester

Der Harvester oder auch Crawler ist eine spezielle Software zum automatischen Einsammeln von Webseiten. Ausgehend von einer Startadresse (URL) wird die dadurch referenzierte Seite gespeichert und alle davon verlinkten Seiten bzw. eingebetteten Dateien ebenfalls aufgerufen und gespeichert. Dieser Prozess wird für alle gefunden Links weiter durchgeführt bis entweder keine Links mehr auf den Seiten vorliegen oder eine andere vorher konfigurierte Abbruchbedingung eintritt. Dies kann etwa abhängig vom gefunden Link sein (z. B. werden nur Seiten mit einer bestimmten Domain in der URL gesammelt) oder von der Gesamtzahl der gefolgten Links oder vom verlinkten Dateiformat. Ein gängiger Open-Source-Harvester ist die Software Heritrix.

2.    Curation Tool

Der Harvester muss für jede durchzuführende Spiegelung von Webseiten konfiguriert werden. Die eigentlichen Spiegelungen können dann automatisiert in regelmäßigen Abständen erneut erfolgen. Konfigurationen für Webseiten können in Abhängigkeiten von Rechteklärungen und Einbettungen in Hierarchien sein. Das dafür nötige Workflow Management wird in der Regel in einer Software zusammengefasst, die als Curation Tool bezeichnet wird. Das kann auch Möglichkeiten zur Qualitätssicherung beinhalten. Beispiele für Curation Tools sind die Open Source Software Web Curator Tool (WCT) und die NetarchiveSuite.

3.    Zugriff

Abhängig von der angebotenen Zugriffsmöglichkeit auf das Webarchiv ist eine geeignete Software nötig, die die zeitliche Dimension (verschiedene Spiegelungen einer Webseite) berücksichtigt. Dies kann ein Nachweissystem, eine Volltextsuche oder ein spezielles URL-Suchsystem (z. B. Wayback Machine) sein.

Das Webarchiv kann diese Funktionalitäten mit Software selbst betreiben oder in Teilen oder vollständig durch Dienstleister durchführen lassen.

(Textbeitrag: Tobias Steinke)

Ein weiteres Dokument beleuchtet die Sekundärdaten zwischen Client und Server: