Aspekte der Langzeitspeicherung
Das Speicherungskonzept in MONARCH
-
Vortrag auf dem Workshop
"Neue Organisationsformen elektronischer Veröffentlichungen"
Dortmund, 23./24.November 1998
Christoph Ziegler, TU Chemnitz, Universitätsrechenzentrum
Inhalt:
-
Langzeitarchivierung
-
Aspekte aus Nutzersicht
-
Aspekte aus Betreibersicht
-
Systematisierung
-
Speicherungskonzept in MONARCH
-
Grundprinzip
-
Speichertechnologie
-
Speicherstruktur
-
Adressierung
-
Unversehrtheit
-
Zusammenfassung
1. Langzeitarchivierung
Langzeitarchivierung - Was ist das? Was verbirgt sich hinter diesem
Begriff?
Da mit diesem Begriff sicherlich unterschiedlichste Erwartungen, Auffassungen
in Verbindung gebracht werden, nachfolgend eine kurze Einführung in
dieses Thema.
1.1 Aspekte aus Nutzersicht
Unter einem Nutzer sollen hier zwei Personengruppen verstanden werden:
-
die Person, die auf ein digitalisiertes Dokument zugreifen will, sowohl
suchend als auch lesend
-
die Person, die ein digital vorliegendes Dokument im Internet verfügbar
machen will
Folgende Fragestellungen sind vorstellbar:
-
Um welche Zeiträume geht es bei einer Langzeitspeicherung bzw. -archivierung?
Sind da 5 Jahre relevant? 15 Jahre? Oder gar 50 Jahre?
Der Autor wird wohl eher tiefstapeln, ein Historiker eher ...
-
Existiert meine bzw. ein ehemals veröffentlichtes Dokument nach soundsoviel
Jahren noch?
-
Wie finde ich ein solches Dokument wieder? Existiert die mir bekannte Adresse
noch? Kann ich künftige Suchmechanismen verwenden?
-
Kann ich das Dokument überhaupt noch lesen?
Heute habe ich meinen PC mit einem WWW-Browser, wie sieht die künftige
Rechentechnik aus, gibt es das WWW noch?
-
Wer garantiert mir, daß der Inhalt des digitalen Dokuments nicht
manipuliert wurde?
1.2 Aspekte aus Betreibersicht
Betreiber ist diejenige Person bzw. Einrichtung, die diese Technologie
zur Archivierung/Veröffentlichung im Internet erstellt hat und nun
auch verantwortlich ist, diese am Leben zu halten!
Einige der möglichen Fragestellungen sind:
-
Das digitale Dokument wurde auf einem bestimmten Speichermedium bereitgestellt
(geschrieben), z.B. Platte, CDROM, etc. Wo existiert dieses Medium, ist
es online verfügbar oder in welchem Safe liegt es?
-
Gibt es in einigen Jahren noch die für ein bestimmtes Medium benötigten
Laufwerke/Geräte?
-
Ist das Speichermedium hinsichtlich seines Materials (Magnetschicht, ...)
noch lesbar?
-
Mit welcher Software ist das digitale Dokument in einigen Jahren visualisierbar?
-
Wie lange gibt es das WWW noch? Diese Frage mag für manchen unangemessen
erscheinen, man sollte sich jedoch nur vergegenwärtigen, welche DV-Technolgie
vor 10 Jahren aktuell war. Und die Entwicklung hat sich keinesfalls verlangsamt
...
-
Welche Speichermedien gibt es in 10 oder 20 Jahren? Sowohl die jetzige
Plattentechnologie dürfte in Frage gestellt werden als auch die CDROM-Technologie.
Die jetzigen CDROMs sind zwar mit DVD-Laufwerken lesbar, doch ...
-
Wie sieht die künftige Rechentechnik aus? Zur Visualisierung digitaler
Dokumente wird wohl auch in Zukunft ein Hilfsmittel nötig sein ;-)
1.3 Systematisierung
Ein Versuch, die aufgeworfenen Fragen/Probleme zu systematisieren:
-
Verfügbarkeit
-
Medium
-
Laufwerk
-
Rechner
-
Medienunabhängigkeit
-
Medienmigration
-
Skalierbarkeit
-
Lesbarkeit
-
physische Zugriffsmöglichkeit
-
logische Zugriffsmöglichkeit (Zugriffsrechte)
-
Adressierung
-
Finden eines Dokuments (Recherche)
-
technologie-unabhängiges Finden
-
Interpretierbarkeit
-
Datenformat
-
Konvertierbarkeit des Inhalts
-
(ist Unicode oder ascii nicht besser ?)
-
Unversehrtheit
-
Inhalt (Originalinhalt)
-
Konsistenz
-
sind alle zum Dokument gehörenden Teile verfügbar/existent?
-
sind alle archivierten/bereitgestellten Dokumente verfügbar?
Konsequenz
Die logischen Konsequenzen aus diesen Fragestellungen müßen
folgende sein:
-
Diese digitalen Dokumente müßen in einer Weise gespeichert werden,
die möglichst unabhängig von aktuellen Technologien ist.
(hinsichtlich Medien, Adressierung, Datenformat)
-
Primat muß das Verfügbarmachen des unversehrten Inhalts eines
Dokuments sein
(nicht des originalen Datenträgers oder Datenformats).
2. Das Speicherungskonzept in MONARCH
MONARCH steht für Multimedia ONline ARchiv CHemnitz
Existiert seit 1995 und wird gemeinsam von Universitätsbibliothek
und Universitätsrechenzentrum betrieben.
2.1 Grundprinzip
(hinsichtlich Langzeitarchivierung)
Nutzung existierender Technologien
-
WWW
-
"standardisierte" Datenformate
-
Filesystem als Basistechnologie
-
Nutzung des Client-Server-Prinzips (Fileserving)
Die Bereitstellung und Verwaltung von Speicherplatz ist nicht Aufgabe
von MONARCH, MONARCH ist lediglich Klient.
-
Medienunabhängigkeit
MONARCH interessiert nicht, auf welchem Medium ein digitales Dokument
aktuell existiert
-
Rechnerunabhängigkeit
MONARCH muß/darf nicht wissen, welcher Fileserver den Speicherplatz
aktuell bereitstellt
-
keine Nutzung "endlicher" Speichertechnologien, wie CDROM
2.2 Speichertechnologie
Fileserving mit HSM - AFS,MRAFS,SAM-FS
Legende:
HSM - Hierarchical Storage Management
AFS - Andrew File System
MRAFS - Multiresidentes AFS
SAM-FS - (HSM-Software)
MONARCH, auf der linken Seite des Bildes dargestellt, ist eine Anwendung
unter mehreren, die sich um Speicherplatz bewerben. Speicherplatz für
neue Dokumente als auch Speicherplatz, der von Dokumenten belegt ist. Letztere
Funktionalität wird benötigt, um existierende Dokumente für
die Zugriffsmechanismen von MONARCH bereitzustellen (WWW, Recherche, ...).
Diese Bewerbung um Speicherplatz geschieht seitens der Klienten anonym
gegenüber einer skalierbaren Menge von Fileservern (siehe rechten
Bildteil). Auch die Anwendung MONARCH muß also nicht wissen, welcher
der Fileserver den Speicherplatz bereitstellt.
Diese anonyme Menge von Fileservern realisiert somit neben der Skalierbarkeit
(Erweiterbarkeit) auch die Rechnerunabhängigkeit.
Der dritte Fileserver (rechts unten) demonstriert, mittels eines weiteren
angeschlossenen Mediums (aktuell eine Tape-Library), die Medienunabhängigkeit.
Dieses weitere Medium stellt gegenüber Platten ein sekundäres
Medium dar, auf das nur mittels (im Filesystem integriertem) HSM indirekt
über Platte zugegriffen werden kann. Somit ist auch die Medienmigration
gegeben.
2.3 Speicherstruktur
Das nachfolgende Bild stellt die Integration der in MONARCH enthaltenen
Dokumente in der Filesystemhierarchie dar:
Daraus ist ersichtlich, daß folgende Trennungen vorgenommen sind:
-
Dokument - Dokument
-
Dokument - (zugehörige) formale Beschreibung
-
Dokument - Metadaten (DublinCore)
-
Metadaten (DublinCore) - Recherchedatenbasis
Durch die Integration in die Filesystemhierarchie ist somit auch ein Dokumentenzugriff
möglich, ohne das WWW bemühen zu müssen. Darüber hinausgehend
ist durch den Einsatz von AFS sogar eine weltweite Filesystemhierarchie
gegeben, mit entsprechenden Zugriffsmöglichkeiten.
2.4 Adressierung
Die statische URL-Adresse ermöglicht die Zitierbarkeit eines Dokuments.
z.B.: http://archiv.tu-chemnitz.de/pub/1996/0012
Alternativ kann der statische Pfadname der Filesystemhierarchie verwendet
werden.
z.B.: /afs/tu-chemnitz.de/publication/1996/0012
Die Nutzung von AFS erlaubt die Verwendung eines solchen Pfadnamens
als Bestandteil einer weltweiten AFS-Filesystemhierarchie.
Alternativ können zur Lokalisierung eines Dokuments Suchmaschinen
sowie die in MONARCH intergrierte Recherche genutzt werden.
Die Struktur der URL-Adresse erlaubt auch das alternative Auffinden
eines als Zitat (URL) angegebenen Dokuments:
2.5 Unversehrtheit
Dieses Thema ist in Arbeit und wird mit der Version 1.3 von MONARCH in
Nutzung genommen.
Verwendung finden:
-
digitale Signatur (PGP)
als Nachweis, daß dieses Dokument in diesem Zustand übernommen
wurde
-
hash-Daten
als Basis für die Verifizierung der Dokumentenkonsistenz
als Basis für eine regelmäßige automatische Konsistenzprüfung
des Archivs
Nach einer notwendigen Konvertierung eines Dokuments wird dieses erneut
signiert, als Nachweis der Unversehrtheit des Inhalts.
2.6 Zusammenfassung
Abschließend eine Zusammenfassung in Form eines Schichtenmodells:
logisch |
Anwendung |
MONARCH |
Basissoftware |
WWW,PGP,Harvest |
Migrationssystem |
HSM |
Filesystem |
AFS |
physisch |
Medien |
Platte,RAID,Tape |
Rechner |
Archivserver |
Umgebung |
Strom, Netz |
-
MONARCH ist eine Anwendung, die auf andere Dienste aufsetzt
-
ohne Energie (Strom) sind alle Aktivitäten für die Katz ;-)
Chr.Ziegler
Die zum Vortrag genutzten Unterlagen sind hier
einzusehen.