eMail-Archivierung: Konvertieren ohne Informationsverlust

Die Konvertierung komplexer Dokumente läuft oftmals in mehreren Stufen ab. Um auch nach der Umwandlung einen Überblick über das Ausgangsdokument zu haben, muss die Konvertierungssoftware mehrere Anforderungen erfüllen. Eine eingehende Voranalyse des Dokuments gibt der Software Aufschluss über die notwendigen Schritte. Zudem muss zeitgleich die ursprüngliche Dokumentstruktur dokumentiert werden, da diese nach einer Konvertierung nicht mehr verfügbar ist bzw. nicht übertragen werden konnte.
Wichtig sind hier vor allem die Informationen, die zu einem Dokument vorliegen und die auch nach der Konvertierung noch verfügbar sein sollen. Dies können Informationen über Änderungs- und Erstelldatum, Urheber, Ursprung und Struktur des Dokuments sein. Diese Informationen gingen bei einer einfachen Umwandlung, etwa von Office-Dokumenten in ein PDF-Format, unweigerlich verloren.
Aber gerade in größeren Projekten, in denen unzählige Dokumente konvertiert werden, sind solche Informationen ungemein wichtig, um den Überblick zu behalten oder um gezielt in deren Metadaten suchen zu können. Am Besten lässt sich dies am Beispiel einer eMail-Konvertierung verdeutlichen.

Beispiel eMail-Konvertierung
Der jadice Server untersucht und durchleuchtet die eMail auf deren Inhalt und leitet die weiteren Schritte ein. Eine eMail kann dabei sehr komplex strukturiert sein und unter Umständen neben dem reinen eMail-Text auch mehrere Anhänge mit weiteren Dokumenten unterschiedlicher Formate enthalten. Diese Anhänge müssen erkannt, entschlüsselt, ausgepackt und aufbereitet werden, ohne dass wichtige Informationen wie Metadaten verloren gehen.
Erkennt der jadice Server beispielsweise ein ZIP-Dokument als Anhang, so leitet er automatisch eine Extraktion der enthaltenen Dokumente ein, welche dann erneut untersucht werden. Dies können Word-Dokumente mit zusätzlichen OLE und XLS-Informationen sein.
Ziel einer Konvertierung ist es nun, all diese Informationen über Dateiinhalte und Dateianhänge zu bewahren. Das heisst, die Software muss Datenblätter erstellen können, die sowohl Aufschluss über die Struktur der Ursprungsdatei geben können als auch über die Metadaten der enthalten Dokumente, wie Änderungsdatum, Ersteller und dergleichen. Dies geschieht in einzelnen, automatisch ablaufenden Konvertierungsstufen, die kaskadiert ausgeführt werden. Am Ende der Konvertierung sollte ein Dokument vorliegen, das alle Informationen des Ursprungsdokuments in geordneter und übersichtlicher Form wiedergibt.

Eine Konvertierungssoftware muss also folgende Anforderungen erfüllen:

  • Dynamisches System, das den Einbau zusätzlicher Konvertierungsstufen ermöglicht.
  • Automatische Erfassung, Erkennung, Voranalyse und Formatierung der Eingangsdokumente ohne Qualitäts- und Informationsverlust.
  • Erstellung von Datenblättern, die Aufschluss über Status- und Metadaten liefern.
  • Erstellung von Inhaltsverzeichnis und Trennblättern, die Informationen über Struktur und Inhalt der einzelnen Dateielemente beinhalten.

Der jadice Server erfüllt diese Anforderungen problemlos und bleibt darüber hinaus flexibel, da neue Formate einfach über Drittanwendungen eingebunden werden können. Zudem führt er durch eine Fremdkomponente nach Abschluss der Formatierung eine Qualitätsvalidierung durch.

Siehe auch Technische Informationen.