Optimale Datenstromanalyse mit dem Filetype-Analyzer

Jetzt auf GitHub: Die leichtgewichtige Bibliothek zur Identifizierung von Datenformaten und zur Extraktion von Metadaten

Ob als Pre-Validation von Datenströmen vor dem Upload oder zur Extraktion von PDF-Metadaten - der filetype-analyzer der levigo solutions bietet hierzu eine leichtgewichtige Bibliothek für die Lösung des Problems.

Dabei wird auf die jahrelange Erfahrung im Bereich Dokumentenmanagement zurückgegriffen, denn die Library ist Bestandteil des etablierten und erfolgreichen Produkts jadice server.

Die Erkennung der Formate reicht dabei von Bildformaten wie PNG, TIFF, JPEG über PDF, DOCX, ODF uvm. Ebenfalls werden E-Mailformate wie EML und MSG und Formate aus dem Archivumfeld wie beispielsweise MO:DCA und AFP zuverlässig erkannt.

Folgende Eigenschaften machen den filetype-analyzer zur idealen Bibliothek für die Erkennung unbekannter Datenströme jeglicher Datenstromverarbeitung:

  • Erkennung gängiger Formate auf der Grundlage einer XML-basierten Matching-Beschreibung
  • Extraktion von Metadaten aus bestimmten Formaten mit Hilfe von spezialisierten Matchern und Extraktoren
  • Hinzufügung neu erkannter Formate

Jetzt auf GitHub: Der filetype-analyzer von levigo!