Informatique de gestion - Wirtschaftsinformatik

Analyse komplexer Dokumente für die Extraktion und Indizierung von Texten und Bildern zur anschliessenden Informations-Suche

Eggel, Ivan ; Müller, Henning (Dir.)

Mémoire de bachelor : Haute Ecole de Gestion & Tourisme, 2008.

Der praktische Teil meiner Bachelor-Arbeit befasst sich mit der Indizierung und Suche von Texten und Bildern komplexer Dateien. Die im Rahmen dieser Arbeit entwickelte Lösung ist eine Web-Applikation. Aus diesem Grund ist es in einem ersten Schritt notwendig, die zu indizierenden Dokumente auf dem Server bereitzustellen. Für diese Bereitstellung habe ich folgende drei Verfahren implementiert:... Plus

Ajouter à la liste personnelle
    Zusammenfassung
    Der praktische Teil meiner Bachelor-Arbeit befasst sich mit der Indizierung und Suche von Texten und Bildern komplexer Dateien. Die im Rahmen dieser Arbeit entwickelte Lösung ist eine Web-Applikation. Aus diesem Grund ist es in einem ersten Schritt notwendig, die zu indizierenden Dokumente auf dem Server bereitzustellen. Für diese Bereitstellung habe ich folgende drei Verfahren implementiert: • Upload des Dokuments durch den User • Download eines im WWW öffentlich erreichbaren Dokuments mittels der Angabe des Pfades durch den User • Einbeziehung eines Dokument-enthaltenden Verzeichnis auf dem Server mittels der Angabe des Server-Datei-System-Pfades durch den User. Nach der Bereitstellung eines Dokuments ist es in einem zweiten Schritt notwendig, die benötigen Inhalte aus dieser Datei zu extrahieren. Die relevanten Inhalte beziehen sich dabei auf den Text, die Bilder und den Autor des Dokuments. Der nächste Arbeits-Schritt setzt sich als Ziel, die eben extrahierten Inhalte zu indizieren. Für die Indizierung Text-basierter Inhalte habe ich dabei die kostenlos vom Apache-Projekt zur Verfügung gestellte Open-Source Bibliothek Lucene verwendet. Mit Hilfe des von der Universität Genf entwickelten GNU-Image-Finding Tools (GIFT), einem Open-Source CBIR-Programm für die Indizierung und Suche von Bildern, werden daraufhin alle im Dokument enthaltenen Bilder in einen Index aufgenommen. Sobald die Text-und Bild-Inhalte des Dokuments für die Suche aufbereitet wurden, ist der End-User nun in der Lage, über das Web-Interface, eine sowohl textuelle (Inhalt und Autor) wie auch visuelle Suche (Bilder) zu lancieren. Diese beiden erwähnten Such-Arten wurden dabei in meiner Implementierung miteinander auf die Weise verknüpft, sodass es jeweils möglich ist von einem über die textuelle Suche gefundenen Dokument auf direkte Weise zu Inhalt-basiert ähnlichen Bildern zu gelangen. Zudem ist meine Applikation fähig, gefundene Bilder rückwirkend wieder einem Dokument zuzuordnen.