Faculté des sciences

A framework for interactive document recognition

Hitz, Oliver ; Ingold, Rolf (Dir.)

Thèse de doctorat : Université de Fribourg, 2005 ; Nr. 1488.

Document recognition is a research domain that doesn’t lose its relevance even in a world where documents are increasingly often available in an electronic form. Whereas some years ago, the goal of document recognition was to convert documents from paper into an electronic form, the problem is shifted more and more from pure recognition towards document understanding. This requires much more... Plus

Ajouter à la liste personnelle
    Zusammenfassung
    Die Dokumenterkennung ist ein Forschungsgebiet, das auch mit der zunehmenden Verlagerung von Inhalten in elektronische Formate nicht an Bedeutung verliert. Ging es vor einigen Jahren noch in erster Linie darum, Dokumente in Papierform in eine elektronische Form zu bringen, verlagert sich das Problem immer mehr vom reinen Erkennen des Dokumentes hin zu einem Verstehen des Inhaltes. Dazu wird immer mehr Kontextwissen benötigt – Wissen, das sich schlecht ein für allemal festlegen lässt. Dieses Problem kann angegangen werden, indem der Benutzer als wichtiger Bestandteil des Dokumenterkennungssystem gesehen wird. Der Benutzer weiss, was er vom Erkennungssystem erwartet, warum also kann nicht diese Information verwendet werden? Genau dies geschieht bei der interaktiven Dokumenterkennung. Interaktive Dokumenterkennungssysteme kooperieren mit dem Benutzer und versuchen, von ihm zu lernen. Diese Dissertation behandelt das Problem der Interaktivität in solchen interaktiven Dokumenterkennungssystemen. Mit Hilfe von Technologie rund um den XML Standard und ausgehend von einer Idee, wie sie typischerweise bei der Publikation von Inhalten für das World Wide Web angewandt wird, wird ein Modell zur Strukturierung von Applikationen für die interaktive Dokumenterkennung entwickelt, welches eine hohe Wiederverwendbarkeit von Programmmodulen gewährleistet. Die Machbarkeit dieses Modells wird mit einem Prototyp aufgezeigt, mit welchem beliebige, im XML-Format vorliegende Dokumenterkennungsdaten mit wenig Aufwand grafisch visualisiert, und – mit etwas mehr Aufwand – interaktiv bearbeitet werden können. Die Tatsache, dass der Prototyp bereits in anderen Forschungsprojekten zum Einsatz gekommen ist, zeigt, dass der Ansatz sehr vielversprechend ist.
    Summary
    Document recognition is a research domain that doesn’t lose its relevance even in a world where documents are increasingly often available in an electronic form. Whereas some years ago, the goal of document recognition was to convert documents from paper into an electronic form, the problem is shifted more and more from pure recognition towards document understanding. This requires much more context knowledge – knowledge that cannot be easily specified. The problem can be approached by considering the user as an important component of the recognition system. The user knows what he expects from the recognition system, why shouldn’t this information be used? This is what interactive document recognition does. Interactive document recognition systems cooperate with the user and try to learn from him. This thesis addresses the problem of interactivity in interactive document recognition systems. By using technology around the XML standards, and starting from an idea that is typically used for publishing content for the World Wide Web, a model for structuring interactive document recognition applications is developed. This model ensures a high reusability of program modules. The feasibility of this model is demonstrated with a prototype that allows to graphically visualize document recognition data available in XML format. With a little bit more effort, the same data can be edited interactively. The fact that the prototype has already been used in other research projects shows that the approach is very promising.