Faculté des sciences

Une étude de l'évolutivité des modèles pour la reconnaissance de documents arabes dans un contexte interactif

Hadjar, Karim ; Ingold, Rolf (Dir.)

Thèse de doctorat : Université de Fribourg, 2006 ; no 1513.

Cette thèse aborde la reconnaissance de structures physiques et logiques de documents complexes, riches en variabilité. Plus particulièrement, nous avons étudié l’évolutivité des modèles dans un contexte interactif, où le système intègre progressivement les connaissances induites par les corrections de l’utilisateur. Nous avons étudié les caractéristiques de la langue arabe et... Plus

Ajouter à la liste personnelle
    Résumé
    Cette thèse aborde la reconnaissance de structures physiques et logiques de documents complexes, riches en variabilité. Plus particulièrement, nous avons étudié l’évolutivité des modèles dans un contexte interactif, où le système intègre progressivement les connaissances induites par les corrections de l’utilisateur. Nous avons étudié les caractéristiques de la langue arabe et nous avons conçu un système de reconnaissance pour cette langue. Dans un premier temps, nous avons adapté des méthodes de segmentation classiques, généralement utilisées pour les documents utilisant un alphabet latin. Nous avons constaté que les résultats obtenus par ces méthodes, peuvent être améliorés en intégrant des connaissances relatives à la classe de documents traitée. Nous préconisons pour cela l’intervention de l’utilisateur. L’idée est de transférer l’expertise de l’utilisateur vers le système de reconnaissance en convertissant ses corrections en connaissances. Ainsi, dans un deuxième temps, nous avons construit deux systèmes de reconnaissance pour traiter respectivement la reconnaissance physique (PLANET) et logique (LUNET) en utilisant un modèle évolutif qui s’adapte à toute nouvelle classe de documents. Le système PLANET utilise plusieurs modèles dédiés, chacun étant associé à une classe de documents donnés. La tâche de ces modèles est d'apprendre les caractéristiques propres à leur classe. Les modèles dédiés sont initialisés avec un modèle général qui est construit en vue d’avoir une connaissance générale de la superclasse de documents. Les systèmes PLANET et LUNET ont été évalués sur les classes de documents bien adaptés à la problématique : les journaux en langue arabe (ANNAHAR, AL HAYAT et AL QUDS). Après le traitement interactif de 10-15 pages de documents, le taux de reconnaissance passe de 96.729% à 98.687% ce qui correspond à une diminution du taux d’erreurs de 59.859%. Quant à LUNET, le taux moyen de reconnaissance est de 94% avec une diminution du taux d’erreurs de 63.436%. Ainsi, nous estimons avoir démontré la pertinence d’utiliser des modèles évolutifs pour la reconnaissance de structures physiques et logiques de documents complexes. Ce type d’approche est particulièrement avantageux pour les applications de reconnaissance de taille moyenne ; c’est notamment le cas de la création de fonds de vérité qui est une opération fastidieuse et coûteuse. Grâce à PLANET / LUNET le processus de construction de tels fonds est simplifié.
    Summary
    This thesis addresses the recognition of physical and logical structures of complex documents, rich in variability. More precisely, we studied the evolution of models within an interactive context where the system gradually integrates the knowledge induced by the corrections of the user. We studied the features of the Arabic language and we designed a recognition system for this language. In a first stage, we adapted traditional segmentation methods that are generally used for documents using a Latin alphabet. We noted that the results obtained by these methods, can be improved by integrating knowledge related to the treated class of documents. For that purpose we recommend the intervention of a user. The idea is to transfer the expertise from the user towards the recognition system by converting its corrections into knowledge. Thus, in the second stage, we built two systems for performing respectively the physical recognition (PLANET) and logic (LUNET) by using an evolutiv model which adapts to all new class of documents. The PLANET system uses several dedicated models; each one being associated a given class of documents. The task of these models is to learn the specific features of their class. The dedicated models are initialized with a general model, which is built in order to integrate general knowledge of a superclass of documents. The PLANET and LUNET systems have been evaluated on the classes of documents which are well adapted to the problematic: three classes of newspapers in Arabic language (ANNAHAR, AL HAYAT et AL QUDS). After the interactive treatment of 10- 15 pages, the recognition rate raised from 96.729% to 98.687% which corresponds to a reduction in the error rate of 59.859%. As for LUNET, the average recognition rate is 94% with a reduction in the error rate of 63.436%. Thus, we estimate having shown the relevance of using evolutiv models for the recognition of the physical and logical structures, of complex documents. This type of approach is particularly advantageous for mid-sized applications; it is for instance the case of ground truth production, which is a tiresome and expensive operation. Thanks to PLANET/LUNET the process of building such ground truth is simplified.