Faculté des sciences et techniques de l'ingénieur STI, Section d'électricité, Institut de traitement des signaux ITS (Laboratoire de l'IDIAP LIDIAP)

Text detection and recognition in images and video sequences

Chen, Datong ; Thiran, Jean-Philippe (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2003 ; no 2863.

Add to personal list
    Summary
    Text characters embedded in images and video sequences represents a rich source of information for content-based indexing and retrieval applications. However, these text characters are difficult to be detected and recognized due to their various sizes, grayscale values and complex backgrounds. This thesis investigates methods for building an efficient application system for detecting and recognizing text of any grayscale values embedded in images and video sequences. Both empirical image processing methods and statistical machine learning and modeling approaches are studied in two sub-problems: text detection and text recognition. Applying machine learning methods for text detection encounters difficulties due to character size, grayscale variations and heavy computation cost. To overcome these problems, we propose a two-step localization/verification approach. The first step aims at quickly localizing candidate text lines, enabling the normalization of characters into a unique size. In the verification step, a trained support vector machine or multi-layer perceptrons is applied on background independent features to remove the false alarms. Text recognition, even from the detected text lines, remains a challenging problem due to the variety of fonts, colors, the presence of complex backgrounds and the short length of the text strings. Two schemes are investigated addressing the text recognition problem: bi-modal enhancement scheme and multi-modal segmentation scheme. In the bi-modal scheme, we propose a set of filters to enhance the contrast of black and white characters and produce a better binarization before recognition. For more general cases, the text recognition is addressed by a text segmentation step followed by a traditional optical character recognition (OCR) algorithm within a multi-hypotheses framework. In the segmentation step, we model the distribution of grayscale values of pixels using a Gaussian mixture model or a Markov Random Field. The resulting multiple segmentation hypotheses are post-processed by a connected component analysis and a grayscale consistency constraint algorithm. Finally, they are processed by an OCR software. A selection algorithm based on language modeling and OCR statistics chooses the text result from all the produced text strings. Additionally, methods for using temporal information of video text are investigated. A Monte Carlo video text segmentation method is proposed for adapting the segmentation parameters along temporal text frames. Furthermore, a ROVER (Recognizer Output Voting Error Reduction) algorithm is studied for improving the final recognition text string by voting the characters through temporal frames. The whole system was successfully evaluated on large databases of camera-based images and video sequences obtained in context of two European projects ASSAVID1 and CIMWOS2. ---------- 1 European project ASSAVID: Automatic Segmentation and Semantic Annotation of Sports Videos, 5th Framework Programme, Information Society Technology, supported by OFES. Web site: http://www.bpe-rnd.co.uk/assavid/ 2 European project CIMWOS: Combined IMages and WOrd Spotting , 5th Framework Programme, Information Society Technology, supported by OFES.Web site: http://www.xanthi.ilsp.gr/cimwos/
    Résumé
    Les textes inclus dans des images et des séquences vidéos sont une source d'information très riche pour les applications d'indexation et de recherche automatique. Cependant, ces caractères sont difficiles à détecter et à reconnaître en raison de la variabilité de leurs tailles, de leurs niveaux de gris et de leurs arrière-fonds. Cette thèse étudie des méthodes génériques pour construire un système capable de détecter et de reconnaitre de tels textes au sein d'images fixes et de vidéos. Des modélisations statistiques par apprentissage ainsi que des méthodes de traitement d'image plus empiriques sont proposées pour résoudre les deux sous-problèmes majeurs posés par notre problème : d'un coté la détection et la localisation du texte dans les images, de l'autre la reconnaissance du texte détecté. L'utilisation de méthodes par apprentissage en détection de texte se heurte aux difficultés causées par la variabilité de la taille et des valeurs de niveau de gris des caractères, ainsi qu'au coût de calcul de ces méthodes. Pour surmonter ces problèmes, nous proposons une approche en deux étapes : localisation de texte puis vérification. La première étape vise à localiser rapidement des régions horizontales de l'image qui contiennent potentiellement des lignes de texte. La hauteur de ces régions est ensuite normalisée, ce qui permet de réduire la variance de la taille des caractères en entrée de l'étape suivante. Lors de l'étape de vérification des régions extraites, une machine à vecteurs de supports (support vector machine) ou un perceptron multicouches est appliqué après entrainement sur des caractéristiques de l'image invariantes par rapport au niveau de gris et de l'arrière fond du texte, ceci afin d'éviter les fausses détections. La reconnaissance de texte, même appliquée aux lignes contenant potentiellement du texte, reste un problème difficile étant donné la diversité des polices et des couleurs, la présence d'arrière-fonds complexes et la faible longueur des chaînes de caractères. Deux approches sont étudiées afin de résoudre le problème de la reconnaissance: une approche par augmentation de contraste reposant sur une hypothèse de bi-modalité des niveaux de gris, et une approche avec segmentation multi-modale. Pour l'approche bi-modale, nous proposons un ensemble de filtres permettant d'accentuer les caractères contrastés, ce qui conduit ensuite à une meilleure binarisation des caractères en noir et blanc avant l'application d'un algorithme commercial de reconnaissance optique de caractères (ROC). Dans l'approche multimodale, la reconnaissance est abordée par une étape de segmentation suivie par une étape de reconnaissance optique de caractères dans un cadre d'hypothèses multiples. Plus précisément, lors de l'étape de segmentation, nous modélisons la distribution des niveaux de gris par un mélange de gaussiennes ou un champ de Markov à K classes, K pouvant varier entre 2 et 4. Les segmentations qui en résultent sont post-traitées par un algorithme de décomposition en composantes connexes et d'un algorithme imposant une contrainte d'uniformité des niveaux de gris, puis traitées par un logiciel de ROC. Un algorithme de sélection basé sur un modèle de langage et les statistiques ROC sélectionnent le texte parmi toutes les chaînes de caractères proposées. De plus, des méthodes permettant d'utiliser l'information temporelle des textes vidéo sont étudiées. On propose une méthode pour adapter des paramètres de segmentation au fil des trames vidéos de texte à l'aide d'une méthode de Monte-Carlo séquentielle. En outre, un algorithme ROVER (Recognizer Output Voting Error Reduction) est étudié afin d'améliorer la reconnaissance finale du texte en combinant, par un algorithme de vote appliqué à chaque caractère, les multiples chaînes de caractères reconnues au cours du temps. Le système complet a été évalué avec succès sur différentes bases de données d'images fixes ainsi que de séquences vidéos acquises dans le cadre des deux projets européens ASSAVID et CIMWOS.