Faculté des sciences

Recognition of ultra low resolution, anti-aliased text with small font sizes

Einsele-Aazami, Farshideh ; Ingold, Rolf (Dir.)

Thèse de doctorat : Université de Fribourg, 2008 ; no 1610.

Ajouter à la liste personnelle
    Zusammenfassung
    In dieser Dissertation wird das Problem der Texterkennung in Anti-Aliased Bildern mit sehr tiefer Auflösung von 72 bis 100 dpi und bei Schriftgrössen zwischen 7 bis 12 Punkten behandelt. Solche Texte kommen häufig in Bildern im Web vor. Da die darin enthaltenen textlichen Informationen von grosser semantischer Bedeutung sein können, verbessert eine ausreichend gute Erkennung die Qualität der Indexierung und erhöht auch die Gewinnung von Informationen bei automatischen inhaltsbasierten Suchsystemen. Anti-Aliasing ist eine Technik, die zur Verbesserung der Lesbarkeit bei einer limitierten Anzahl von Pixels verwendet wird. Dabei werden die Pixel in Graustufen dargestellt und ermöglichen damit eine bessere Erkennbarkeit, speziell bei Kanten und Diagonalen. Anti-Aliasing führt aber auch dazu, dass ein Teil der einzelnen Buchstaben auf jeweils beiden Seiten miteinander verschmilzt. Diese Verschmelzung führt dazu, dass die einzelnen Buchstaben nicht mehr mit den bekannten Segmentierungsmethoden der klassischen Dokumentanalyse aufschlüsselbar sind. Zusätzlich erzeugt diese Technik ein so genanntes "kontextliches Rauschen", sowohl auf der linken wie auch auf der rechten Seite der einzelnen Buchstaben. Dieses Rauschen führt zu einer deutlichen Verschlechterung der Schrifterkennungsrate selbst dann, wenn die Buchstaben eines jeden Wortes vorgängig segmentiert worden sind. Die klassischen OCR-Systeme sind nicht in der Lage, solche Texte ausreichend zu erkennen, da sie grundsätzlich zum Erkennen von Scans aus gedrucktem Text mit einer minimalen Auflösung von 150 dpi entworfen worden sind. In der Literatur findet man so auch zahlreiche Artikel, die von der Extraktion und Erkennung von Texten in Web-Bildern handeln. Diese Arbeiten konzentrieren sich aber fast ausschliesslich auf die Textextraktion und die Erhöhung der Auflösung des extrahierten Textbildes mittels Anwendung diverser Preprocessing Techniken. Die somit erhaltenen Textbilder werden dann anschliessend mittels eines kommerziellen OCR Softwares erkannt. Die hier vorgestellte Arbeit verwendet einen neuartigen Ansatz, sowohl für die Segmentierung wie auch für die Erkennung von Anti-Aliased Texten in Bildern mit sehr niedriger Auflösung auch bei kleinen Schriften. Die hier eingesetzten Methoden werden direkt auf den extrahierten Anti-Aliased Text angewendet und verwenden somit auch keine Preprocessing Methoden zur Verbesserung der Bildqualität und Erhöhung deren Auflösung. Es werden zuerst Experimente mit einzelnen Buchstaben vorgestellt. Eine erste Studie diente zur Ermittlung einer geeigneten Methode zur Extraktion der Merkmale von isolierten Buchstaben. Die so ermittelten Eigenschaften waren die zentralen Momente erster und zweiter Ordnung. In einer zweiten Studie wurden die gegenseitigen kontextlichen Einflüsse von benachbarten Buchstaben untersucht. Die Verteilung der Merkmale in den beiden ersten Studien erfolgte dabei unter der Annahme einer einfachen Gauss'schen Verteilung (Mono-Gauss). Damit konnte bei isolierten Buchstaben eine bemerkenswert gute Erkennungsrate von 99.93% erreicht werden. Bei Buchstaben, die aus dem Kontext eines Wortes herausgelöst worden sind, betrug die Erkennungsquote immer noch 98.45%. Diese Abnahme ist in erster Linie auf den Einfluss des "kontextlichen Rauschens" zurückzuführen. Beide Studien haben die Notwendigkeit nach dem Einsatz einer statistischen Methode aufgezeigt, die in der Lage sein sollte, verbundene Buchstaben in einem Wort gleichzeitig zu segmentieren und zu erkennen. Eine Methode, die sich dazu als sehr geeignet erweisen sollte, ist die Hidden Markov Modelle (HMM). Um das Problem der Segmentierung zu umgehen, wurde das unbekannte Wortbild in mehrere kleine Fenster aufgeteilt (mittels der so genannten Sliding Windows Technik) und es wurden dann die Eigenschaften jedes einzelnen Fensters berechnet. Im Weiteren konnten auch die Erkenntnisse der ersten Studien bei der Entwicklung eines Erkennungssystems für ganze Wörter einfliessen. So konnte zum Beispiel ein zusätzlicher Buchstabe zur Darstellung des "kontextlichen Rauschens" eingeführt werden oder es wurden Multi-Gauss'sche Funktionen anstelle der einfachen Gauss'schen Verteilung zur Darstellung der Distribution der Merkmale eingesetzt. Zur weiteren Verbesserung der Wort-Erkennungsrate wurden die Zustände mit einer minimalen und maximalen Vorkommenslänge versehen. Es wurden zwei verschiedene Erkennungssysteme für isolierte Wörter implementiert. Das Erste basiert auf einem Wörterbuch und ist in der Lage, bis zu 60'000 Wörter zu erkennen. Dem Zweiten liegt kein Wörterbuch zugrunde und kann daher auf jedes beliebige Wort in jeder Sprache angewendet werden, solange nur der Text in lateinischen Buchstaben geschrieben ist. Es wurden auch Experimente zur Messung der Performances beider Erkennungssysteme durchgeführt. Diese Experimente wurden vorerst in einem "Mono-Font" Kontext ausgeführt. Danach wurden die zu diesen typographischen Schrifteigenschaften passenden und optimierten Charakter-Modelle dem Erkennungssystem zugeführt. Damit und mit dem Einsatz des Viterbi-Algorithmus wurde das richtige Wort erkannt. Mit einer solchen Konfiguration wurde eine generelle Wort-Erkennungsrate bei 48 Fonts von 97.56% für das Wörterbuch-basierte Erkennungssystem und von 97.43% für das Wörterbuch-unabhängige Erkennungssystem erreicht. Zusätzlich wurde die Möglichkeit der Gruppierung der Serif und Sans Serif Fonts zur Bildung eines Serif oder Sans Serif Erkennungssystems für das Wörterbuch-unabhängige System Überprüft. Es konnte eine generelle Wort-Erkennungsrate von 96.94% in beiden Fällen erreicht werden.