SONAR|HES-SO

SONAR|HES-SO

SONAR|HES-SO regroupe les travaux de bachelor et master diffusables de plusieurs écoles de la HES-SO. Consultez cette page pour le détails.

En cas de question, merci de contacter les bibliothécaires de la HES-SO : bibliotheques(at)hes-so.ch

Research report

Ex imagine ad litteras : projet d’océrisation de la collection De Bry

    2020

54 p.

French Ce projet de recherche, en collaboration avec le Bodmer Lab, consiste à océriser la collection de Bry, des imprimés latins des XVIe et XVIIe siècles, afin d’en obtenir une transcription aussi correcte que possible et de la rendre explorable par la recherche plein texte. Dans un premier temps, nous avons testé quatre logiciels d’océrisation gratuits et open source, Tesseract, Kraken, Calamari et OCR4all. Kraken et Calamari ont donné des résultats peu convaincants, mais Tesseract et OCR4all étaient bien plus performants. Nous avons testé en mesurant la précision, le rappel, et la F-mesure (F1) au niveau des caractères et au niveau des mots. Pour Tesseract, nous avons obtenu une F1 de 78.62% (caractères) et 31.78% (mots). Pour OCR4all, nous avons obtenu une F1 de 85.43% (caractères) et 49.51% (mots). Cependant, un bug d’OCR4all en rend son utilisation complexe et chronophage, et nous avons choisi de travailler avec Tesseract. Nous avons ensuite essayé différentes méthodes pour améliorer les résultats obtenus avec Tesseract, certaines basées sur le traitement des inputs, d’autres sur le traitement des outputs, et une autre sur une fonctionnalité du logiciel. Toutes les méthodes n’étaient pas nécessairement efficaces, mais grâce à certaines, nous avons pu atteindre une F1 de 80.06% au niveau des caractères et de 34.58% au niveau des mots. Enfin, nous avons proposé des solutions d’intégration des transcriptions sur le site web du Bodmer Lab. Nos recommandations prennent en compte les technologies actuellement utilisées par le mandant, à savoir IIIF et Mirador, et se basent sur des méthodes en usage dans des institutions similaires.
Language
  • French
Classification
Information, communication and media sciences
Series statement
  • Travail de recherche réalisé dans le cadre du Master of Science HES-SO en Sciences de l'information à la Haute école de gestion de Genève (HEG-GE), Filière Information documentaire, 2020
Notes
  • Haute école de gestion Genève
  • Information documentaire
  • hesso:hegge
License
License undefined
Identifiers
  • RERO DOC 328465
  • REPORT NUMBER TRMASID 22
Persistent URL
https://sonar.ch/hesso/documents/314892
Statistics

Document views: 123 File downloads:
  • BURGY_GERSON_SCHUPBACH_Projet_Recherche_Bodmer_Lab.pdf: 180