Faculté informatique et communications IC, Section d'informatique, Institut d'informatique fondamentale IIF (Laboratoire d'intelligence artificielle LIA)

Exploitation de connaissances sémantiques externes dans les représentations vectorielles en recherche documentaire

Seydoux, Florian ; Rajman, Martin (Dir.) ; Chappelier, Jean-Cédric (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2006 ; no 3654.

Add to personal list
    Summary
    The work presented in this thesis deals with several problems met in information retrieval (IR), task which one can summarise as identifying, in a collection of "documents", a subset of documents carrying a sought information, i.e.. relevant for a request expressed by a user. In the case of textual documents, to which we limited ourselves within the framework of this thesis, a significant part of the difficulty lies in ambiguity inherent to human languages. The interaction with the user is also approached in our work, by studying a tool enabling a natural language access to a database. Finally, some techniques which permit the visualisation of large collections of documents are also presented. In this document we first of all describe the principal models of IR by highlighting the relations which exist with some manual technics of IR and document retrieval, developed during the past centuries. We present the principle of document indexing, allowing us to represent documents in a multidimensional space, and the use of this representation by a vectorial model. After having reviewed the principal improvements made these last years with vectorial research systems, including the preprocessings of collections, the indexing mechanism and measurements of similarities between documents, we detail some recent usecases of additional semantic resources (semantic dictionaries, thesaurus, networks, ontologies) reported in scientific literature for the indexing task. We then present more in detail the semantic indexing principle of textual documents by using a thesaurus, consisting in integrating in the document's representation space at least part of the informational contents of hierarchical semantic resources. We propose a general framework allowing us to describe and position various possible techniques to carry out the semantic indexing by adapting, if possible, the specificity of the descriptions resulting from the semantic resources to the data to be represented. We use this framework to describe three families of criteria usable for semantic indexing, each one having its own characteristics. For each of these families, we give the specific algorithms allowing the computation of the criteria. The first two families allow us to consider several criteria already known in feature selection. Moreover we show that, unfortunately, many of these criteria are in fact not very effective for the considered task. The third family allows us to introduce a completely new criterion, the Minimum Redundancy Cut criterion (MRC), built on the basis of the information theory and allowing us to obtain index terms having a probability of occurrence in the collection of documents as well balanced as possible. Finally, we treat the case of semantic index independent of the data (statically choosen), allowing a parameterisation of the level of generality of the index terms. Some of the criteria suggested for semantic indexing has been empirically evaluated. To judge their relevance, we used a well known vectorial system (the Smart IR system) and measured the performances of IR obtained with various reference collections. Those collections was indexed on the basis of the studied criterion, by taking into account the strongly structuring semantic relation of hyper/hyponymy ("is-a" relation), given by two different semantic resources. By comparing results obtained with the performances of a traditional indexing (using the lemmas of the words as representation space), we can show on one hand the relevance of the semantic indexings (in RD) and on the other hand the quality of the proposed criterion (MRC). Concerning man-machine interaction, we present a general outline allowing to build in a relatively fast and systematic way systems with mixed initiative, giving the human user a large (and natural) latitude in the control of the dialogue. This outline is usable in typical database research-task applications (where the database is hidden to the user, but the latter knows exactly which information they wish to find) as well as advice-task applications, for which the users does not necessarily have a precise idea of their needs, and uses the system not only for specifing their wishes, but also a set of propositions as a final result. We particularly stress the techniques allowing us to obtain a robust system, able to deal with speech recognizer failures. Concerning the visualisation of large textual data collections, we present an application of the correspondences analysis (allowing to highlight similarities and oppositions for various groups of entity, built on the basis of additional features present in the DB) to the case of patents data. In addition, we propose a method (based on the bootstrap replication principle) allowing us to determine a confidence interval for relative positionings of various groups, thus permit to immediately judge the reliability of the visually apparent similarities or oppositions.
    Résumé
    Les travaux présentés dans ce mémoire de thèse traitent d'un certain nombre de problématiques rencontrées en recherche documentaire (RD), tâche que l'on peut résumer comme consistant à identifier, dans une collection de documents (au sens large), celui ou ceux porteurs d'une information recherchée, i.e. pertinents par rapport à une requête exprimée par un utilisateur. Dans le cas de documents de nature textuelle, auxquels nous nous sommes limités dans le cadre de cette thèse, une part importante de la difficulté réside dans l'ambiguïté inhérente aux langues humaines. L'interaction avec l'utilisateur est également abordée dans notre travail, par l'étude d'un outil d'accès en langage naturel à une base de données. Finalement, quelques techniques permettant la visualisation des bases documentaires de grande taille sont présentées. Dans ce mémoire, nous décrivons tout d'abord les principaux modèles de RD, en mettant en évidence les relations qui existent avec les techniques manuelles de RD et de recherche en document, développées au cours des siècles. Nous présentons notamment le principe de l'indexation des documents, permettant de représenter ces derniers dans un espace multidimensionnel, et l'utilisation de cette représentation par le modèle vectoriel. Après avoir passé en revue les principales améliorations apportées ces dernières années aux systèmes de recherches vectoriels, tant sur le plan des pré-traitements des collections, du mécanisme d'indexation, et des mesures de similarité entre documents, nous détaillons les cas récents d'utilisation de ressources sémantiques additionnelles (dictionnaires, thésaurus, réseaux sémantiques, ontologies) rapportées dans la littérature scientifique, en particulier dans une optique d'indexation. Nous présentons ensuite plus en détail le principe d'indexation sémantique de documents textuels à partir de thésaurus, consistant à intégrer dans l'espace de représentation des documents une partie au moins du contenu informationnel de ressources sémantiques hiérarchisées. Nous proposons un cadre général permettant de décrire et positionner différentes techniques envisageables pour réaliser l'indexation sémantique, en adaptant si possible la richesse des descriptions issues des ressources sémantiques aux données à représenter. Nous utilisons ce cadre pour dégager trois familles de critères utilisables pour l'indexation sémantique, chacune ayant ses particularités propres. Pour chacune de ces familles, nous donnons les algorithmes permettant la mise en oeuvre des critères. Les deux premières familles permettent de considérer plusieurs critères déjà connus de sélection de termes. Nous montrons en outre que bon nombre de ces critères ne sont en fait que peu efficaces pour la tâche considérée. La troisième famille nous permet d'introduire un critère totalement nouveau, le critère de coupe de redondance minimale (CRM), construit sur la base de la théorie de l'information, et permettant d'obtenir des termes d'index ayant une probabilité d'occurrence dans la collection de documents la plus équilibrée possible. Finalement, nous traitons le cas d'index sémantiques indépendants des données (déterminés statiquement), avec paramétrisation du degré de généralité des index. Une partie des critères proposés pour l'indexation sémantique fait l'objet d'une évaluation empirique, évaluation qui est présentée à la suite. Pour juger de la pertinence de ces critères, nous avons utilisé un système vectoriel largement répandu (le système Smart) et avons mesuré les performances de RD obtenues sur un certain nombre de collections de références, indexées sur la base de ces critères, en prenant en compte la relation sémantique fortement structurante d'hyper/hyponymie "est-un" issue de deux ressources sémantiques différentes. En confrontant les résultats obtenus, et en les comparant aux performances d'une indexation traditionnelle (utilisant les lemmes des mots des documents comme espace de représentation), nous pouvons conclure d'une part à la pertinence des indexations sémantiques en RD, et d'autre part à la qualité indéniable de notre critère CRM. En matière d'interaction homme-machine, nous présentons un schéma général permettant de construire de manière relativement rapide et systématique des systèmes à initiative mixte, laissant à l'utilisateur humain une large latitude dans la conduite du dialogue. Ce schéma est à la fois utilisable dans des applications typiques de recherche d'information dans une base de données (la base est cachée à l'utilisateur, mais celui-ci sait exactement quelle information il désire) et dans des applications de conseils, pour lesquelles l'utilisateur n'a pas nécessairement d'idée précise sur ce qu'il désire, et attend de la part du système non seulement qu'il l'aide à préciser ses souhaits, mais également un ensemble de propositions comme résultat final. Nous mettons en particulier l'accent sur les techniques permettant d'obtenir un système robuste, capable de pallier dans une large mesure les erreurs de reconnaissance vocale. En matière de visualisation de grandes collections de données textuelles, nous présentons une application de l'analyse des correspondances (permettant de mettre en évidence des similitudes ou des oppositions entre différents groupes, construits sur la base des traits additionnels) au cas de données issues de bases de brevets. Il est ainsi possible de déterminer, pour divers groupes (pays, sociétés, etc.), les éléments spécifiques communs à certains de ces groupes (similitudes), ou au contraire les opposant (différences). Nous proposons par ailleurs une méthode (basée sur le principe de réplication bootsrap) permettant de déterminer un intervalle de confiance pour les positionnements relatifs des différents groupes, et ainsi de juger immédiatement de la fiabilité des similitudes ou oppositions visuellement apparentes. Ces outils sont utilisés dans le cadre d'une méthodologie d'analyse de bases de brevets, permettant de réaliser des comparaisons multicritères de l'activité "d'innovation" de différents pays, de différents secteurs d'activité ou encore de grandes compagnies. Ils présentent également un intérêt pour l'identification de concurrents dans un secteur donné, ou l'étude des interactions pouvant exister entre différents domaines d'activité technologique ou différents pôles d'innovation à l'intérieur de ces domaines.