Faculté informatique et communications IC, Section d'informatique, Institut d'informatique fondamentale IIF

Modèles syntaxiques probabilistes non-génératifs

Rozenknop, Antoine ; Rajman, Martin (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2002 ; no 2705.

Ajouter à la liste personnelle
    Summary
    Nongenerative Probabilistic Syntactic Models This work deals with models used, or usable in the domain of Automatic Natural Language Processing, when one seeks a syntactic interpretation of a statement. This interpretation can be used as additional information for subsequent treatments, that can aim for instance at producing a semantic representation of the statement. It can also be used as a filter to select utterances belonging to a specific language, among several hypotheses, as done in Automatic Speech Recognition. As the syntactic interpretation of a statement is generally ambiguous with natural languages, the probabilisation of the space of syntactic trees can help in the analysis task : when several analyses are competing, one can then extract the most probable interpretation, or classify interpretations according to their probabilities. We are interested here in the probabilistic versions of Context-Free Grammars (PCFGs) and Substitution Tree Grammar (PTSGs). Syntactic treebanks, which as much as possible account for the language we wish to model, serve as the basis for defining the probabilistic parameters of such grammars. First, we exhibit in this thesis some drawbacks of the usual learning paradigms, due to the use of arbitrary heuristics (STSG DOP model), or to the use of learning criteria that consider these grammars as generative ones (creation of sentences from the grammar) rather than dedicated to analysis (creation of analyses from the sentence). In a second time, we propose new methods for training grammars, based on the traditional Maximum Entropy and Maximum Likelihood criteria. These criteria are instanciated so that they correspond to a syntactic analysis task rather than a language generation task. Specific training algorithms are necessary for their implementation, but traditional algorithms can cope with those models for the task of syntactic analysis. Lastly, we invest the problem of time complexity of syntactic analysis, which is a real issue for the effective use of PTSGs. We describe classes of PTSGs that allow the analysis of a sentence in polynomial complexity. We finally describe a method that enable the extraction of such a PTSG from the set of subtrees of a treebank. The PTSG produced by this method allows us to test our non-generative learning criterium on "realistic" data, and to give a statistical comparison between this criterium and the usual heuristic criterium in term of analysis performance.
    Résumé
    Ce travail traite de modèles utilisés, ou utilisables en traitement automatique du langage naturel, lorsque l'on cherche une interprétation syntaxique d'un énoncé. Cette interprétation peut être utilisée comme une information supplémentaire pour des traitements ultérieurs de l'énoncé, visant par exemple à le représenter sémantiquement. Elle peut aussi servir plus simplement comme un filtre pour sélectionner des énoncés appartenant à un langage spécifique, comme en reconnaissance de la parole. L'interprétation syntaxique d'un énoncé en langage naturel étant le plus souvent ambiguë, la probabilisation de l'espace des arbres syntaxiques peut permettre de faciliter la tâche d'analyse : lorsque plusieurs analyses sont possibles, on peut alors extraire l'interprétation la plus probable, ou encore classer les interprétations selon leurs probabilités. On s'intéresse ici aux versions probabilistes des grammaires hors-contexte (PCFG) et des grammaires à substitution d'arbre (PTSG). La probabilisation des grammaires est réalisée à partir d'ensembles d'arbres syntaxiques d'apprentissage, représentant plus ou moins fidèlement le langage modélisé. Dans un premier temps, en nous appuyant sur des exemples jouets, nous exhibons un certain nombre de faiblesses des méthodes usuelles d'apprentissage, dues à l'absence de critère d'apprentissage explicite (modèle STSG DOP), ou à l'emploi de critères qui considèrent ces grammaires comme génératives (passage de la grammaire à un énoncé) plutôt que dédiées à l'analyse (passage d'un énoncé à son interprétation). Dans un deuxième temps, nous proposons de nouvelles méthodes d'apprentissage, développées à partir des critères classiques de maximum d'entropie, et de maximum de vraisemblance. Ces critères sont décrits de façon à correspondre à une tâche d'analyse syntaxique plutôt que de génération d'un langage. Des algorithmes d'apprentissage spécifiques sont nécessaires pour leur mise en application, mais l'analyse syntaxique subséquente peut utiliser des algorithmes classiques. Enfin, nous nous intéressons également aux problèmes de complexité de l'analyse syntaxique, particulièrement saillants avec les PTSG. Nous décrivons des classes de PTSG permettant l'analyse d'un énoncé avec une complexité polynomiale en sa longueur. Nous élaborons enfin des méthodes pour obtenir de telles PTSG à partir d'un corpus arboré, et les utilisons de façon à pouvoir tester les critères d'apprentissage en terme de résultats sur des données "réelles".