Faculté informatique et communications IC, Section d'informatique, Institut d'informatique fondamentale IIF (Laboratoire de bases de données LBD)

Semantic validation in spatio-temporal schema integration

Sotnykova, Anastasiya ; Spaccapietra, Stefano (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2006 ; no 3423.

Ajouter à la liste personnelle
    Summary
    This thesis proposes to address the well-know database integration problem with a new method that combines functionality from database conceptual modeling techniques with functionality from logic-based reasoners. We elaborate on a hybrid - modeling+validation - integration approach for spatio-temporal information integration on the schema level. The modeling part of our methodology is supported by the spatio-temporal conceptual model MADS, whereas the validation part of the integration process is delegated to the description logics validation services. We therefore adhere to the principle that, rather than extending either formalism to try to cover all desirable functionality, a hybrid system, where the database component and the logic component would cooperate, each one performing the tasks for which it is best suited, is a viable solution for semantically rich information management. First, we develop a MADS-based flexible integration approach where the integrated schema designer has several viable ways to construct a final integrated schema. For different related schema elements we provide the designer with four general policies and with a set of structural solutions or structural patterns within each policy. To always guarantee an integrated solution, we provide for a preservation policy with multi-representation structural pattern. To state the inter-schema mappings, we elaborate on a correspondence language with explicit spatial and temporal operators. Thus, our correspondence language has three facets: structural, spatial, and temporal, allowing to relate the thematic representation as well as the spatial and temporal features. With the inter-schema mappings, the designer can state correspondences between related populations, and define the conditions that rule the matching at the instance level. These matching rules can then be used in query rewriting procedures or to match the instances within the data integration process. We associate a set of putative structural patterns to each type of population correspondence, providing a designer with a patterns' selection for flexible integrated schema construction. Second, we enhance our integration method by employing validation services of the description logic formalism. It is not guaranteed that the designer can state all the inter-schema mappings manually, and that they are all correct. We add the validation phase to ensure validity and completeness of the inter-schema mappings set. Inter-schema mappings cannot be validated autonomously, i.e., they are validated against the data model and the schemas they link. Thus, to implement our validation approach, we translate the data model, the source schemas and the inter-schema mappings into a description logic formalism, preserving the spatial and temporal semantics of the MADS data model. Thus, our modeling approach in description logic insures that the model designer will correctly define spatial and temporal schema elements and inter-schema mappings. The added value of the complete translation (i.e., including the data model and the source schemas) is that we validate not only the inter-schema mappings, but also the compliance of the source schemas to the data model, and infer implicit relationships within them. As the result of the validation procedure, the schema designer obtains the complete and valid set of inter-schema mappings and a set of valid (flexible) schematic patterns to apply to construct an integrated schema that meets application requirements. To further our work, we model a framework in which a schema designer is able to follow our integration method and realize the schema integration task in an assisted way. We design two models, UML and SEAM models, of a system that provides for integration functionalities. The models describe a framework where several tools are employed together, each involved in the service it is best suited for. We define the functionalities and the cooperation between the composing elements of the framework and detail the logics of the integration process in an UML activity diagram and in a SEAM operation model.
    Résumé
    Ce travail de recherche aborde la problématique d'intégration de base de données et propose une nouvelle méthode qui allie les techniques de modélisation conceptuelle de bases de données avec les capacités de raisonnement des logiques de description. Nous avons élaboré une approche hybride - modélisation+validation - pour l'intégration de données spatio-temporelles au niveau du schéma. La partie modélisation de notre méthodologie est réalisée avec le modèle conceptuel pour données spatio-temporelles, MADS, et la partie de validation du processus d'intégration est déléguée aux services de raisonnement des logiques de description. En effet, plutôt que d'étendre l'un ou l'autre formalisme et essayer d'offrir toutes les fonctionnalités souhaitées, nous considérons que un système hybride où le composant base de données et le composant logique coopèrent, chacun accomplissant les tâches pour lesquelles il est le plus adapté, est la solution la plus appropriée pour la gestion sémantique de l'information. Nous avons développé une approche flexible d'intégration où le concepteur du schéma intégré dispose de plusieurs manières valides pour construire un schéma intégré final. Pour chacun des éléments des schémas en correspondance, nous proposons ainsi au concepteur quatre politiques générales d'intégration avec, pour chacune, un ensemble de solutions structurelles (ou de patterns structuraux). Afin de pouvoir toujours offrir au concepteur une solution pour l'intégration de ses schémas, nous avons prévu une politique particulière appelée politique de conservation reposant sur le pattern de multi-représentation. Pour formuler les mappings inter-schémas, nous avons défini un langage de correspondances incluant des opérateurs spatiaux et temporels. Ainsi, notre langage de correspondances possèdant trois facettes: structurale, spatiale, et temporelle, il permet de relier non seulement la représentation thématique des données mais aussi leurs propriétés spatiales et temporelles. A l'aide des mappings inter-schémas, le concepteur peut spécifier les correspondances entre les populations reliées, et définir les conditions qui régissent la mise en correspondance des données au niveau instance. Ces règles peuvent alors être employées lors les procédures de re-écriture de requêtes et pour apparier les instances lors du processus d'intégration de données. Nous avons associé à chaque type de correspondance entre des populations un ensemble de solutions structurelles putatives, fournissant au concepteur une sélection de patterns pour la construction d'un schéma intégré flexible. Nous avons considéré que, utilisant un modèle conceptuel spatio-temporel expressif, le concepteur de schéma est capable de spécifier ses mappings inter-schéma manuellement. Cependant il n'était pas acceptable de considérer que le concepteur serait capable d'énoncer tous les mappings, et que ces mappings seraient tous corrects. Pour pallier ce problème, nous avons adjoint notre méthode d'intégration une étape de validation permettant d'assurer la validité et l'intégrité de l'ensemble des mappings inter-schémas. Les mappings inter-schémas ne peuvent pas être validés de fa»con autonome, ils sont validés relativement au modèle de données utilisé et aux schémas qu'ils mettent en correspondance. Ainsi, lors de la validation, nous traduisons tout d'abord le modèle de données MADS, puis les schémas sources et les mappings inter-schémas en une logique de description préservant la sémantique spatiale et temporelle du modèle MADS. Cette étape de validation permet de certifier que le concepteur du schéma a défini correctement les éléments spatiaux et temporels du schéma ainsi que les mappings inter-schémas. La valeur ajoutée de la traduction complète (c.-à-d., incluant le modèle de données et les schémas sources) est que nous validons non seulement les mappings inter-schémas, mais également la conformité des schémas sources au modèle de données, et que cela permet d'inférer des liens implicites entre les schémas sources. A l'issue de la validation, le concepteur de schéma obtient un ensemble complet et valide de mappings inter-schémas, et un ensemble de patterns schématiques (flexibles) valides qu'il peut ensuite appliquer pour construire le schéma intégré répondant aux exigences de son application. Finalement, nous avons aussi proposé un modèle décrivant une architecture dans laquelle le concepteur de schéma peut appliquer notre méthode d'intégration et être assisté lors de l'intégration de ses schémas sources. Nous avons réalisé le modèle de cette architecture à l'aide de deux formalismes différents, le formalisme UML et le formalisme SEAM. Ces modèles décrivent une architecture dans laquelle plusieurs outils sont utilisés conjointement, chacun étant employé pour le service pour lequel il est le plus adapté. Enfin, nous avons défini les fonctionnalités entre les éléments composants de l'architecture, comment ils coopèrent, et nous avons détaillé la logique du procédé d'intégration dans un diagramme d'activité UML et dans un diagramme d'operation de SEAM.