Faculté informatique et communications IC, Section d'informatique, Institut d'informatique fondamentale IIF (Laboratoire de bases de données LBD)

Proxys Internet avancés

Rochat, Philippe ; Spaccapietra, Stefano (Dir.)

Thèse sciences Ecole polytechnique fédérale de Lausanne EPFL : 2003 ; no 2762.

Ajouter à la liste personnelle
    Summary
    Since the 90's, the Internet has tremendously evolved in terms of number and diversity of available services. In this trend, proxies are playing a central role and are spread all over the net. Today, the only functionality of proxies is to speed content access through caching only considering statistics based on use made by a user group, all together. Nowadays, evolutions are focusing on two main trends: specific infrastructures that do not comply anymore with the Web universality or individual applications like filtering. We propose to make proxies evolve from simple passive intermediaries to an open platform with advanced caching functionalities stressing on maintaining a high level of compatibility with existing paradigms. We ground our developments on two qualities already available in proxies, widely spread over the Net: the privileged position (plesiocentrism) within the network infrastructures and the perceptivity we extend to new dimensions, more specifically semantic (engnose). In a first step, we elaborate a new Web resources indexation binding to the documents a semantic space, based on the absolute position defined from the URL and a relative position defined with the links that connect those resources. We extend the usage statistics to those new dimensions to build up a topological space that take into account the localization of the documents and the user browsing into that space. We present algorithms and functionalities to build, maintain and take advantage of this topology. With the aim of accelerating web browsing, we use this statistical space to implement a prefetching system based on Markov’s model. To extend the proxy perceptivity upstream to the users, we propose a mechanism to maintain a session, based on proxy-cookies. Therefore, we propose two new HTTP directives similar to those used for cookies. This paradigm also allows us to install personalized services with the support of the interaction concept and user profile. This last one allows us to tackle with mobility problems and to install proxies independently of physical network infrastructures. In a second move, we study how the proxy could take into account new dimensions in the semantic web and ontology context. The new technologies emerging like XML and annotations bring new information. That information can easily be processed by a computer system. As for the annotations, they considerably enrich the available informations in the proxy's perception through the classification or resources in ontology. We underline the opportunity for proxys, regarding their situation, to integrate functionalities of annotation server. We demonstrate what can be acquired that way and advantages to be won with the engnose definition as a new proxy quality that become perceptive to web disseminated knowledge. We present a new cache management based on virtual multi-level cache. We present an algorithm able to switch automatically to the correct domain regarding the ontological value of currently visited resources. Last, to demonstrate the validity of our propositions, we define the I3 platform (Intelligent Interactive Intermediaries): an architecture that supports all the various mechanisms presented above, but preserving integration with a minimum of impact on existing infrastructures. We define the concept of proxlet that is an intermediary agent generalization and allow the development of new user services. We demonstrate the value of our proposition by presenting opportunities brought by our platform. We take advantage of the interaction allowed by the session concept to implement functionalities also made possible by an advanced cache model based on topology, semantic and ontology. This platform allows the implementation of services such as browsing help, mobility filtering and service integration.
    Résumé
    Depuis le début des années 90, l'Internet a énormément évolué aussi bien en nombre qu'en diversité de services disponibles. Dans cette évolution, le proxy est un acteur important et très largement répandu. A l'heure actuelle, les proxys n'ont pour fonction que d'accélérer l'accès aux contenus par le biais du caching et se basent uniquement sur des statistiques qui transparaissent dans la fréquentation d'un groupe d'utilisateurs indistincts. Les évolutions dans ce domaine se dirigent soit vers des infrastructures marginales en sacrifiant l'universalité du Web, soit vers des applications individuelles (filtrage). Nous proposons de faire évoluer les proxys vers une plateforme intermédiaire ouverte avec des fonctionnalités de caching avancées, tout en maintenant un très fort niveau de compatibilité avec les paradigmes existants. Nous basons nos développements sur deux qualités déjà présentes dans tous les proxys Internet, mais peu exploitées: leur situation privilégiée (plésiocentrique) sur les infrastructures réseau et leur perceptivité que nous étendons à de nouvelles dimensions, notamment sémantiques (engnose). Dans un premier temps, nous élaborons une nouvelle indexation des ressources en associant aux documents un espace, que nous basons sur une position absolue extraite de la sémantique des URL, et une position relative, définie à partir des liens entre les ressources. Nous étendons les statistiques d'utilisation à ces nouvelles dimensions pour constituer un espace topologique prenant en compte la situation des documents et la navigation des utilisateurs dans cet espace. Nous proposons des algorithmes et des fonctionnalités pour construire, maintenir et exploiter cette topologie. Dans une optique d'accélération, cet espace statistique nous permet de mettre en place un système de prefetching basé sur des chaînes de Markov. Afin d'étendre la perceptivité du proxy aux utilisateurs en amont de la chaîne de consommation, nous proposons un mécanisme de maintien de sessions basé sur des proxy-cookies. Pour cela, nous élaborons deux nouvelles directives HTTP similaires à celles définies pour les cookies. Ce paradigme nous permet également de mettre en place des services personnalisés en supportant le concept d'interaction et de profil utilisateur. Ce dernier point débouche notamment sur des problèmes liés à la mobilité et apporte une indépendance de déploiement par rapport à la disposition des infrastructures au niveau physique. Dans un deuxième temps, nous étudions la prise en compte possible par les proxys de nouvelles dimensions dans le cadre du Web sémantique et des ontologies. Les nouvelles technologies qui entrent dans ce contexte, en particulier XML et les annotations, apportent de nouvelles informations. Ces dernières sont facilement exploitables par des processus informatiques. Quant aux annotations, elles enrichissent considérablement les informations perceptibles par le proxy, notamment par le biais de classifications dans des ontologies. Nous soulignons l'opportunité pour les proxys, de par leur situation intermédiaire et plésiocentrique, d'intégrer les fonctions de serveur d'annotations. Nous démontrons l'acquisition qui peut ainsi être faite et les avantages à en retirer par la définition de l'engnose. Il s’agit d’une nouvelle qualité du proxy qui le rend perceptif aux connaissances disséminées sur le Web. Nous proposons ainsi une nouvelle gestion du cache par métier basée sur une technique de cache virtuel à étages (partition verticale et horizontale). Nous présentons un algorithme de bascule automatique dans le domaine courant de l'utilisateur en fonction de la valeur ontologique des ressources en cour. Enfin, pour démontrer la validité de nos propositions, nous définissons la plateforme I3 (Intelligent Interactive Intermediaries), une architecture qui supporte les différents mécanismes abordés tout en s'intégrant avec un minimum d'impact dans les infrastructures existantes. Nous définissons le concept de proxlet qui permet une généralisation des agents intermédiaires pour la mise en place de services à l'utilisateur. Nous démontrons également l'intérêt de notre démarche en exposant les opportunités que notre plateforme apporte. Nous exploitons ainsi l'interaction rendue possible par la disponibilité du paradigme de session pour mettre en place des fonctionnalités ainsi que par une modélisation plus évoluée du cache: topologie, valeur sémantique, ontologie. Cette architecture permet l'implémentation dans les proxys de services tels que l’aide à la navigation, la mobilité, le filtrage et l’intégration de services.