La couverture de l’archivage du web suisse : comparaison des approches de la Bibliothèque nationale suisse et d’Internet Archive

Donius, Christelle ; Hug Buffo, Anna ; Gaudinat, Arnaud (dir.)

(Travail de recherche réalisé dans le cadre du Master of Science HES-SO en Sciences de l'information à la Haute école de gestion de Genève (HEG-GE), Filière Information documentaire, 2020)

Le web est devenu indispensable dans notre société actuelle centrée autour de l’information et de la communication. La valeur patrimoniale d’au moins une partie de ses contenus est indiscutable. Mais il s’agit de supports volatiles et techniquement difficiles à traiter, et les volumes sont énormes. Ce projet de recherche s’intéresse à la couverture de l’archivage du web suisse... More

Add to personal list
    Résumé
    Le web est devenu indispensable dans notre société actuelle centrée autour de l’information et de la communication. La valeur patrimoniale d’au moins une partie de ses contenus est indiscutable. Mais il s’agit de supports volatiles et techniquement difficiles à traiter, et les volumes sont énormes. Ce projet de recherche s’intéresse à la couverture de l’archivage du web suisse par deux acteurs, la Bibliothèque nationale suisse (BN) d’un côté et Internet Archive (IA) de l’autre. Du point de vue organisationnel, la différence majeure entre les deux institutions est que la BN a une approche sélective, tandis qu’IA moissonne tous les contenus rencontrés par ses crawlers, sans distinction qualitative. Le concept de “web suisse” englobe, pour nous, les sites correspondant à la définition des “Helvetica” utilisée par la BN. Nous avons formulé une demande auprès de l’institution (BN) et interrogé l’API disponible à cet effet (IA) pour obtenir les données brutes nécessaires à nos recherches, à savoir des fichiers CDX et XML avec les métadonnées sur les sites moissonnés. Nous les avons travaillées et analysées à l’aide du logiciel Dataiku, pour ne conserver que les données des premières captures des domaines de premier niveau. Ainsi, à fin 2019, sur un total de 2’259’952 sites avec le ccTLD .ch, IA en archive 1’298'225 (57.44 %) et la BN 7’513 (0.33 %). 7’418 sites sont archivés par les deux institutions. Si l’on regarde les collections de la BN tous TLD confondus, 8’132 sites sont archivés. Sur ces URL, 8’048 sites se trouvent également chez IA. Ces analyses quantitatives ont été complétées par une exploration qualitative des contenus archivés pour un échantillon de 23 sites. Nous avons vérifié leur présence dans les deux archives du web. Sur les 23 sites examinés, 10 sont archivés par la BN et 22 par IA. IA couvre le web suisse plus largement que la BN. Mais si un site a été sélectionné par la BN pour archivage, il sera alors archivé avec un niveau qualitatif très élevé. Nous pensons que les deux approches – sélectivo-qualitative et moissonnage massif mais moins profond – sont complémentaires et répondent aux objectifs fixés par chacune des institutions.