L’archivage pérenne des documents électroniques consiste à conserver le document et l’information qu’il contient dans son aspect physique comme dans son aspect intellectuel, sur le très long terme (trente ans et au-delà), et de manière à pouvoir le rendre accessible et compréhensible. Or, la plupart des fichiers informatiques de plus de dix ans sont aujourd’hui pratiquement illisibles, conséquence de plusieurs facteurs inéluctables dont la connaissance perdue du contenu des fichiers, l’obsolescence des formats de fichier, la détérioration des supports physiques ou encore la disparition des logiciels ou matériels de lecture [ 12]. Il y a donc des choix à faire concernant la définition des processus et des pratiques de préservation à mettre en œuvre pour atténuer les effets de ces risques lorsqu’ils se produiront.
Depuis 2004, le CINES (Figure 1) travaille à la mise en place d’un service pour l’archivage pérenne du patrimoine scientifique, qui permettrait à tout organisme produisant ou collectant en grande quantité des documents électroniques dont le contenu possède une valeur patrimoniale avérée pour la communauté de l’Information Scientifique et Technique, d’initier un projet d’archives, dans le respect du contexte législatif « archivistique » français.
Tout d’abord, une équipe dédiée à la plate-forme d’archivage a été constituée : elle est chargée de couvrir les aspects organisationnels (définition et expertise des processus métiers et des méthodes), et culturels (renforcement des collaborations entre informaticiens, archivistes et bibliothécaires), en plus de l’aspect technique. Ensuite, les aspects fonctionnels et technologiques ont été analysés, à la fois sur le plan théorique et sur le plan pratique, avec notamment les retours d’expérience d’autres organismes travaillant sur des projets similaires. La future plate-forme a commencé à se dessiner, en suivant des contours donnés par les normes internationales en vigueur.
Quelques exemples : pour éviter la perte d’informations relatives au document électronique et à son contenu, des métadonnées génériques décrivant les propriétés du document (auteur, titre, résumé, motsclés, etc.) ont été utilisées afin de le replacer dans son contexte et en préserver le sens. Il a également été décidé d’attribuer un identifiant unique et pérenne aux documents au moment de leur archivage pour permettre, notamment, de les retrouver et de les référencer. Les formats de fichiers durables ont été privilégiés afin d’éviter une obsolescence trop rapide des formats de fichiers acceptés par la plateforme. Tout document versé est vérifié pour s’assurer que les formats de fichiers qu’il contient sont conformes. En outre, des procédures de veille technologique et de migration logique ont été élaborées pour identifier les formats émergeants ou obsolètes, et transférer les fichiers d’un format désuet vers un format pérenne. Des outils de gestion du vieillissement des supports utilisés pour conserver les documents, ainsi que des procédures de migration physique ont été définis, accompagnés d’un effort de veille et d’anticipation sur les technologies émergentes en termes de médias de stockage.
Après trois années de conception et de développement, une première version du système PAC (plate-forme d’archivage au Cines) [ 1] a été mise en service au printemps 2007 avec comme axe initial une intégration avec l’application STAR (signalement des thèses, archivage et recherche) [ 2] (développée sous la responsabilité de l’ABES, Agence bibliographique de l’enseignement supérieur) pour le dépôt, la diffusion, le référencement et l’archivage des thèses électroniques.
Toutefois, l’infrastructure matérielle ne permettant pas de gérer le volume de données anticipé pour de nouveaux projets d’archives, il a été décidé de procéder à un appel d’offres pour l’acquisition, au printemps 2008, d’une plate-forme capable de gérer de larges volumes (plus de 40 Téra-octets). C’est donc une deuxième version du système PAC qui est actuellement exploitée, privilégiant toujours la même approche généraliste, évitant ainsi le traitement des projets au cas par cas, et permettant de mutualiser la plateforme pour tous les projets d’archives.