Bordeaux 3 - Bibliothèque numérique patrimoniale (1886)

De Bibliopedia
Aller à : navigation, rechercher

Création d'une bibliothèque numérique patrimoniale sous Omeka - Retour d'expérience[modifier]


Contexte[modifier]

L’Université Michel de Montaigne Bordeaux 3, pôle associé de la Bibliothèque nationale de France (BnF) au titre de ses collections sur l'Amérique latine, a connu en 2009 une évolution de l'objet de son partenariat qui a été réorienté progressivement vers la numérisation de collections patrimoniales. Motivé par l’acquisition d’un savoir-faire adaptable à différentes formes de production numérique, le Service Commun de Documentation (SCD) a saisi cette opportunité de valoriser les fonds documentaires de l’université tout en s'inscrivant dans la perspective nationale de Gallica.

Intégré au projet d'établissement, ce projet de valorisation des collections avait également pour objectif d'offrir de nouveaux services numériques à la communauté universitaire, le SCD apparaissant ainsi comme un partenaire dans le cadre de projets pédagogiques ou scientifiques.

Le projet, porté et validé politiquement par l’équipe présidentielle et le conseil scientifique, a associé étroitement la Direction du système d’information (DSI) et le Service communication de l’Université.

La numérisation[modifier]

Dès le départ il a été décidé que la numérisation serait effectuée par un prestataire externe, le SCD ne souhaitant pas développer une compétence sur cette activité chronophage dont la pérennité n'est pas assurée au sein du service (les fonds patrimoniaux du service, bien qu'ayant un intérêt historique certain, restent limités). La production des fichiers images et textes a donc été confiée à une société extérieure dans le cadre d’un marché renouvelable, plus adapté aux perspectives budgétaires. Ce marché à bon de commandes nous a permis de définir un certain nombre d'opérations de base : « numérisation en 300 DPI, en niveaux de gris, d'une page d'un ouvrage s'ouvrant à plat », « numérisation en 600 DPI d'une plaque de verre » … Cette procédure nous permet d'émettre des bons de commande adaptés à notre budget et de connaître précisément et en amont le coût de chaque lot de numérisation.

Le choix des documents à numériser est réalisé par une bibliothécaire en lien avec un conservateur, et prend en compte : l'intérêt scientifique du document, le caractère inédit d'une version numérisée du document (en particulier nous évitons les doublons avec ce qui se trouve dans Gallica) et la cohérence du projet de numérisation. À l'heure actuelle la numérisation concerne principalement des ouvrages ayant trait à l'histoire régionale et un fonds de plaques de verre dit « Fonds Brutails », contenant plus d'un millier d'originaux de Jean-Auguste Brutails, archiviste de Gironde.

En 2013, un premier lot de cartes est numérisée (340 vues) et intégré dans 1886. À cette occasion l'instance d'Omeka s'enrichit d'un nouveau plugin : OpenLayersZoom[1]. Ce script va générer des vignettes correspondant à des sous zones et permettre un zoom facilité sur des images de grande taille[2].

La diffusion[modifier]

Le choix d'Omeka[modifier]

Après une étude de marché, le logiciel libre Omeka a été retenu pour diffuser les documents numérisés. Cette solution s'est développée autour du Centre d'Histoire et des Nouveaux Médias[3] (CHNM), acteur majeur de l'informatique documentaire qui développe également Zotero.

Ce choix d'une solution libre se justifie par la présence de compétences informatiques au sein du SCD auxquelles la DSI a donné la main sur un serveur de diffusion qu'elle héberge. Les réalisations existantes autour de l'outil ont permis de mesurer les possibilités d'Omeka, en particulier à Rennes 2[4] où le contexte était proche de celui de Bordeaux 3.

Enfin, en utilisant ce type d'outil, l'objectif était de rester autonome et de maîtriser les coûts récurrents liés à cette application. Bien que gratuit, la mise en œuvre du logiciel a un coût, lié au temps passé à le configurer et à suivre ses évolutions.

La mise en œuvre[modifier]

Une fois la solution choisie, la répartition des tâches s'est faite naturellement : la gestion système a été confiée à la DSI (sauvegardes, mises à jour de l'OS ...), l'aspect fonctionnel a été confié à l'équipe "services numériques" du SCD. À partir de janvier 2012, Omeka fut installé et adapté aux attentes et besoins en profitant de la modularité du logiciel. Cette étape s'est traduite par le développement de quelques plugins (gestion des tables des matières[5], extraction de l'OCR[6]) et l'adaptation de plugins existants (IABookReader développé par Rennes 2[7] qui a ainsi pu enrichir son outil des fonctions que nous avions ajoutées à ce plugin). À noter qu'au cours de la mise en œuvre du projet, l'architecture d'Omeka a été refondue (version 2.0) et qu'il conviendra d'adapter les développements locaux à cette nouvelle version.

En parallèle les documents furent chargés sur la base (PDF pour bénéficier des fonctionnalités liées aux tables des matières et à l'OCR, et JPG pour permettre une visualisation dynamique page par page qui n'oblige pas à charger tout le PDF).

Après intégration de la charte proposée par la cellule infographie de l'université et attribution d'un nom, 1886 a été lancé en décembre 2012 avec environ 200 ouvrages portant sur l'histoire locale et régionale et représentant près de 90 000 pages ainsi que plus de 5000 images, le tout représentant une centaine de gigaoctets d'espace disque.

Vie du projet[modifier]

La taille modeste du fonds numérisé conduit inévitablement à le disséminer pour que les documents trouvent leur(s) public(s). Outre l'intégration des notices dans les dépôts que sont notamment Gallica et la BnsA[8], il est envisagé de diffuser ces contenus en créant par exemple des liens depuis les articles Wikipédia dans lesquels les ouvrages sont cités[9].

L'objectif est d'intégrer au maximum 1886 dans le web : rebond vers les notices Mérimée[10] des monuments illustrés[11] ou vers les notices Wikipédia des communes. À terme cela permettra d'exposer 1886 sur le web de données.

Concernant les contenus, le SCD est associé à différents projets de recherche qui pourraient être valorisés sur 1886, soit en ajoutant de nouveaux corpus, soit à travers le module Exhibition d'Omeka qui permet d'éditorialiser les contenus[12].

Au cours de la mise en œuvre du projet, l'architecture d'Omeka a été refondue et l'outil est passé en version 2.0. Cette évolution est relativement simple à mettre en œuvre et bien documentée, mais cette mise à jour n'a cependant pas été appliquée pour le moment car elle entraîne aussi des changements dans la manière de gérer les plugins. Nous avons donc du procéder à la mise à jour des plugins développés en local avant de pouvoir passer à cette version 2.0. La mutualisation des efforts avec d'autres établissements français a permis de simplifier le travail de cette migration.

Gestion des métadonnées[modifier]

Lors de la numérisation les données sont envoyées au prestataire sous la forme d'un fichier d'inventaire contenant les métadonnées de base (titre, auteur, date, choix des critères de numérisation ...) ainsi que le nom de fichier souhaité et, lorsque les documents existent dans le sudoc, le PPN. Au moment de la livraison des fichiers numérisés, le fichier de récolement est chargé dans omeka à l'aide du plugin CSV Import[13].

Pour les notices qui comportent un PPN, on va a posteriori récupérer les métadonnées détaillées dans le catalogue Babord+ par screenscraping[14]. Notre base omeka n'est qu'une copie des données présentes ailleurs, le catalogage ne se fait pas à cet endroit.

Les seuls enrichissements descriptifs qui sont faits dans Omeka concernent les documents non décrits dans le sudoc car trop nombreux, les images du fonds Brutails par exemple (plus de 2000 images pour lesquelles on n'a qu'un titre, un auteur et une vague information géographique). Les enrichissements apportés sont : les liens vers les notices Mérimée, les articles Wikipédia ...

Dissémination[modifier]

Diffusion dans Gallica[modifier]

Depuis le 18 juin 2013 la bibliothèque numérique est intégrée dans Gallica[15]. Sur les 15 premiers jours de mise en œuvre, Gallica a été la source d'un tiers des visites sur 1886 (244 / 702). Sur les six premiers mois (18 juin - 17 décembre), sur 9 099 visites, 2 801 venaient de Gallica, soit 30%.

Intégration dans Wikipédia[modifier]

En juin 2013, il a été demandé à un stagiaire de passer en revue une partie des documents numérisés et de voir lesquels pouvaient être mis en lien depuis Wikipédia (bibliographies, références ...). Ce travail rapide a permis de créer 35 renvois depuis Wikipédia vers 1886[16]. La part de wikipédia dans les sites référents reste pour le moment marginal (~ 1% des visites), cette opération sera peut être reconduite d'ici quelques temps mais ne sera en aucun cas prioritaire.

Dans Calames[modifier]

En octobre 2013, un script d'extraction des données en EAD a été réalisé. Ce script répond aux préconisations faites dans CALAMES et a permis une intégration des notices dans cette base[17]. Au cours des deux premiers mois, cette exposition dans calames a conduit à 5 visites vers 1886, pour une durée de visite moyenne de 25 secondes[18].

Voir aussi[modifier]

Notes et références[modifier]

  1. github/OpenLayersZoom
  2. Carte du Haut-Niger par exemple
  3. http://chnm.gmu.edu/
  4. http://bibnum.univ-rennes2.fr/
  5. https://github.com/symac/Plugin-PdfToc
  6. https://github.com/symac/Plugin-Extractocr
  7. https://github.com/jsicot/BookReader
  8. Banque numérique du savoir d'Aquitaine http://bnsa.patrimoines.aquitaine.fr/
  9. Exemple sur l'article Victor Louis : http://fr.wikipedia.org/w/index.php?title=Victor_Louis&oldid=87165527#Bibliographie
  10. Base de monuments gérée par le Ministère de la Culture
  11. Voir par exemple : Maison du XVIème - Maison Tenant http://1886.u-bordeaux3.fr/items/show/3925
  12. Voir par exemple le projet Mame & Fils : http://mame.crevilles-dev.org/
  13. http://omeka.org/codex/Plugins/CsvImport
  14. Voir le script utilisé : https://github.com/symac/OmekaUpdateSudoc, facilement adaptable en interrogeant les données du sudoc
  15. Ressources issues de 1886 dans Gallica
  16. voir les pages concernées, au nombre de 35 au 26/09/2013
  17. Exemple de notice CALAMES exportée depuis 1886
  18. sur la même période, le signalement dans Wikipédia a amené 33 visiteurs pour une durée de visite moyenne de 3min02s