Solutions logicielles pour bibliothèques numériques

De Bibliopedia.

Sommaire

[modifier] Introduction : Le lien avec les spécifications de numérisation

Dans la cadre d'un projet de développement d'une bibliothèque numérique, la question des outils de diffusion est fondamentale. En effet, il n'est pas recommandé d'entreprendre la numérisation avant d'avoir répondu à cette question car le risque serait important de ne pas pouvoir exploiter la totalité des fichiers issus de la numérisation, en particulier en ce qui concerne les fichiers de métadonnées.

Malheureusement, lorsqu'on cherche à répondre à cette question de la diffusion, on constate rapidement qu'il existe peu de synthèses relatives aux solutions logicielles et aux plateformes pour bibliothèques numériques. C'est la raison d'existence du présent article, la forme wiki permettant, en outre, de l'enrichir par la participation éventuelle de professionnels de la numérisation en bibliothèque qui pourront d'ailleurs, s'ils le souhaitent, être associés à sa publication ultérieure.

S'agissant de la numérisation à proprement parler, il est nécessaire de l'évoquer rapidement. En 2010, il semble que les bibliothèques françaises adoptent majoritairement le format TIFF (entre 300 et 600 dpi selon les formats) pour les fichiers de conservation, bien que le PNG soit utilisé par Persée et qu'il soit conseillé par le Centre Informatique National de l'Enseignement Supérieur (CINES) s'agissant toutefois de documents peu illustrés. Le format JPEG 2000 devrait probablement prendre la place du TIFF dans les années à venir, à en croire des spécialistes du site archive.org contactés sur ce sujet. S'agissant, à présent, des fichiers de diffusion, le format JPEG (entre 72 dpi pour les écrans et 150 dpi pour les imprimantes) est majoritairement utilisé dans les bibliothèques françaises mais il devrait également être supplanté par le JPEG 2000. Le format PDF devrait se maintenir et, pour les liseuses ebooks, c'est le format EPUB qui devrait probablement s'imposer dans les années à venir. Pour conclure ce rapide paragraphe sur la numérisation, voici un exemple de cahier des charges pour un appel d'offres de numérisation.

[modifier] Les différents logiciels

[modifier] Greenstone

Développé par la Nouvelle Zélande en collaboration avec l'UNESCO.

Caractéristiques :

  • Communauté importante de développeurs dans le monde
  • Facile à installer et à paramétrer. Ne nécessite qu'une connaissance de base en HTML pour paramétrer l'interface
  • OAI-PMH
  • Conversion des métadonnées UNIMARC - MARC21 - Dublin Core
  • Compatible avec XML/TEI : http://www.nzetc.org

Références de sites :

Liens :

[modifier] SDX

Déployé en France par la société AJLSM (Bordeaux)

Caractéristiques :

  • Compatible avec XML/TEI
  • Possibilité d'importer métadonnées à partir d'un SIGB (format BiblioML)

Références de sites :

Liens :

[modifier] DigiTool

Développé par la société Ex Libris.

Caractéristiques :

  • Importation possible des métadonnées depuis le SIGB
  • La conversion des notices UNIMARC en MARC21 puis Dublin Core peut être assurée par Ex Libris.
  • Signalement possible des mentions :"Vous souhaitez financer la numérisation de ce livre, cliquez ici" (puis délégation de service public pour numérisation à la demande)
  • Le système est compatible avec OAI-PMH.
  • Pas de thésaurus, mais possibilité de remplacer cette fonction par la création d'une arborescence de collections correspondant aux sujets de CADIC.
  • L'outil statistique ne semble pas optimal mais il serait possible d'incorporer Google Analytics ou un logiciel libre de statistique.
  • Le balisage TEI est toujours possible mais ne sera pas exploité par DigiTool (pas de création d'index sur les termes encodés) car le schéma XML METS a été choisi.

Références de sites :

Liens :

[modifier] Générateur de collections numériques

Logiciel libre (en PHP MySQL) développé pour les bibliothèques Canadiennes

Caractéristiques :

  • Métadonnées : EAD, METS et Dublin Core en cours de développement, pas de projet TEI pour le moment
  • Les métadonnées peuvent être importées
  • Thésaurus possible
  • Pas de statistiques, ni de gestion d'embargos, ni de RSS, ni de DSI.
  • Le GCN peut être utilisé par une seule organisation pour effectuer ses propres descriptions ou encore il peut être installé en "catalogue collectif" multi-sites qui intègre les descriptions d'un plus ou moins grand nombre d'institutions contributrices

Plus de détails sur le forum de GCN

Liens :

[modifier] Mnesys

Caractéristiques :

  • Format xml EAD et dynamiquement Dublin Core qualifié
  • Importation possible de notices UNIMARC
  • Compatible OAI-PMH
  • Outil de saisie des sommaires avec lien vers pages
  • Encodage TEI sur les images. Pour le faire sur le texte : nécessiterait développements
  • Outil de feuilletage en 3D (Flash)
  • Création d'expositions virtuelles
  • Flux RSS

Références :

Liens :

[modifier] Fedora Commons

Libre mais nécessite un développeur. La Bibliothèque Municipale de Lyon est en train de la déployer.

Références de sites :

Liens :

[modifier] Adobe Content Server

Développé par Adobe.

Caractéristiques :

  • Outil de zoom : Zoomify
  • Moteur de recherche : Verity
  • Importation dynamique des métadonnées à partir du numéro de la notice du SIGB

Références de sites :

Liens :

[modifier] Albulle

Logiciel libre et gratuit.

Caractéristiques :

  • Communauté de développeurs
  • Pas d'importations de métadonnées depuis un SIGB
  • Compatible OAI-PMH
  • Base de donnée MySQL. Les notices bibliographiques des ouvrages sont en outre converties en fichier XML (Dublin Core)
  • Le texte intégral OCRisé n'est pas indexé par les moteurs de recherche
  • Possibilité de constituer des paniers
  • Possibilité de flux RSS sur les nouveautés

Liens :

[modifier] Bases MySQL

Caractéristiques :

  • Possibilité de développements peu couteux en interne
  • Risque d'être tributaire du personnel ou de la société qui a développé l'interface

Références de sites :

  • Bibliothèque numérique de Roubaix
  • Bordeaux 1
  • cartulaires numérisés à l'Ecole de Chartes

[modifier] Autres solutions logicielles

Listes complètes de logiciels :

[modifier] Les différents portails

Il n'existe malheureusement pas, en France, de mutualisation d'une plateforme de diffusion à l'image de ce qui existe pour les archives ouvertes par exemple (une plateforme générale : http://hal.archives-ouvertes.fr et des vitrines pour chaque institution : http://hal-pasteur.archives-ouvertes.fr, http://hal-mnhn.archives-ouvertes.fr, http://hal.ird.fr...)

Les seules collaborations s'arrêtent, pour le moment, au moissonnage de métadonnées (Gallica et Europeana) ou à la description de corpus et projets de numérisation (Michael pour le ministère de la culture et NUMES pour celui de l'Enseignement Supérieur). Mais concernant les plateformes de diffusion des documents numérisés, chaque bibliothèque est contrainte, pour le moment, de développer sa propre plateforme "dans son coin", ce qui peut coûter cher (de 100 000 à 200 000 €) et pour un résultat pas toujours pérenne et optimal.

[modifier] les projets d'entreprises françaises

[modifier] e-corpus

Développé par le Centre de Conservation du Livre, association liée au Centre InterRégional de Conservation du Livre (société spécialisée dans la numérisation, la restauration et la conservation), e-corpus est une bibliothèque numérique collective et patrimoniale qui répertorie et diffuse de multiples documents : manuscrits, archives, livres, journaux, estampes, enregistrements sonores, vidéos... Dans un premier temps orientée vers les pays méditerranéen, cette bibliothèque, sponsorisée par l'Union Européenne, la Région PACA et la ville d'Arles, élargit son périmètre thématique. Les tests réalisés sur cette plateforme en décembre 2009 font état d'une bibliothèque numérique satisfaisante :

  • prise en main facile
  • métadonnées adaptées à des projets de bibliothèques
  • visualisation assez satisfaisante
  • possibilité de bénéficier d'une interface personnalisée respectant l'identité de chaque institution : bsg.e-corpus.org

avec quelques inconvénients :

  • difficulté de chargement et de visualisation de certaines images
  • quelques bugs qu'il est toutefois possible de contourner et qui sont en cours de correction
  • difficulté à créer une hiérarchie entre collections, corpus, pièces...
  • imports de métadonnées possible mais après plusieurs essais

Liens :

[modifier] Polinum

POLINUM est un projet de plateforme collaborative, regroupant un consortium de partenaires privés (Arkhenum : prestataire de numérisation, I2S : Scaners, Isako : OCR et workflow, Exalead : moteur de recherche à facettes) et publics (CEA list : sémantique et LaBri : traitement d'images, laboratoires de recherche en informatique sur Bordeaux) et qui a lancé une campagne de communication importante. Ce projet est soutenu par 3 partenaires publics. Il est financée par l'Union européenne (Feder II) et le Conseil régional d'Aquitaine. Localisé à l'Université Bordeaux I, Polinum dispose d'un budget de 4 millions d'euros pour 36 mois. La plateforme devrait être opérationnelle en mai-juin 2010.

La stratégie de Polinum semble liée à la possibilité de gagner des appels d'offres en proposant à la fois la numérisation et la diffusion.

Lien :

[modifier] Demat Factory

Initié par la société de numérisation Safig associée à la société informatique Jouve, à la société spécialisée en OCR A2iAn à un laboratoire informatique de Paris VI (LIP6) et à un laboratoire informatique du CNAM (Cédric), le projet Demat factory, à l'instar du projet Polinum vise à harmoniser numérisation et diffusion. Ce projet est doté de 5,7 millions d'euros sur 3 ans.

Liens :

[modifier] Les projets publics

[modifier] Enseignement Supérieur : Persée

Développé par la société informatique Linagora, porté par Lyon 2, soutenu par le Ministère de l'Enseignement Supérieur, utilisé par Paris 5.

Caractéristiques :

  • Adapté aux revues
  • Numérisation destructive
  • Métadonnées : METS, Dublin Core, MODS, Marc XML, MADS (pour autorités). Pas d'importation des métadonnées, elles sont ressaisies.
  • Texte intégral : TEI, Erudit schema (développé à Montréal pour les articles)
  • Interopérabilité : OAI-PMH (avec Cairn et revues.org) , OKI/OSID (permet d'avoir une interface unique lorsqu'on recherche les articles d'une revue quelque soient les succession d'éditeurs et d'interface d'éditeurs qui l'ont publiée).
  • Identifiant articles : DOI (est facturé en fonction du chiffre d'affaires, donc peu onéreux)
  • Navigation : Persée s'est largement inspiré du système arborescent des sites d'éditeurs de revues auxquels les chercheurs sont habitués.
  • Statistiques : via Google Analytics (villes et institutions d'origine, mots clés saisis dans les moteurs de recherche etc...).
  • Conservation : Persée est paramétré pour être compatible avec l'archivage pérenne du CINES.

Développements :

  • Lyon 2 travaille actuellement à sa segmentation afin de pouvoir l'adapter à des projets locaux car de nombreuses universités avaient manifesté leur intérêt pour une réplication.
  • Des développements informatiques sont possibles : adaptation à d'autres types de documents que les revues, importation possible de métadonnées depuis un SIGB, possibilité de contributions extérieures.

Références de sites :

Liens :

[modifier] Bibliothèque Nationale de France : Gallica

Développé par la Bibliothèque Nationale de France, Gallica ne permet pas, pour le moment, une participation à des bibliothèques extérieures à cause de son architecture technique actuelle (workflow).

Lien :

[modifier] Europe : Europeana

Europeana moissonne les métadonnées d'autres portails via leurs réservoirs OAI-PMH.

Lien :

[modifier] UNESCO World Digital Library

Projet développé par l'UNESCO et la Bibliothèque du Congrès. Objectifs qualitatifs et non quantitatifs (vitrine).

Lien :

[modifier] Les projets privés internationaux

[modifier] Sites de partage de documents

Jouant le rôle de YouTube ou DailyMotion mais pour les livres, ces sites de partage de documents n'offrent pas, pour le moment, de garanties d'archivage pérenne, ni de critères d'interrogation très avancés, mais des visionneuses satisfaisantes.

Liens :

Seul ISSUU a pu être testé de façon convaincante (les autres sites ne permettent pas de décharger des documents suffisamment volumineux). Divvaroom est partenaire du projet Polinum. La visualisation sur ISSUU est optimale, même si les métadonnées sont très limitées et peu adaptées au patrimoine. La fonction "embed" permet d'incorporer le visualiseur, en code HTML, dans ses propres pages web (cf exemple). Il ne reste plus ensuite qu'à créer des liens depuis ses notices bibliographiques vers ce type de page web.

[modifier] Microsoft Digitization Project

Projet développé par Microsoft pour concurrencer Google Books. Projet abandonné.

[modifier] Google Books

Bibliothèque numérique la plus importante sur le web. Pour le moment, Google ne cherche pas à augmenter le nombre de ses partenariats en France. La Bibliothèque Municipale de Lyon est partenaire. La Bibliothèque nationale de France est en discussion. Google demande une exclusivité de 25 ans pour l'utilisation commerciale des documents numérisés (afin de vendre des fac simile à la demande et assurer une position dominante à son moteur de recherche). Néanmoins, les bibliothèques restent libres de diffuser les documents sur d'autres portails (archive.org est ainsi constituée pour une majeure partie de documents numérisés par Google).

Lien :

[modifier] Les projets internationaux à but non lucratif

[modifier] Wikipedia

Projets porté par Wikipedia :

Liens :

[modifier] archive.org

Développé par une organisation américaine à but non lucratif, utilisant des logiciels libres, archive.org est, à l'heure actuelle, le seul concurrent crédible de Google Books. Chaque bibliothèque partenaire peut y déposer les documents qu'elle a numérisés et disposer de sa propre interface, avec son logo, son url, son graphisme et ses statistiques sur le modèle de l'Allen County Library Les fichiers images se chargent par HTTP ou FTP et sont convertis automatiquement en formats EPUB et Kindle, (lecteurs ebooks), Daisy (malvoyants), DjVu (libre) et disposent d'un identifiant ark.


Voici l'essai que nous avons réalisé : http://www.archive.org/details/bibliothequesaintegenevieve

Lien :

[modifier] Quelques critères pour choisir un logiciel ou un portail

1. S'agit-il d'une solution libre ou propriétaire ? Le développement a-t-il été assuré en interne ou en externe ? Quel en a été le coût approximatif ? Existe-t-il une solution de maintenance ou une communauté de développeurs ?

2. Permet-elle l'importation des métadonnées (depuis un SIGB par exemple) et sous quels formats ?

3. Est-elle compatible OAI/PMH ?

4. Est-elle basée sur une structure de base de données ou sur des fichiers XML ? Quelles sont les normes adoptées pour les fichiers XML ? Qu'est ce qui est traité en XML (métadonnées, texte océrisé, tables des matières, fichiers de correspondance des pages etc). Dans le cas d'une base de données , de laquelle s'agit-il ? Quelles sont les tables utilisées ?

5. Gère-t-elle aussi bien des images que du texte (natif ou OCRisé), et est-il possible d'encoder ce texte en TEI afin de générer des index par exemple? Le texte et les métadonnées peuvent-ils être indexés par les moteurs de recherche du web (Google...) ?

6. Quelle est la visionneuse utilisée ?

7. Quel est le moteur de recherche utilisé ? Quelles sont ses particularités ? Quels sont les différents types de recherche proposés ? Quels sont les éléments proposés à la recherche : métadonnées, tables, texte, autre ?

8. Est-il possible de décharger le document complet ou une partie du document sous forme de PDF ou dans d'autres formats (compatibilité avec des lecteurs ebooks) ?

9. Est-elle adaptée à plusieurs types de documents : livres, thèses, périodiques, articles, manuscrits, livres anciens, incunables, iconographies, estampes, enluminures, objets... ?

10. Y-a-il possibilité pour les usagers de soumettre des corrections d'OCR, d'encoder en TEI, d'insérer des tags ? Des services sont-ils proposés avec la recherche : panier, export vers des logiciels de gestion bibliographique, RSS sur les nouveautés, DSI sur des équations de recherche, rebonds dynamiques vers d'autres ressources ?

11. Offre-t-elle les possibilités suivantes : gestion de thésaurus, statistiques de consultation, personnalisation satisfaisante de la présentation, paramétrage de durées d'embargos pour pour des documents qui ne sont pas encore libres de droits ?

Source : Questionnaire diffusé sur la liste ADBS

[modifier] Esquisse de tableau de comparaison des logiciels et des portails

Greenstone Persée SDX DigiTool Générateur de collections numériques Mnesys Adobe Content Server Lodel/Albulle Bases MySQL Portail e-corpus Portail Polinum Portail archive.org
Quest. 1 : pérennité Libre, communauté internationale de développeurs Libre, développé par la société Linagora Libre, maîtrisé par la société AJLSM Propriétaire, société internationale Libre (PHP-MySQL), Etat canadien Propriétaire, petite société française Propriétaire, très grosse société internationale logiciels libres et gratuits possédant chacun une communauté de développeurs Libre, communauté importante de développeurs, mais base sur mesure parfois difficile à interpréter et à maintenir Libre, administré par le Centre de Conservation du Livre (Arles)  ? Libre, communauté très importante (concurrent crédible de Google)
Quest. 2 : importation SIGB Oui, Marc21 ? Oui Oui ? Oui ? Non ? Oui, selon modèle Excel. Import dublin core, marc21 et xml prévus pour juin 2010 ? ?
Quest. 3 : OAI-PMH ? ? ? Oui ? Oui ? Oui Oui Prévu pour juin 2010 ? ?
Quest. 4 : XML / BDD ? ? xml ? base de données MySQL xml ? base de donnée MySQL base de donnée MySQL xml ? ?
Quest. 5 : Texte intégral TEI possible ? Indexation Google Image+texte, bonne indexation Gogle ? Encodage TEI possible ? Image+texte, indexation Google ? texte intégral (via PDF multicouches) non indexé par google ? interrogation du texte intégral prévue pour mai 2010 Image+texte, indexation Google Texte intégral
Quest. 6 : visualisation Pas de visionneuse développée avec Greenstone. L'outil libre Zoomify semble souvent être utilisé ? ? visualiseurs propriétaires DigiTool sans Flash (car posent des problèmes d’accessibilité) ? Visionneuse 3D développée par Mnesys ? Albulle ? outil Microsoft tombé récemment dans le domaine public ? ?
Quest. 7 : moteur Lucene ? ? ? ? ? ? moteur interne à Lodel, qui ne permet d'interroger le contenu des textes océrisés. Il n'y a qu'une recherche simple, avec "ou" par défaut ? ? ? Heritrix (moteur libre)
Quest. 8 : PDF PDF possible PDF possible ? ? ? ? ? PDF possible PDF possible PDF possible PDF possible PDF possible, mais aussi EPUB et Kindle, (lecteurs ebooks), Daisy (malvoyants), DjVu (libre)
Quest. 9 : type de doc. ? revues seulement pour le moment ? ? ? ? ? Tous types de documents ? Tous types de documents ? Tous types de documents
Quest. 10 : web 2.0 ? ? ? Panier possible ? ? ? RSS sur les nouveautés, possibilité de constituer un panier. ? RSS, Panier possible ? RSS, compatible Zotero
Quest. 11 : fonctions avancées ? ? ? Embargo possible. Pas d'outil de thésaurus ? Outil thésaurus, statistiques via google analytics ? ? ? Thésaurus Dewey, statistiques, personnalisation de la présentation ? Statistiques, personnalisation de la présentation

Voici des tests qui ont été réalisés avec les mêmes documents sur différents portails : bibliotheque-numerique.fr

[modifier] Conclusion : Exemple de fonctionnalités pour un projet collectif

Les bibliothèques françaises ne trouvant ni la possibilité de participer à Gallica (hormis la BNF), ni celle de participer à Google Books (hormis la Bibliothèque Municipale de Lyon), le développement d'une plateforme mutualisée pourrait se justifier car elle permettrait d'offrir un outil pérenne et de meilleure qualité tout en partageant les coûts de sa mise en œuvre. Si ce projet de mutualisation vous intéresse, merci de m'adresser un courriel à mathieu[POINT]andro[AT]yahoo[POINT]fr ou de rejoindre le groupe sur Facebook Voici un exemple de ce qui pourrait être développé. La méthode agile semblerait plus adaptée à ce type de projet qu'un traditionnel cahier des charges.

Pour suivre l'avancement du projet

[modifier] Formats et données de gestion, fonctionnalités de gestion

Il sera possible de référencer tous types de documents : des livres, des revues, des articles de revues, des thèses, des manuscrits, des images (enluminures, estampes, illustrations de livres, dessins, photos), des documents sonores et vidéos. Plusieurs bases de documents aux formats différents devront pouvoir cohabiter dans le système et être interrogeables par une même interface de recherche aussi bien que par des interfaces de recherche séparées spécifiques. Les métadonnées pourront être gérées dans différents formats XML, dont les formats suivants : Dublin Core, MODS, MarcXML, BiblioML, EAD. Le format TEI sera également supporté. (voir annexe 5, modèle de format TEI pour la description des incunables). Ces métadonnées pourront être incorporées dans des fichiers METS. D'autres formats pourront être ajoutés par l'intégration et le paramétrage de nouvelles DTD. La majeure partie des données proviendra initialement de l'importation des notices des SIGB des bibliothèques. Un utilitaire d'import et de conversion à partir des formats d'échange UNIMARC et MARC21, mais aussi .CSV (format délimité), et autres formats paramétrables, permettra, au démarrage, de charger en masse les métadonnées fournies par les Bibliothèques. D'autres données gérées dans des formats non standards, mais exportables de leur base de données sous forme de requêtes SQL, devront être intégrées (données des enluminures et des reliures estampées à froid : voir Annexe 1). Préalablement à l'importation des données de chaque base, une table de conversion des métadonnées d'un format vers l'autre sera proposée par le prestataire sur le modèle de ce qui a été proposé par la Bibliothèque. Cette table définitive devra être validée par la Bibliothèque Sainte Geneviève. Les données devront aussi pouvoir être intégrées dans le système par le biais d'un client OAI qui ira les moissonner. Une interface de saisie avec un éditeur ergonomique permettra de saisir et de modifier ces métadonnées dans tous les formats. Elle permettra aussi d'effectuer une édition enrichie de certains textes numérisées, pour en identifier les sommaires par exemple (par balisage XML/TEI ou autre), et de rédiger des présentations associées aux documents. Ainsi, des articles ou des notices détaillées signés par les conservateurs pourront accompagner les documents numérisés. Ces présentations pourront apparaître sur les fac simile imprimés à la demande. La plateforme servira également à valoriser l'activité recherche de l'institution à l'instar d'une archive institutionnelle contenant les articles des conservateurs sous forme d'archives ouvertes. Les CV des auteurs et des conservateurs pourront apparaître accompagnés d'une liste dynamique de leurs articles et présentations d'ouvrages. Une gestion des droits d'édition devra permettre de proposer selon les cas la rédaction de documents de façon restrictive (authentification), modérée, ou libre. L'accès par login permettra de différencier les rôles avec leurs droits associés : Administrateur, Indexeur (professionnels), partenaire (universitaires ou érudits qui peuvent participer à l'encodage et/ou à la corrections de l'OCR), lecteur simple ou anonyme. Une gestion des statuts permettra de différencier l'état d'avancement de la numérisation des documents. En particulier, le chargement initial de notices sera fait avec le statut « Numérisation en cours » (ce qui permettra à d'autres bibliothèques d'identifier les programmes de numérisation en cours) puis les notices seront progressivement changées de statut pour afficher « Numérisé par la Bibliothèque X » ou « Si vous souhaitez en financer la numérisation de l'ouvrage, cliquez ici», pour les ouvrages que nous n'aurons pas encore pu numériser, faute de financements. D'autres statuts publics ou internes seront paramétrables pour suivre tous les états des documents (« vérification OCR en cours », par exemple). Des fonctions de communication (alertes mail et/ou fil RSS) en interne et vers l'extérieur seront associés aux statuts pour assurer le suivi du worklow. Ainsi, pour les ouvrages non encore numérisés, une alerte mail sera possible afin d'être prévenu de leur numérisation. D'autres champs de gestion ou d'information, internes ou publics (affichables) seront paramétrables de façon évolutive selon les besoins. Ainsi, pour les documents anciens, des champs supplémentaires sont à prévoir : numéro de référence d'un incunable, lien vers une autre base (base des reliures estampées à froid ou Calames, par exemple). Pour d'éventuels documents qui ne seraient pas libres de droits mais dont nous souhaiterions conserver une reproduction numérique sans pouvoir la diffuser, un embargo devra pouvoir être paramétré afin que les documents ne soient accessibles que par le staff jusqu'à leur date de passage au domaine public.

Outil de gestion des données : Un outil de modification globale des données sera disponible, associé à un outil de création de paniers disposant de fonctions avancées de recherche telles que décrites ci-dessous.

[modifier] Accessiblité et visibilité des données

Métadonnées : Les métadonnées des documents devront être accessibles via un serveur OAI-PMH signalé dans les annuaires internationaux du type OAIster et permettant le moissonnage par d'autres bases comme Europeana, Gallica, Bibliothèques Virtuelles Humanistes, Incunabula Short Catalogue, Gesamtkatalog der Wiegendrucke. Le système devra aussi être interrogeable dans le cadre d'une recherche fédérée via tout Système d'Information (portail) : l'accès aux données devra donc pouvoir se faire par le biais d'URL explicites, ou au format OPEN URL. Son indexation par des moteurs de recherche comme Google, Bing ou Altavista, sera possible. Un utilitaire d'export des métadonnées sous différents formats paramétrables (MARCXML, Dublin Core, MODS, UNIMARC, CSV, XLS) devra également permettre de diffuser les données sur d'autres sites comme Google Books, archive.org, etc. Les métadonnées seront exportables et exploitables par le public sous format texte (en téléchargement ou via un envoi de mail par exemple), mais aussi dans les formats utilisés par les logiciels de gestion de bibliographie comme Zotero (compatible MODS et Dublin Core), EndNote et RefWorks. Le prestataire vérifiera les fichiers de métadonnées METS produits par le prestataire chargé de la numérisation.

Documents numériques : Chaque document électronique devra bénéficier d'une adresse URL stable et pérenne (liens permanents ARK) afin que les bibliothécaires puissent le signaler dans le catalogue national SUDOC et y saisir son URL en champs 856 ou 325 de l'UNIMARC. L'utilitaire d'export de masse des documents, ainsi que la fonction de téléchargement individuel proposée au public, supporteront, de manière évolutive, les formats compatibles avec la plupart des lecteurs ebooks sur le marché (format Kindle, EPUB, PDF, TXT, MOBI), les téléphones portables, les logiciels de reconnaissance vocale pour aveugles et malvoyants (compatibilité xml daisy). Enfin, des web services pourront être développés seront les besoins, soit pour l'export de données vers d'autres systèmes, soit pour l'intégration dynamique de données externes, et ceci, que ce soit pour les métadonnées ou les documents numériques eux-mêmes.

[modifier] Fonctionnalités diverses

Noms des fichiers : Les éditeurs pourront nommer les pages numériser en recourant à des systèmes spécialisés non strictement numériques (ex : « fa1recto », « a1verso », « 8verso », « platsupérieur », etc…).

Indexation et recherche : Chaque document textuel sera entièrement OCRisé afin de permettre une recherche en texte intégral dans le corps du texte, et afin d'en permettre une bonne indexation par les moteurs de recherche du type Google. Un balisage XML/TEI devra pouvoir être possible afin de générer des index ciblés sur des termes identifiés dans le texte et de permettre une valorisation et une exploitation de son contenu (noms de lieux, dates, noms de personnes etc...). Cette constitution d'index permettra également de choisir une forme parmi plusieurs (par exemple, le même nom de personne écrit de manière diverses). Ceci permettra, à l'interrogation de l'index, d'accéder à toutes les formes. Des listes d'autorités ouvertes ou fermées devront également pouvoir être associés à des zones spécifiques des métadonnées (auteur, mots-clés sujets, etc.). Le système devra aussi permettre d'associer un thesaurus hiérachisé à une zone contrôlée de la notice. Plusieurs thésaurus différents pourront être gérés dans le système. Le thésaurus hiérarchisé actuellement utilisé par la BSG (Thésaurus François Garnier) devra pouvoir être importé pour permettre de poursuivre l'indexation des enluminures et leur interrogation. Le thésaurus comportera une hiérarchisation (termes génériques, termes spécifiques), mais aussi des synonymies (terme rejetté, terme associé) Il devra également être possible d'indexer les images au sein des documents numérisés afin de pouvoir effectuer des recherches iconographiques, mais aussi de permettre à des historiens et des paléographes d'ajouter le texte de documents trop anciens pour être OCRisés, ou d'effectuer en regard de l'image du texte, des corrections d'OCR et des balisages XML/TEI sur la version textuelle de l'image.

Organisation des données dans le système: Les documents numérisés pourront être distribués au sein d'une structure hiérarchisée permettant de créer des corpus et des collections (adapté pour les archives en particulier).

Fonctionnalités orientées « utilisateur » : L'utilisateur aura la possibilité de s'enregistrer des sessions afin d'annoter et d'ajouter des ouvrages dans un panier (MonCarnet 2.0 est une application web destiné à permettre la collecte, le classement, le partage et l’annotation électronique de ressources numériques moissonnables en OAI-PMH et pourra être utilisé). L'utilisateur pourra également télécharger (plusieurs formats : PDF multicouches image et texte OCR, formats ebooks supportés, JPEG, TIFF, PNG, etc...) et imprimer les documents. Il sera possible de créer une DSI de deux manières différentes : alerte email ou sous forme d'un flux RSS généré dynamiquement et correspondant à l'équation de recherche souhaitée (afin d'être prévenu de la numérisation d'un document ou de la numérisation de documents relatifs à un sujet). La base devra être aussi compatible avec les technologies RSS afin de pouvoir afficher les derniers ouvrages numérisés sur la page d'accueil.

Fonctionnalités « interactives » : Les utilisateurs pourront faire des propositions de correction des erreurs d'OCR ou signaler des documents de mauvaise qualité. Un partenariat avec Wikisource (Wikipedia) nous permettra de leur livrer les fichiers OCR et de les récupérer lorsqu'ils auront été corrigés et validés par leur communauté de bénévoles. Possibilité sera également donnée aux usagers d'ajouter des commentaires, des notes et d'insérer des tags pour indexer les documents (folksonomie). Il sera enfin possible de suggérer la numérisation d'un ouvrage de notre catalogue. L'indication du nombre de fois que le document a été suggéré à la numérisation, ou commenté apparaîtra sur le site, mais aussi le nombre de fois qu'un lien vers un mécène a été cliqué.

Fonctionnalités liées au statut juridique du document : Le statut juridique lié aux droits divers (propriété, auteur...) du document électronique sera également affiché (droits restreints ou Creative Commons CC-by-nc-nd : paternité, pas d'utilisation commerciale sans autorisation, pas de modification).

Fonctionnalités liées au mécénat :

Pour les ouvrages numérisés, sur chaque page devra apparaître : "numérisation financée par la Bibliothèque X, l'institution Y, la fondation Z" (en fonction de l'origine du financement) et pour les ouvrages pas encore numérisés : "si vous souhaitez financer la numérisation pour N euros, merci de cliquer ici". Il sera possible d'accéder à une page "nos soutiens" et d'y afficher dynamiquement la liste de nos mécènes et soutiens par ordre décroissant du nombre de documents numérisés avec un lien vers la liste des documents qu'ils nous ont permis de numériser. Il sera possible aussi d'afficher tous les documents dont la numérisation reste à financer.

Reproduction des documents: Des liens permettront de demander à la Bibliothèque propriétaire de l'original, via un formulaire, une reproduction papier ou numérique en haute résolution des documents affichés, mais aussi dans certains cas d'accéder par un lien dynamique au site d'une société d'impression de facs similés à la demande avec laquelle une convention aura été signée (type Amazon BookSurge ou autre).

Statistiques : Un module statistique (de type Google Analytics) permettra de connaître l'origine géographique et institutionnelles des connexions, les mots clés utilisés dans le moteur de recherche, le nombre de téléchargements et d'impressions, le nombre de clics sur des liens pointant vers l'extérieur (institutions ou mécènes). Chaque institution pourra accéder à ses propres statistiques de consultation.

Multilinguisme : Une version anglaise du site sera développée.

Personnalisation de l'interface : Afin que chaque bibliothèque partenaire du projet conserve son identité malgré son caractère collectif, en dehors de l'interface générale, devra être développé une vitrine avec un graphisme rappelant celui des sites web de chaque bibliothèque, un logo et une URL personnalisées par sous domaines (bsg.bibliotheque-numerique.fr, mazarine.bibliotheque-numerique.fr, sorbonne.bibliotheque-numerique.fr, paris8.bibliotheque-numerique.fr). Cette vitrine sera propre à chaque bibliothèque et portera exclusivement sur les documents qu'elle conserve, à l'image de ce qui existe par exemple pour les archives ouvertes HAL : une plateforme générale (http://hal.archives-ouvertes.fr) et des vitrines pour chaque institution (http://hal-mnhn.archives-ouvertes.fr, http://hal-pasteur.archives-ouvertes.fr, http://hal.ird.fr ...). Une arhitecture orientée service (SOA) sera privilégiée pour construire les plateformes de chaque institution.

[modifier] Recherche

Niveaux de recherches : La solution logicielle devra être parfaitement adapté aux spécialistes tout en permettant au grand public de se délecter du patrimoine. C'est la raison pour laquelle, les recherches seront possibles à la fois à partir de références bibliographiques et par sujet avec 3 niveaux de recherche correspondant à divers niveaux de compétences en recherche bibliographique :

1- Recherche en texte intégral dans le document numérisé (textes) : avec surlignage sur l'image affichée en résultat de la zone géographique correspondant au texte OCRisé repéré (ALTO).

2- Recherche simple sur les métadonnées : "anywhere" (tous champs : mots du titre ou mot du sujet ou mot auteur etc...).

3- Recherche avancée : Toutes les zones de métadonnées devront pouvoir être paramétrées pour être accessibles en recherche comme index primaire : titre, auteur, sujet , date, éditeur, numéro de référence bibliographique (incunable), cote, note, date, type de documents, bibliothèque propriétaire du document, etc. Les zones de date (2 champs : début et fin de l'intervalle), type de documents (image, incunable, manuscrit, plan, imprimé, objet etc...), langue, ou autres à définir, seront aussi utilisables comme des filtres de recherche. Pour le champs sujet ou d'autres zones contrôlées, le système possibilité d'accéder à une fenêtre présentant la liste d'index ou l'arborescence du thésaurus associé, dans laquelle l'utilisateur pourra directement sélectionner les termes de recherche voulus. La recherche pourra être lancée en associant des critères issus des métadonnées avec des termes de requête sur le texte intégral. Les critères pourront être combinés, à l'intérieur d'une zone de recherche ou entre les zones de recherche, avec les opérateurs booléen (et, ou, sauf). Des opérateurs de proximité entre les termes seront également disponibles, ainsi que la recherche par expression exacte. La troncature droite, intérieure et gauche pourra être utilisée par saisie directe de l'opérateur voulu (par exemple : $ pour un caractère unique et * pour un nombre indéfini de caractères). De façon plus guidée, une troncature automatique sera aussi proposée si l'utilisateur coche la case "commence par". La recherche pourra être lancée en choisissant un tri possible par date, titre, auteur, popularité (nombre de commentaires, de téléchargements et de vues). Le tri sera modifiable a posteriori à partir de la liste de résultats.

4- Recherche experte : Possibilité d'écrire une équation de recherche selon modèle (KW=chat OR KW=chats OR kW=cat OR KW=cats) AND (KW=comportement* OR KW=ethol* OR KW=behavio*) pour une recherche sur le comportement du chat avec une application facilitant l'écriture de l'équation, un modèle et un schéma sous forme de "patates" expliquant le fonctionnement des booléens AND OR NOT. Il devra être possible de restreindre les corpus, les bibliothèques, les types de documents sur lesquels portera chaque recherche.

Personnalisation de la recherche par type de document : Des interfaces spécifiques de recherche en fonction du type de document pourront également être paramétrées. Par exemple, il faudra pouvoir établir un formulaire de requête propre à la base d’incunables, avec les champs suivants : - Tous champs - Auteur - Titre - Lieu de publication - Imprimeur-libraire - Références bibliographiques (avec double index : ouvrage / n°s) - Format - Date de publication (=, <, >, < <) - Langue - Cote

Pour tous ces champs : saisie directe des termes de recherche ou sélection dans un index associé (sauf pour les zones « Tous champs » et « Date », sans index associé).

Divers : La recherche ne sera pas sensible à la casse et aux diacritiques. Afin d'éviter le "bruit documentaire", l'opérateur implicite entre plusieurs mots du même champs sera ET. Un historique des recherches pourra être affiché. Il permettra de relancer une recherche ou de combiner plusieurs recherches différentes par des opérateurs booléens. Outre les fonctions de recherche par mots, des fonctions de navigation permettront d'effectuer une navigation par index ou par corpus structuré. La recherche par index (browse by) sera possible sur les champs suivants en particulier : indice Dewey, auteur, année, titre. Cette navigation par index ou par corpus pourra être filtrée sur le statut de document (tous les documents, ceux numérisés uniquement, ou documents restant à numériser). Une fonction permettant de visualiser "un document au hasard" sera proposée également.

Résultats de recherches : La liste des documents correspondant à une requête fera apparaître une vignette de la page de titre, le titre, l'auteur et la date avec tri possible par titre, auteur, date, popularité (choix non limitatif). Les documents images affichés dans un résultat de requêtes pourront, au choix de l'utilisateur, être affichées en mosaïque d'imagettes (de taille variable en fonction du nombre d'images affichées à l'écran). Une sélection d'ouvrages sur le même thème que celui en cours de consultation sera dynamiquement proposée en fonction de l'indexation du document consulté. (sur le modèle de bookseer.com). En l'absence de réponse à une requête, des rebonds dynamiques seront proposés vers d'autres catalogues de documents numérisés (Europeana, Gallica, ISTC, GW...), des librairies partenaires et des catalogues de bibliothèques comme le SUDOC et le CCFR. Idéalement (si les temps de réponse sont assez bons), ce rebond devrait être dynamique au sens où il n'afficherait un lien que si la ressource extérieure peut répondre au moins avec 1 occurrence à cette même requête.

[modifier] Affichage

La circulation entre les métadonnées et les documents associées devra être fluide. Les références succinctes (paramétrables) du document resteront apparentes pendant la visualisation du document (titre, auteur, date par exemple).

Affichage des notices (métadonnées) : Les notices descriptives des documents pourront être affichées de façon différente en mode professionnel (données de gestion en plus, par exemple) et en mode public.

Affichage des documents : La navigation dans le document permettra d'obtenir « page précédente », « page suivante », « aller à la page X », « première page », « dernière page ». Il sera également possible de naviguer par le sommaire ou les index des documents. Elle affichera par défaut, pour les livres et les manuscrits de type « codex », conjointement le verso d’un feuillet et le recto du feuillet suivant (consultation par double page). Pour le feuilletage des pages, une option permettra d'utiliser des outils de type turning the pages (feuilletage 3D avec Flash : fsi viewer, Issuu, acroflip). La visualisation permettra de zoomer avec l'aide, par exemple, d'outils libres du type ImageMagick et/ou Zoomify. Il sera possible de visualiser des documents originaux de grands formats (cartes, plans) et de pouvoir localiser la partie actuellement consultée dans l'ensemble du document (avec l'aide d'un carré représentant la partie zoomée sur la vignette) permettant de savoir à tout moment quelle partie du document est zoomée (carré qui se déplace sur la vignette). Il sera également possible de tourner les documents de 90 ° dans un sens ou dans l'autre. L'affichage permettra de comparer entre elles des éditions d’un même atelier, d’un même imprimeur-typographe ou d’un même texte (typographie, décor, annotations manuscrites), 2 enluminures représentant le même objet, 2 plans ou dessins d'architecte... Les documents multimédias seront proposés via les plugins adaptés pour le son ou la vidéo. A partir du document consultés, une série de liens pourront être affichés (rappel : les bibliothèques auront la possibilité d'éditer et de commercialiser des facs similés à la demande ou d'établir un partenariat avec une société, mais aussi de faire apparaître d'éventuels liens dynamiques vers divers sites partenaires).

Site web : Le site présentera un espace professionnel pouvant comporter : - une présentation du projet et un appel à participation - des documents de synthèse sous forme de wikis aux bibliothèques participantes, des recommandations - la liste des participants - une sélection d'articles d'actualités (incorporation de fils RSS et d'une veille sous Google Reader) Ces pages seront rédigées par la Bibliothèque

[modifier] Bibliographie

--Mathieuandro 22 septembre 2009 à 14:03 (UTC)