Solutions logicielles pour bibliothèques numériques

De Bibliopedia.

(Différences entre les versions)
(Les différents portails)
(Les différents portails)
Ligne 348 : Ligne 348 :
'''Liens :'''
'''Liens :'''
* [http://www.e-corpus.org e corpus]
* [http://www.e-corpus.org e corpus]
-
 
== polinum ==
== polinum ==

Version du 17 décembre 2009 à 12:11

Sommaire

Les différents logiciels

Greenstone

Développé par la Nouvelle Zélande en collaboration avec l'UNESCO.

Caractéristiques :

  • Communauté importante de développeurs dans le monde
  • Facile à installer et à paramétrer. Ne nécessite que connaissances en HTML pour interface
  • OAI-PMH
  • Conversion des métadonnées UNIMARC - MARC21 - Dublin Core
  • Compatible avec XML/TEI : http://www.nzetc.org

Références de sites :

Liens :

SDX

Déployé en France par la société AJLSM (Bordeaux)

Caractéristiques :

  • Compatible avec XML/TEI
  • Possibilité d'importer métadonnées à partir d'un SIGB (format BiblioML)

Références de sites :

Liens :

DigiTool

Développé par la société Ex Libris.

Caractéristiques :

  • Importation possible des métadonnées depuis le SIGB
  • La conversion des notices UNIMARC en MARC21 puis Dublin Core peut être assurée par Ex Libris.
  • Signalement possible des mentions :"Vous souhaitez financer la numérisation de ce livre, cliquez ici" (puis délégation de service public pour numérisation à la demande)
  • Le système est compatible avec OAI-PMH.
  • Pas de thésaurus, mais possibilité de remplacer cette fonction par la création d'une arborescence de collections correspondant aux sujets de CADIC.
  • L'outil statistique ne semble pas optimal mais il serait possible d'incorporer Google Analytics ou un logiciel libre de statistique.
  • Le balisage TEI est toujours possible mais ne sera pas exploité par DigiTool (pas de création d'index sur les termes encodés) car le schéma XML METS a été choisi.

Références de sites :

Liens :

Générateur de collections numériques

Logiciel libre (en PHP MySQL) développé pour les bibliothèques Canadiennes

Caractéristiques :

  • Métadonnées : EAD, METS et Dublin Core en cours de développement, pas de projet TEI pour le moment
  • Les métadonnées peuvent être importées
  • Thésaurus possible
  • Pas de statistiques, ni de gestion d'embargos, ni de RSS, ni de DSI.
  • Le GCN peut être utilisé par une seule organisation pour effectuer ses propres descriptions ou encore il peut être installé en "catalogue collectif" multi-sites qui intègre les descriptions d'un plus ou moins grand nombre d'institutions contributrices

Plus de détails sur le forum de GCN

Liens :

Mnesys

Caractéristiques :

  • Format xml EAD et dynamiquement Dublin Core qualifié
  • Importation possible de notices UNIMARC
  • Compatible OAI-PMH
  • Outil de saisie des sommaires avec lien vers pages
  • Encodage TEI sur les images. Pour le faire sur le texte : nécessiterait développements
  • Outil de feuilletage en 3D (Flash)
  • Création d'expositions virtuelles
  • Flux RSS

Références :

Liens :

Fedora Commons

Libre

Références de sites :

Liens :

Adobe Content Server

Développé par Adobe.

Caractéristiques :

  • Outil de zoom : Zoomify
  • Moteur de recherche : Verity
  • Importation dynamique des métadonnées à partir du numéro de la notice du SIGB

Références de sites :

Liens :

Albulle

Logiciel libre et gratuit.

Caractéristiques :

  • Communauté de développeurs
  • Pas d'importations de métadonnées depuis un SIGB
  • Compatible OAI-PMH
  • Base de donnée MySQL. Les notices bibliographiques des ouvrages sont en outre converties en fichier XML (Dublin Core)
  • Le texte intégral OCRisé n'est pas indexé par les moteurs de recherche
  • Possibilité de constituer des paniers
  • Possibilité de flux RSS sur les nouveautés

Liens :

Bases MySQL

Caractéristiques :

  • Possibilité de développements peu couteux en interne
  • Risque d'être tributaire du personnel ou de la société qui a développé l'interface

Références de sites :

  • Bibliothèque numérique de Roubaix
  • Bordeaux 1
  • cartulaires numérisés à l'Ecole de Chartes

Autres solutions logicielles

Listes complètes de logiciels :

Quelques critères pour choisir un logiciel

1. S'agit-il d'une solution libre ou propriétaire ? Le développement a-t-il été assuré en interne ou en externe ? Quel en a été le coût approximatif ? Existe-t-il une solution de maintenance ou une communauté de développeurs ?

2. Permet-elle l'importation des métadonnées (depuis un SIGB par exemple) et sous quels formats ?

3. Est-elle compatible OAI/PMH ?

4. Est-elle basée sur une structure de base de données ou sur des fichiers XML ? Quelles sont les normes adoptées pour les fichiers XML ? Qu'est ce qui est traité en XML (métadonnées, texte océrisé, tables des matières, fichiers de correspondance des pages etc). Dans le cas d'une base de données , de laquelle s'agit-il ? Quelles sont les tables utilisées ?

5. Gère-t-elle aussi bien des images que du texte (natif ou OCRisé), et est-il possible d'encoder ce texte en TEI afin de générer des index par exemple? Le texte et les métadonnées peuvent-ils être indexés par les moteurs de recherche du web (Google...) ?

6. Quelle est la visionneuse utilisée ?

7. Quel est le moteur de recherche utilisé ? Quelles sont ses particularités ? Quels sont les différents types de recherche proposés ? Quels sont les éléments proposés à la recherche : métadonnées, tables, texte, autre ?

8. Est-il possible de décharger le document complet ou une partie du document sous forme de PDF ou dans d'autres formats (compatibilité avec des lecteurs ebooks) ?

9. Est-elle adaptée à plusieurs types de documents : livres, thèses, périodiques, articles, manuscrits, livres anciens, incunables, iconographies, estampes, enluminures, objets... ?

10. Y-a-il possibilité pour les usagers de soumettre des corrections d'OCR, d'encoder en TEI, d'insérer des tags ? Des services sont-ils proposés avec la recherche : panier, export vers des logiciels de gestion bibliographique, RSS sur les nouveautés, DSI sur des équations de recherche, rebonds dynamiques vers d'autres ressources ?

11. Offre-t-elle les possibilités suivantes : gestion de thésaurus, statistiques de consultation, personnalisation satisfaisante de la présentation, paramétrage de durées d'embargos pour pour des documents qui ne sont pas encore libres de droits ?

Source : Questionnaire diffusé sur la liste ADBS

Esquisse de tableau de comparaison des logiciels

Greenstone Persée SDX DigiTool Générateur de collections numériques Mnesys Adobe Content Server Lodel/Albulle Bases MySQL
Quest. 1 : pérennité Libre, communauté internationale de développeurs Libre, développé par la société Linagora Libre, maîtrisé par la société AJLSM Propriétaire, société internationale Libre (PHP-MySQL), Etat canadien Propriétaire, petite société française Propriétaire, très grosse société internationale logiciels libres et gratuits possédant chacun une communauté de développeurs Libre, communauté importante de développeurs, mais base sur mesure parfois difficile à interpréter et à maintenir
Quest. 2 : importation SIGB Oui, Marc21 ? Oui Oui ? Oui ? Non ?
Quest. 3 : OAI-PMH ? ? ? Oui ? Oui ? Oui ?
Quest. 4 : XML / BDD ? ? xml ? base de données MySQL xml ? base de donnée MySQL base de donnée MySQL
Quest. 5 : Texte intégral TEI possible ? Indexation Google Image+texte, bonne indexation Gogle ? Encodage TEI possible ? Image+texte, indexation Google ? texte intégral (via PDF multicouches) non indexé par google ?
Titre ligne 6 Pas de visionneuse développée avec Greenstone. L'outil libre Zoomify semble souvent être utilisé ? ? visualiseurs propriétaires DigiTool sans Flash (car posent des problèmes d’accessibilité) ? Visionneuse 3D développée par Mnesys ? Albulle ?
Quest. 7 : moteur Lucene ? ? ? ? ? ? moteur interne à Lodel, qui ne permet d'interroger le contenu des textes océrisés. Il n'y a qu'une recherche simple, avec "ou" par défaut ?
Quest. 8 : PDF PDF possible PDF possible ? ? ? ? ? PDF possible il est possible de télécharger les documents en JPEG et en PDF
Quest. 9 : type de doc. ? revues seulement pour le moment ? ? ? ? ? Tous types de documents ?
Quest. 10 : web 2.0 ? ? ? Panier possible ? ? ? RSS sur les nouveautés, possibilité de constituer un panier. ?
Quest. 11 : fonctions avancées ? ? ? Embargo possible. Pas d'outil de thésaurus ? Outil thésaurus, statistiques via google analytics ? ? ?

Les différents portails

Il n'existe malheureusement pas, en France, de mutualisation d'une plateforme de diffusion à l'image de ce qui existe pour les archives ouvertes par exemple (une plateforme générale : http://hal.archives-ouvertes.fr et des vitrines pour chaque institution : http://hal-pasteur.archives-ouvertes.fr, http://hal-mnhn.archives-ouvertes.fr, http://hal.ird.fr...)

Les seules collaborations s'arrêtent, pour le moment, au moissonnage de métadonnées (Gallica et Europeana) ou à la description de corpus et projets de numérisation (Michael pour le ministère de la culture et NUMES pour celui de l'Enseignement Supérieur). Mais concernant les plateformes de diffusion des documents numérisés, chaque bibliothèque est contrainte, pour le moment, de développer sa propre plateforme "dans son coin", ce qui peut coûter cher (de 100 000 à 200 000 €) et pour un résultat pas toujours pérenne et optimal.

e-corpus

Développé par le Centre de Conservation du Livre, e-corpus est une bibliothèque numérique collective et patrimoniale qui répertorie et diffuse de multiples documents : manuscrits, archives, livres, journaux, estampes, enregistrements sonores...

Liens :

polinum

POLINUM est une plateforme collaborative, regroupant un consortium de partenaires privés et publics.

Lien :

Persée

Développé par la société informatique Linagora, porté par Lyon 2, soutenu par le Ministère de l'Enseignement Supérieur, utilisé par Paris 5.

Caractéristiques :

  • Adapté aux revues
  • Numérisation destructive
  • Métadonnées : METS, Dublin Core, MODS, Marc XML, MADS (pour autorités). Pas d'importation des métadonnées, elles sont ressaisies.
  • Texte intégral : TEI, Erudit schema (développé à Montréal pour les articles)
  • Interopérabilité : OAI-PMH (avec Cairn et revues.org) , OKI/OSID (permet d'avoir une interface unique lorsqu'on recherche les articles d'une revue quelque soient les succession d'éditeurs et d'interface d'éditeurs qui l'ont publiée).
  • Identifiant articles : DOI (est facturé en fonction du chiffre d'affaires, donc peu onéreux)
  • Navigation : Persée s'est largement inspiré du système arborescent des sites d'éditeurs de revues auxquels les chercheurs sont habitués.
  • Statistiques : via Google Analytics (villes et institutions d'origine, mots clés saisis dans les moteurs de recherche etc...).
  • Conservation : Persée est paramétré pour être compatible avec l'archivage pérenne du CINES.

Développements :

  • Lyon 2 travaille actuellement à sa segmentation afin de pouvoir l'adapter à des projets locaux car de nombreuses universités avaient manifesté leur intérêt pour une réplication.
  • Des développements informatiques sont possibles : adaptation à d'autres types de documents que les revues, importation possible de métadonnées depuis un SIGB, possibilité de contributions extérieures.

Références de sites :

Liens :

Gallica

Développé par la Bibliothèque Nationale de France, Gallica ne permet pas, pour le moment, une participation à des bibliothèques extérieures à cause de son architecture technique actuelle (workflow).

Lien :

Europeana

Europeana moissonne les métadonnées d'autres portails via leurs réservoirs OAI-PMH.

Lien :

Microsoft Digitization Project

Projet développé par Microsoft pour concurrencer Google Books. Projet abandonné.

World Digital Library

Projet développé par l'UNESCO et la Bibliothèque du Congrès. Objectifs qualitatifs et non quantitatifs (vitrine).

Lien :

Wikipedia

Projets porté par Wikipedia :

Liens :

Sites de partage de documents

Jouant le rôle de You Tube pour les livres, ces sites de partage de documents n'offrent pas, pour le moment, de garanties d'archivage pérenne, ni de critères d'interrogation très avancés, mais des visionneuses satisfaisantes.

Liens :

archive.org

Développé par une organisation américaine à but non lucratif, utilisant des logiciels libres, archive.org est, à l'heure actuelle, le seul concurrent crédible de Google Books. Chaque bibliothèque partenaire peut y déposer les documents qu'elle a numérisés et disposer de sa propre interface, avec son logo, son url, son graphisme et ses statistiques sur le modèle de l'Allen County Library

Lien :

Google Books

Bibliothèque numérique la plus importante sur le web. Pour le moment, ne cherche pas à augmenter le nombre de ses partenariats en France.

Lien :

Conclusion : Exemple de fonctionnalités pour un projet collectif

Les bibliothèques françaises ne trouvant ni la possibilité de participer à Gallica (hormis la BNF), ni celle de participer à Google Books (hormis la Bibliothèque Municipale de Lyon), le développement d'une plateforme mutualisée pourrait se justifier car elle permettrait d'offrir un outil pérenne et de meilleure qualité tout en partageant les coûts de sa mise en œuvre.

Si ce projet de mutualisation vous intéresse, merci de m'adresser un courriel à mathieu[POINT]andro[AT]yahoo[POINT]fr ou de rejoindre le groupe sur Facebook

Voici un exemple de ce qui pourrait être développé. La méthode agile semblerait plus adaptée à ce type de projet qu'un traditionnel cahier des charges.

Formats

Les métadonnées pourront être affichées dans tous les formats suivants : Dublin Core, Dublin Core qualifé, MODS, BiblioML et MarcXML. Ces métadonnées seront incorporées dans des fichiers METS). La majeure partie proviendra de l'importation des notices des SIGB des bibliothèques. Les métadonnées seront chargées en masse par le prestataire avec statut "numérisation en cours" puis seront progressivement changées de statut pour "numérisé par Bibliothèque X" ou "vous souhaitez en financer la numérisation de l'ouvrage, cliquez ici" pour les ouvrages que nous n'aurons pas pu numériser, faute de financements publics. Pour les ouvrages non encore numérisés, une alerte mail sera possible afin d'être prévenu de leur numérisation. Pour les documents anciens, des champs supplémentaires sont à prévoir : numéro de référence d'un incunable, lien vers une autre base (base des reliures estampées à froid ou Calames, par exemple) [à compléter ?].

Une interface permettra de modifier ces métadonnées, d'identifier les sommaires (par balisage XML/TEI par exemple) et de rédiger des présentations de documents. Ainsi, des articles ou des notices détaillées signés par les conservateurs pourront accompagner les documents numérisés. La plateforme servira ainsi également à valoriser l'activité recherche de l'institution à l'instar d'une archive institutionnelle contenant les articles des conservateurs sous forme d'archives ouvertes. Les CV des auteurs et des conservateurs pourront apparaître accompagnés d'une liste dynamique de leurs articles et présentations d'ouvrages. Les métadonnées des documents devront être accessibles via un réservoir OAI-PMH signalé dans les annuaires internationaux du type OAIster et permettant le moissonnage par d'autres bases comme Europeana, Gallica, Bibliothèques Virtuelles Humanistes, Incunabula Short Catalogue, Gesamtkatalog der Wiegendrucke). Le site devra aussi être interrogeable via un Système d'Information, (portail) dans le cadre d'une recherche fédérée. Enfin, son indexation sera possible par Google Books, Amazon BookSurge et archive.org et compatible avec la plupart des lecteurs ebooks sur le marché (format Kindle, EPUB, PDF, TXT, MOBI), les téléphones portables, les logiciels de reconnaissance vocale pour aveugles et malvoyants (compatibilité xml daisy) et les logiciels de gestion de bibliographie (Zotero, EndNote et RefWorks).

Il sera possible de référencer tous types de documents des livres, des revues, des articles de revues, des thèses, des enluminures, des estampes, des images au sein de livres, des manuscrits, des dessins, des photos. Pour d'éventuels documents qui ne seraient pas libres de droits mais dont nous souhaiterions conserver une reproduction numérique sans pouvoir la diffuser, un embargo devra pouvoir être paramétré afin que les documents ne soient accessibles que par le staff jusqu'à leur date de passage au domaine public. Accès par login : Administrateur, Indexeur (professionnels), partenaire (universitaires ou érudits qui peuvent participer à l'encodage et/ou à la corrections de l'OCR), lecteur simple ou anonyme. Le prestataire vérifiera le cahier des charges numérisation afin de valider la conformité des prestations demandées avec sa solution logicielle.

Fonctionnalités

Chaque document électronique devra bénéficier d'une adresse URL stable, pérenne (ARK ou DOI ?) afin que les bibliothécaires puissent le signaler dans le catalogue national SUDOC et y saisir son URL en champs 856 ou 325 de l'UNIMARC. L'URL devra être significative afin que le site soit bien indexé par les moteurs de recherche. Les éditeurs pourront nommer les pages numériser en recourant à des systèmes spécialisés non strictment numériques (ex : « feuillet a1recto », « a1verso », « *8verso », « plat supérieur », etc…) Chaque document sera entièrement OCRisé afin de permettre une recherche en texte intégral dans le corps du texte et afin d'en permettre une bonne indexation par les moteurs de recherche du type Google. Un balisage XML/TEI devra pouvoir être possible afin de générer des index sur des termes identifiés dans le texte et de permettre une valorisation et une exploitation de son contenu (noms de lieux, dates, noms de personnes etc...). Il devra également être possible d'indexer ainsi les images au sein des documents numérisés (afin de pouvoir effectuer des recherches iconographiques), mais aussi de permettre à des historiens et des paleographes d'ajouter le texte de documents trop anciens pour être OCRisés, des corrections d'OCR et des balisages XML/TEI. Les documents numérisés pourront être distribués au sein d'une structure hiérarchisée permettant de créer des corpus et des collections (adapté pour les archives en particulier).

Les images et les métadonnées correspondantes des bases BSG suivantes devront être importées : base CADIC des enluminures, base MySQL des reliures estampées à froid (http://bsg-reliures.univ-paris1.fr/fr/accueil), estampes numérisées. Un outils de thésaurus hiérarchisé (Thésaurus François Garnier) permettra de poursuivre l'indexation des enluminures. L'utilisateur aura la possibilité de s'enregistrer des sessions afin d'annoter et d'ajouter des ouvrages dans un panier (MonCarnet 2.0 est une application web destiné à permettre la collecte, le classement, le partage et l’annotation électronique de ressources numériques moissonnables en OAI-PMH et pourra être utilisé). L'utilisateur pourra également télécharger (plusieurs formats : PDF multicouches image et texte OCR, JPEG, TIFF, PNG etc...) et imprimer les documents, corriger des erreurs d'OCR ou signaler des documents de mauvaise qualité. La base devra être compatible avec les technologies RSS afin de pouvoir afficher les derniers ouvrages numérisés. Possibilité sera également donnée aux usagers de suggérer la numérisation d'un ouvrage de notre catalogue, d'ajouter des commentaires, des notes et d'insérer des tags pour indexer les documents (folksonomie). L'indication du nombre de fois que le document a été suggéré à la numérisation, ou commenté apparaîtra sur le site, mais aussi le nombre de fois qu'un lien vers un mécène a été cliqué. Une selection d'ouvrages sur le même thème que celui en cours de consultation sera dynamiquement proposée (en fonction de l'indexation du document consulté, sur le modèle de bookser.com).

Pour les ouvrages numérisés, sur chaque page devra apparaître : "numérisation financée par la Bibliothèque X, l'institution Y, la fondation Z" (en fonction de l'origine du financement) et pour les ouvrages pas encore numérisés : "si vous souhaitez financer la numérisation pour N euros, merci de cliquer ici", mais aussi le statut juridique du document électronique (Creative Commons CC-by-nc-nd : paternité, pas d'utilisation commerciale sans autorisation, pas de modification), et un lien dynamique vers une société d'impression de facs similes à la demande (type Amazon Booksurge). Il sera possible d'accéder à une page "nos soutiens" et d'y afficher dynamiquement la liste de nos mécènes et soutiens par ordre décroissant du nombre de documents numérisés avec un lien vers la liste des documents qu'ils nous ont permis de numériser. Il sera possible aussi d'afficher tous les documents dont la numérisation reste à financer.

La liste des documents correspondant à une requête fera apparaître une vignette de la page de titre, le titre, l'auteur et la date avec tri possible par titre, auteur, date, popularité. Un module statistique (de type Google Analytics) permettra de connaître l'origine géographique et institutionnelles des connexions, les mots clés utilisés dans le moteur de recherche, le nombre de téléchargements et d'impressions, le nombre de clics sur des liens pointant vers l'extérieur (institutions ou mécènes). Chaque institution pourra accéder à ses propres statistiques de consultation.

Une version anglaise du site sera développée. Afin que chaque bibliothèque partenaire du projet conserve son identité malgré son caractère collectif, en dehors de l'interface générale, devra être développé une vitrine (graphisme rappelant celui des sites web de chaque bibliothèque, logo et URL personnalisées) propre à chaque bibliothèque portant exclusivement sur les documents qu'elle conserve.

Affichage

La navigation permettra d'obtenir page précédente, page suivante, aller à la page X, première page, dernière page. Elle affichera par défaut, pour les incunables, conjointement le verso d’un feuillet et le recto du feuillet suivant (consultation par double page). Il sera également possible de naviguer par le sommaire ou les index des documents.

La visualisation permettra de zoomer avec l'aide, par exemple, d'outils libres du type ImageMagick et/ou Zoomify. Il sera possible de visualiser des documents originaux de grands formats (cartes, plans) et de pouvoir localiser la partie actuellement consultée dans l'ensemble du document (avec l'aide d'un carré représentant la partie zoomée sur la vignette) permettant de savoir à tout moment quelle partie du document est zoomée (carré qui se déplace sur la vignette). Le feuilletage des pages utilisera des outils de type turning the pages (feuilletage 3D avec Flash : fsi viewer, Issuu, acroflip). Les références succinctes du texte resteront apparentes pendant la visualisation (titre, auteur, date)

L'affichage permettra de comparer entre elles des éditions d’un même atelier, d’un même imprimeur-typographe ou d’un même texte (typographie, décor, annotations manuscrites), 2 enluminures représentant le même objet, 2 plans ou dessins d'architecte... Les bibliothèques auront la possibilité d'éditer et de commercialiser des facs similés à la demande ou d'établir un partenariat avec une société, mais aussi de faire apparaître d'éventuels liens dynamiques vers des sites de libraires partenaires.

Recherche

La solution logicielle devra être parfaitement adapté aux spécialistes tout en permettant au grand public de se délecter du patrimoine. C'est la raison pour laquelle, les recherches seront possibles à la fois à partir de références bibliographiques et par sujet avec 3 niveaux de recherche correspondant à divers niveaux de compétences en recherche bibliographique :

1- Recherche en texte intégral : avec surlignage sur l'image de la zone géographique correspondant au texte OCRisé repéré (ALTO).

2- Recherche simple : "anywhere" (tous champs : mots du titre ou mot du sujet ou mot auteur etc...)

3- Recherche avancée : titre, auteur, sujet , numéro de référence bibliographique (incunable), cote avec booléen (et, ou, sauf) sur 3 lignes avec tri possible par date, titre, auteur, popularité (nb commentaires, téléchargements et vues) , note et filtre par date (2 champs : début et fin de l'intervalle), ou type de doc (image, incunable, manuscrit, plan, imprimé, objet etc...) Troncature * automatique si l'utilisateur coche la case "commence par". Recherches par expression exacte. Pour le champs sujet, possibilité d'accéder à une fenêtre présentant la liste d'index des sujets.

Possibilité d’établir un formulaire de requête propre à la base d’incunables, avec les champs suivants : - Tous champs - Auteur - Titre - Lieu de publication - Imprimeur-libraire - Références bibliographiques (avec double index : ouvrage / n°s) - Format - Date de publication (=, <, >, < <) - Langue - Cote Pour tous ces champs : saisie directe des termes de recherche ou sélection dans un index associé (sauf pour les zones « Tous champs » et « Date », sans index associé)

4- Recherche experte : possibilité d'écrire équation de recherche selon modèle (KW=chat OR KW=chats OR kW=cat OR KW=cats) AND (KW=comportement* OR KW=ethol* OR KW=behavio*) pour une recherche sur le comportement du chat avec une application facilitant l'écriture de l'équation, un modèle et un schéma sous forme de "patates" expliquant le fonctionnement des booléens AND OR NOT. La recherche ne sera pas sensible à la casse et aux diacritiques. Afin d'éviter le "bruit documentaire", l'opérateur implicite entre plusieurs mots du même champs sera ET Il sera possible d'effectuer une navigation par sujets ou corpus ou même du type "un document au hasard". Il devra être possible de restreindre les corpus, les bibliothèques, les types de documents sur lesquels portera chaque recherche. Un historique des recherches pourra être affiché. Il permettra de combiner plusieurs recherches différentes par des opérateurs booléens. Il sera possible de créer une DSI de deux manières différentes : alerte email ou sous forme d'un flux RSS généré dynamiquement et correspondant à l'équation de recherche souhaitée (afin d'être prévenu de la numérisation d'un document ou de la numérisation de documents relatifs à sujet). En l'absence de réponse à une requête, des rebonds dynamiques seront proposés vers d'autres catalogues de documents numérisés (Europeana, Gallica, ISTC, GW...), des librairies partenaires et des catalogues de bibliothèques comme le SUDOC et le CCFR. Ce rebond sera dynamique au sens où il n'affichera un lien que si la ressource extérieure va répondre au moins 1 occurence à cette même requête. Un moteur de recherche open source pourrait être utilisé : Lucene (utilisé par Europeana) ou Zebra, Cocoon. Une recherche par index (browse by) sera possible sur les champs suivants : grand sujet Dewey, auteur, année, titre, documents restant à numériser.

Bibliographie

--Mathieuandro 22 septembre 2009 à 14:03 (UTC)