Feeds:
Articles
Commentaires

Archive for the ‘EAD’ Category

Mardi 27 mai 2014, en salle Hugot de l’Institut de France, s’est tenu un événement inédit à l’échelle du réseau des établissements participant au Catalogue des archives et manuscrits de l’Enseignement supérieur : ce sont un peu plus de 80 membres du réseau, invités, intervenants, qui ont répondu à l’appel de la journée du réseau Calames [programme].

La journée répondait à plusieurs objectifs :

– présenter un document préparatoire de « bilan prospectif » de Calames et permettre à tous de s’en approprier. Partant du constat d’une actualité chargée en matière d’EAD et de production des métadonnées (hypothèse d’un dispositif national de catalogage en XML envisagée avec la BnF, arrivée prochaine d’un schéma XML qui pose bien des questions, développements « Calames Plus » en question, orientations de l’ABES liées au futur SGB mutualisé) l’élaboration de ce document a été décidée par le Groupe de travail Calames en février et son ébauche a été adressée au réseau dès le 25 avril. Les suites de la journée du 27 mai permettront de dresser un état définitif de ce document, que l’ABES publiera en ligne.

– proposer un cadre d’échanges directs et prendre du recul sur un existant de plusieurs années. Que plus des deux tiers des correspondants Calames puissent être réunis dans un même lieu ne s’était jamais produit : les journées ABES elles-mêmes n’ont jamais permis un tel rassemblement, à même de recueillir la parole d’un réseau (très) majoritairement francilien.

– nourrir la réflexion sur l’avenir de Calames, en donnant des éclairages sur d’autres contextes de production en XML/EAD en France. Intervenants et invités ont presque tous pu répondre positivement à l’invitation de l’ABES et du GT Calames : qu’ils en soient ici de nouveau vivement remerciés, car leur participation a été garante d’importantes et nécessaires mises en perspective.

Yann Sordet, directeur de la Bibliothèque Mazarine, qui s’est particulièrement impliquée dans l’organisation de cette journée, l’a inaugurée en rappelant la nécessité d’aborder conjointement signalement et diffusion. Principal établissement utilisateur de Calames Plus images à ce jour, la Bibliothèque Mazarine envisage de recourir à d’autres solutions de bibliothèques numériques, et regrette que Calames Images n’ait pris ni son essor, ni la direction d’une véritable réponse aux enjeux actuels des numérisations patrimoniales. Jérôme Kalfon, directeur de l’ABES, a ensuite introduit la présentation de l’étude collective sur les outils et le réseau Calames que votre serviteur a proposée et a rendue disponible sur Slideshare :

 

L’accent a été mis sur différents éléments de bilan :

–          le développement en interne entre 2006 et 2008 d’une application dont les deux volets (production et publication) sont accessibles en ligne, choix qui reste à ce jour largement original. L’interface publique reste une vitrine de qualité, tandis que l’outil de production pose différents problèmes d’installation, de lenteurs, de bugs dont souffrent de manière inégale les catalogueurs du réseau

–          la réussite de l’initiative Calames tient largement à la synergie qui a pu être établie, dès l’origine, entre un groupe d’établissements moteurs et d’experts en leurs seins d’une part, et d’autre part les équipes de l’ABES, dont les forces sont limitées : env. 3 ETP consacrés à tous les aspects de l’application (qui ont donc un besoin crucial de l’implication du réseau)

–          près d’un demi-million de composants <c> publiés à ce jour, contre un peu moins de 150.000 publiés à l’origine (déc. 2007), avec un fort accroissement des données disponibles en 2012-2013. L’hétérogénéité du réseau Calames peut être résumée par ce seul fait : les 2/3 des données de Calames produites en cinq ans (plus de 440.000 <c>) l’ont été par cinq établissements très actifs (Muséum, Institut de France, Académie de Médecine, BDIC, Bibliothèque Littéraire Jacques Doucet). Le soutien financier aux rétroconversions (mission transférée du MESR à l’ABES depuis 2010), dont 21 établissements ont déjà pu bénéficier entre 2009 et 2014, est directement à l’origine de 1/4 à 1/3 de l’activité de catalogage

–          des statistiques de consultation qui ont marqué le pas au printemps 2010 : alors que Google sur-référençait Calames en 2009, l’effet d’aubaine des premiers temps a cédé le pas à un sous-référencement certain. Depuis cette époque, et malgré des discordances partielles entre l’analyse des logs ABES et les rapports de l’outil Google Analytics, on estime à 8000 à 12000 la quantité de visites mensuelles sur l’interface Calames

–          depuis juin 2012 et la mise en service de Calames Plus (service complémentaire né de l’abandon du projet de portail national des manuscrits), les fonctionnalités de commentaires n’ont quasiment pas été utilisées. Quant au volet images, trois bibliothèques ont à ce jour confié un total de 46 Go de fichiers jpeg (notamment déposés par la Bibliothèque Mazarine) et plusieurs établissements ont manifesté leur intérêt, pour des projets de dépôt d’une ampleur très variable.

Patrick Latour, directeur adjoint et correspondant Calames de la Bibliothèque Mazarine, a illustré la problématique de l’intégration de Calames au sein d’une chaîne de production numérique patrimoniale, en présentant quatre des projets de valorisation et de recherche en cours à la Bibliothèque Mazarine. Tandis que Calames s’est vu renforcé dans sa position de pivot (production des métadonnées descriptives de référence, signalement permettant d’orienter vers les différentes documents et initiatives en lien avec les documents), certains besoins actuels et émergents mettent en lumière les insuffisances d’un produit Calames pourtant conçu dans un souci de modularité et d’évolutivité : l’encodage TEI du registre de la Société des Amis des Noirs (également projeté pour l’ édition électronique de manuscrits philosophiques clandestins ) n’est pas fongible dans Calames Plus en l’état ; et le signalement du fonds photographique Demangeon et des estampages d’inscriptions latines ne serait vraiment complet qu’avec une possibilité de géolocalisation.

Matthieu Bonicel (BnF) et Régis Robineau (Pool Biblissima) ont clos la matinée en présentant la mise en interopérabilité (sémantique, syntaxique et technologique) de plus d’une cinquantaine de base de données, catalogues et bibliothèques numériques dans le cadre de l’équipement d’excellence Biblissima.

[Voir cette présentation sur Prezi]

Cette mise en dialogue de données hétérogènes et/ou à venir, qui doit aboutir en 2017 par la mise à disposition d’un outil de recherche fédérée, passe par la construction d’une ontologie (compatible avec CIDOC-CRM) modélisant l’histoire de la transmission des textes et des collections. En s’appuyant notamment sur le modèle de données Shared Canvas (conçu pour traiter les fac-similés numériques autour de la notion d’annotations : images, transcriptions, notices… exprimées et structurées au sein de fichiers de référence ou « manifestes ») et sur le protocole d’échange IIIF (International Image Interoperability Framework, syntaxe commune à l’usage des visionneuses de documents numériques), les réalisations en cours dans le cadre de l’Equipex (visualiseur Mirador) permettent aussi de penser l’interopérabilité de bibliothèques numériques en profondeur, portant sur les images elles-mêmes et non plus seulement sur des métadonnées descriptives. En vue de tracer un horizon à d’éventuelles évolutions de Calames Images, et pour progresser sur la voie d’une ouverture sans appauvrissement des données EAD (la solution la plus aboutie actuellement étant celle du moissonnage des données de Calames à l’aide des web services natifs de Calames), les recherches et développements menées par les équipes Biblissima fournissent des exemples très nourrissants. Parmi les développements en cours autour de la boîte à outils Biblissima, l’attention s’est plus particulièrement portée sur les outils d’encodage en XML : en disposant des sources du logiciel XXE (société Pixware), produit reconnu pour sa stabilité, et en poursuivant pour TEI et EAD les développements réalisés depuis plusieurs années à la MRSH Caen, les partenaires consortiaux de l’Equipex se doteront prochainement de nouveaux environnements de production de données. XXE présente également l’avantage de s’installer de trois façons distinctes (client lourd, client web, version intermédiaire). Les partenaires qui relèvent de l’INSHS bénéficiant du serveur de licences oXygen d’HumaNum, Les développements réalisés pour XXE devraient être menés de manière à bénéficier également aux utilisateurs d’oXygen. A cet égard, Stéphane Pouyllau est revenu dans l’après-midi sur le choix qui a été progressivement fait, par le TGE Adonis puis par la TGIR HumaNum, d’encourager les chercheurs en SHS à se fabriquer leur propre outillage XML, plutôt que de bâtir des formulaires de saisie : une quarantaine de laboratoires français mettent ainsi actuellement à profit une soixantaine de jetons de licences et une liste de diffusion a été créée pour favoriser les échanges autour de la pratique d’oXygen.

 

La table ronde de l’après-midi, modérée par Fabienne Queyroux, responsable du service du patrimoine à la Bibliothèque de l’INHA et membre du Groupe de travail Calames, a permis de donner un aperçu synthétique sur la production de données XML (EAD) en réseau et/ou dans des contextes voisins de Calames.

* Jérôme Sirdey, conservateur à la BM Lyon et ancien responsable du CCFr-Manuscrits, a présenté le point de vue des établissements relevant du ministère de la Culture. Depuis 2008, le CGM en ligne (hors données Calames) s’est accru de 55 nouvelles instances (soit environ 30000 <c> issus notamment des BM Lyon, Dijon, de la BHVP, du Sénat…) et de plus de 8000 liens vers des documents numérisés (BVMM notamment), pour atteindre plus de 536.000 composants publiés (relatifs aux fonds de 471 institutions de conservation, répartis dans env. 800 fichiers EAD). L’équipe CCFr propose à des institutions très diverses un ensemble de services de soutien technique (formations, contributions directes à l’encodage, à l’enrichissement et aux conversions de données…), mais le travail de mise à jour des inventaires n’a jusqu’alors pas bénéficié d’un outil de catalogage adossé à la base de données CGM, comme c’est le cas de Calames. Dans les exemples les plus avancés, à l’instar de la BM Lyon, plusieurs professionnels formés à l’EAD ont pu, à l’aide d’XMetal puis oXygen, encoder des suppléments au CGM ; les données sont publiées et interrogeables à la fois dans le CCFr et via une interface Pleade et un module de recherche spécifique sur site de la BML. L’intervention s’est conclue par un plaidoyer en faveur d’un outil de catalogage adossé au CGM, et plus largement, en faveur d’un dispositif de production national en EAD.

* La multiplication des initiatives en laboratoires et l’importance d’une mise en interopérabilité et d’un accès unifié à une masse de données très hétérogènes en SHS (via Isidore) ont constitué le fil directeur de Stéphane Pouyllau, directeur adjoint de la TGIR HumaNum. Signaler est insuffisant, l’âge des plateformes et des « aventures bibliographiques » en laboratoires est pratiquement révolu, et les professionnels de la documentation sont amenés à se tourner vers la gestion des données de la recherche. La logique de corpus n’en reste pas moins pertinente pour rationaliser l’accès et donner forme à des services numériques attachés aux données (cf. les 9 consortiums HumaNum, dont certains comme MASA et Archives des ethnologues commencent par ailleurs à être largement représentés dans le réseau Calames). L’EAD occupe une place centrale dans cette sortie de la logique du silo isolé et de la base de données relationnelles classique, bien que cela ait parfois entraîné des détournements d’usage de cette DTD (la possibilité d’une diffusion quasi immédiate et d’une éditorialisation relativement simple via Pleade ayant contribué à ce succès). Reste que le travail de modélisation des connaissances par l’encodage en TEI ou en EAD reste marginal dans les travaux de recherche, et qu’une véritable mise en commun de compétences scientifiques reste à élaborer autour de la conception et de la réutilisation des métadonnées.

* Vincent Boulet, responsable de BnF Archives et Manuscrits, a présenté le contexte et les conclusions d’une étude menée, courant 2013, sur l’avenir de l’EAD au sein de la BnF. C’est pour un usage semi-expérimental et « réservé » au département des Manuscrits principalement que les outils de catalogage (PIXML) et plus encore de publication (BAM, recourant jusqu’en 2014 au logiciel Pleade) ont été mis en place, or l’EAD s’est depuis très largement étendu dans les pratiques de signalement de la BnF (types de documents non manuscrits), au point que l’établissement compte aujourd’hui plus de 750.000 composants publiés. [On constatera au passage que les masses de données en jeu dans chacun des pôles du triptyque CGM – BAM – Calames sont comparables.] La priorité a été donnée à la mise en place d’une nouvelle solution de publication, puis dans un second temps, à une réflexion à mener sur l’outil d’encodage. PIXML, rappelons-le, présente un certain nombre de points communs avec l’outil Calames (plugin XMAX version 5, volet d’accès aux fichiers EAD, attribution automatique d’identifiants), mais aussi des différences (adossement plus indirect à une base de données Oracle et disjonction entre production et publication, fonctionnalités spécifiques développées pour la gestion du circuit des numérisations Gallica, pas de notion d’arborescence comme dans Calames mais organisation de l’accès aux inventaires par le « cadre de classement » Pleade) qui seront analysées plus en détails dans le cadre de la réflexion, naissante, sur un dispositif national d’édition en XML (EAD et TEI à tout le moins). L’EAD peut-il, doit-il servir à décrire tout document ou ensemble qui n’entrent pas dans une démarche éditoriale (lâchesse d’usage qui a entraîné les réappropriations soulignées par Stéphane Pouyllau) ? Et/ou qui appellent une description à niveaux ou contextuelle ? Comment articuler véritablement les deux points de vue sur un même manuscrit que sont sa description générique (en EAD), la description de sa reliure (en TEI, dans une base BnF plus spécifique), la description de son contexte de production (en EAC, schéma dont l’emploi n’est pas encore entré dans les pratiques des bibliothèques françaises, malgré les inadéquations des formats Marc à cet égard) ? Autant de questions qui entrent en résonance avec les besoins du CCFr et avec le bilan prospectif de Calames.

* Charlotte Maday, présidente de la section Aurore de l’AAF et correspondante Calames de l’université Paris Diderot, est revenue sur les enjeux qui intéressent plus spécifiquement les archivistes des établissements d’Enseignement Supérieur et de Recherche. La nouvelle loi relative aux patrimoines culturels introduit dans la législation la responsabilité de l’archiviste en matière, non seulement de documents, mais aussi de données produites et/ou reçues dans le cadre de l’activité de personnes ou organismes publics. Ce périmètre en extension va directement toucher les activités des (jeunes) services d’archives des établissements d’ESR (37 universités s’en sont dotées à ce jour, ainsi que 17 académies sur 26, depuis moins de cinq ans pour la plupart). Faut-il signaler d’abord, pour faire la promotion d’archives librement communicables, avant même d’avoir complètement classé et traité les fonds (cela rend pour partie compte de la modeste contribution à Calames des services d’archives jusqu’alors déployés) ? Dans quelle mesure Calames peut-il concourir au cycle de vie de toutes les données archivistiques (scientifiques, pédagogiques, administratives) ? Les questions posées ensuite par l’assemblée sur la possibilité de développer Calames comme outil de gestion interne (suivi de la vie des documents et problème de la gestion de l’attribut @audience= »internal », liens vers des modules de communication à l’instar de ce qui existe pour la BDIC…) montrent que la problématique intéresse aussi pour partie les bibliothèques et services muséaux. Tandis que certains services (une minorité) bénéficie de systèmes informatiques comprenant des outils de générations d’instruments de recherche en EAD, le besoin d’un point d’entrée unique et d’un état des fonds de l’ESR reste effectif pour le réseau Aurore, et Calames une réponse potentielle à la multiplicité des lieux de dépôts d’archives – du moins, s’il est possible d’y comprendre les données des archives définitives (services d’archives nationales ou départementales).

 

Trois dossiers centraux pour l’avenir de Calames (outil d’encodage en XML, interopérabilité et ouverture des données, gestion des numérisations) ont été mis en évidence et discutés en fin de journée.

Partant du constat d’une convergence de besoins à la BnF, dans les établissements CGM, et dans le réseau Calames qui a souligné certains des handicaps de son outil d’encodage, en parallèle des développements qu’engagent les équipes Biblissima, l’hypothèse d’un dispositif national d’édition en XML ouvert et « agnostique » (ne se cantonnant pas à l’EAD des bonnes pratiques françaises, qui n’a pas vocation à « tout faire » dès lors qu’il s’agit d’accompagner des projets de recherche) sera examinée à l’automne 2014. L’enjeu sous-jacent est de disposer d’outils ouverts en entrée comme en sortie, et capables de contrôler une variété de pratiques professionnelles et scientifiques (on pense notamment à l’indexation, jusqu’alors peu répartie et/ou bien souvent cloisonnée).

C’est certainement la question des numérisations, formes devenues incontournable des descriptions de documents patrimoniaux, ainsi que l’avenir de Calames Plus Images qui ont suscité le plus de réactions dans l’assemblée. L’éventail reste large entre les établissements qui disposent d’une bibliothèque numérique stable et ceux se déclarant intéressés par une solution collective adossée au catalogue Calames. Faut-il, et jusqu’où, redéfinir la notion de « solution d’appoint », tout en s’inscrivant mieux dans l’écosystème national de la numérisation (Gallica, BSN 5…), et en évitant l’écueil chimérique d’un portail documentaire complet ? L’ABES ne pourra – au mieux – s’engager sur une voie intermédiaire satisfaisante qu’avec le soutien actif d’établissements dont elle tire sa légitimité.

Les partenariats à nouer autour de ces dossiers clés devraient trouver, à partir de l’automne, un cadre de mise en cohérence privilégié dans le dispositif CollEx, futur pendant de BSN pour les collections physiques et patrimoniales.

[JMF 06/06/2014]

Read Full Post »

Tout comme celle des points d’accès (mais à la différence des langues, dates, provenances et intitulés qui suivent des règles spécifiques), l’indexation des « Documents numérisés associés » mise en production fin mai 2013 dans Calames obéit à des règles d’héritage strictes (exemple : documents numérisés relatifs à « André Breton »). Tout composant, tout niveau descriptif où figurent les éléments <dao> (Objet archivistique numérique) ou <daogrp> (Groupe d’objets archivistiques numériques) porte l(es) entité(s) qu’il décrit au rang des documents reproduits sous forme numérique. Si ce niveau comporte des enfants, petits-enfants…, alors cette descendance est censée bénéficier du même statut de « document numérisé ».

Le corollaire de cet héritage orthodoxe est une clause de complétude : dès lors qu’un composant marqué par un <dao> ou un <daogrp> présente une descendance, le document « parent » est en principe réputé intégralement numérisé. Cette clause peut être assouplie dans le cas des composants « feuilles » (i.e. sans descendance) : si l’on peut tolérer de voir la description d’un manuscrit enluminé complétée par un <daogrp> recensant les liens vers ces seules enluminures, l’équilibre est rompu dès lors qu’on entre dans le détail des composantes intellectuelles et/ou matérielles de ce manuscrit.

Aussi, lorsqu’il s’est agi en mai dernier de signaler la Bibliothèque Virtuelle des Manuscrits Médiévaux (BVMM) dans Calames, deux cas ont-ils été distingués : les manuscrits intégralement reproduits par l’Institut de Recherche sur l’Histoire des Textes ont été signalés à l’aide d’éléments <daogrp> (exemple strasbourgeois), tandis que les reproductions partielles (de décors) ont été signalées à l’aide d’une combinaison des éléments <extref> et <extptr> (exemple génovéfain), permettant de générer des vignettes cliquables sortant du cadre strictement défini pour les signalement des <dao> & <daogrp>.

Les nombreuses nuances possibles dans l’usage de <dao> ou <daogrp> (signaler une numérisation sous forme de rebond par défaut ) , de liste de liens ou sous forme de vignette cliquable ; avec ou sans modification des rebonds hypertextuels ; avec ou sans informations complémentaires en <daodesc>…) n’ont d’importance que dans l’affichage des notices : au point de vue de l’indexation, l’ensemble de ces variantes est considéré uniformément et sans distinction. Ce traitement égalitaire se double d’un champ d’exclusion des usages déviants : un <dao> dont l’attribut HREF ne serait pas renseigné (ce qui serait absurde et contreviendrait au principe même de cette balise) ne sera pas pris en compte par le processus d’indexation. Non plus qu’un élément <daogrp> qui ne contiendrait pas au moins un élément <daoloc role= »rebond » href= »[URL] »>. En-dehors des oublis de renseignement de rôles de <daoloc>, cette disposition permet d’ignorer les cas où l’on fait uniquement mention de « vignettes », c’est-à-dire d’adresses d’images (cas soumis par la Bibliothèque Littéraire Jacques Doucet, où il est fait emploi d’un encodage ignoré par Calames mais exploitable en interne, dans une base Pleade, sous forme de carrousels d’images non libres de droits).

Inversement, on peut imaginer une « ruse d’encodage » qui permette d’indexer les documents numérisés associés à un composant sans en modifier l’affichage détaillé :

<daogrp><daoloc linktype= »locator » role= »vignette » /><daoloc linktype= »locator » href= »INDEXATION DAO SANS AFFICHAGE » title= »INDEXATION DAO SANS AFFICHAGE » role= »rebond » /></daogrp>

Prenons l’exemple d’un ensemble numérisé dont toutes les unités (sous-composants enfants) disposent d’une adresse propre vers leurs substituts, mais pour lequel aucun lien de regroupement n’existe : aucun rebond pertinent ne peut donc être imaginé au niveau parent. L’insertion d’un élément <daogrp> tel que formulé ci-dessus aura alors pour vertu d’indexer plus qu’une fratrie, mais l’ensemble des niveaux pertinents dans l’inventaire : les résultats de recherche, après infanticide si nécessaire, en seront plus satisfaisants.

Nul besoin d’une telle « ruse » pour indexer les notices sous lesquelles un dépôt d’images dans Calames Plus a été effectué. Une table spécifique recense en effet les <c> sous lesquels une association d’images à la volée et vers les serveurs de l’ABES a été effectuée. L’alimentation de cette table n’est à ce jour pas automatisée – choix qui ne pourrait être remis en cause que face à un rythme de dépôt soutenu et régulier.

Le développement d’une facette dans les listes de résultats a semblé prématuré au vu de la part encore très faible des documents numérisés dans l’ensemble des inventaires publiés.

Pour résumer, le filtre « Documents numérisés associés » recense trois catégories de composants :

– <c> qui comportent ou héritent un élément <dao> dont l’attribut HREF est renseigné

– <c> qui comportent ou héritent un élément <daogrp> comportant au moins un élément <daoloc role= »rebond »> avec un attribut HREF renseigné

– <c> sous lesquels un dépôt d’images a été effectué via les services « Calames Plus »

JMF 09/07/2013

Read Full Post »

Quatre nouveaux index, une nouvelle facette et des modifications dans l’affichage détaillé des notices : ainsi pourrait-on résumer la phase de «Calames v.3» entrée en service ce matin.

Si ces nouveautés devaient être classées par ordre d’importance, sans doute commencerait-on par les types de documents (point d’accès <genreform type= »type de document« >, plus commodément abrégé en « TDD »). Le sentiment partagé par l’ABES, son CS et ses réseaux que Calames peut être un excellent outil pour signaler des fonds mixtes et composites (papiers de chercheurs, archives administratives, sonores, photographiques, etc.) a justifié des égards particuliers :

  • un dispositif inédit en recherche avancée, incluant l’ex-unique filtre de Calames, «Documents illustrés» [qui indexe tout <c> comportant un élément <physfacet type=illustration>… mais sans héritage en l’occurrence]. Exception dans les modes de recherche de Calames, c’est l’opérateur booléen «OU» qui régit les relations entre index publics TDD. Par opposition à la construction classique du type : «documents numérisés» ET «tel établissement», on obtient les «documents iconographiques» OU les «documents illustrés» de tout le catalogue ou répondant conjointement à un tiers critère. Le filtre lié à la valeur « ressource électronique », prêt à l’emploi, restera masqué dans l’attente d’être significativement alimenté ; ExempleRechercheTddOU
  • une nouvelle facette pour affiner les listes de résultats ;
  • un mode d’affichage détaillé distinct des autres éléments d’indexation, recourant non pas à des points d’accès en fin de notices, mais à des icônes, pour certaines reprises du Sudoc, légendées par des info-bulles, et dont l’affichage est héritable (deuxième dispositif du genre, après la mise en place des rappels de mentions de Conditions d’accès et d’utilisation). Lorsque plusieurs TDD figurent dans un même composant <c>, une icône ad hoc (verte et améliorable) permet d’éviter tout conflit à l’affichage (exemple) ;ExempleIconeTddObjet
  • lorsqu’aucun TDD n’est précisé, ni directement ni par héritage, le niveau descriptif est dans le cas de la valeur par défaut « Archives et manuscrits », valable à l’échelle de tout Calames du fait de la nature même des métadonnées EAD.

Les deux autres types de <genreform> («technique» et «genre, forme et fonction»  – abrégé en « GFF ») sont assez souvent, mais pas systématiquement des compléments ou des déclinaisons des TDD.
Contrairement aux TDD pour lesquels seules les valeurs d’attribut NORMAL comptent vraiment, tous deux font l’objet d’une indexation portant à la fois sur leurs valeurs normalisées et sur les contenus de balises, qui ont vocation à se compléter. On a ainsi tout intérêt à choisir l’encodage suivant :   Boîte contenant 24 <genreform type= »technique » normal= »photographie »>daguerréotypes </genreform>  de manière à pouvoir rechercher aussi bien le terme spécifique «daguerréotype» que  le terme générique «photographie» dans l’index des techniques. Ces valeurs qui sont interrogeables à l’aide d’un champ de recherche du type «mots clés». Un feuilletage des valeurs normalisées par liste devrait être prochainement mis en place ; bien que cela n’ait pas été jugé prioritaire, on ne peut pas exclure qu’elles bénéficient un jour de leur propre facette.ExempleTechniqueEtGff

Du point de vue des producteurs de métadonnées, la plus grande rigueur est de mise dans l’emploi de l’élément <genreform>.

  • Non seulement les attributs TYPE et NORMAL doivent être tous les deux renseignés, non seulement ces valeurs sont strictement restreintes aux listes fermées définies en groupe de travail Calames, mais ces deux valeurs doivent être en correspondance logique. A NORMAL= »image fixe » doit obligatoirement répondre TYPE= »type de document », et lorsqu’on renseigne TYPE= »technique », on n’est pas censé compléter par NORMAL= »dessin d’actualité » (qui est une valeur de GFF). Deux garde-fous pour cela : les listes fermées et à rubriques de l’outil de catalogage, et l’export visio_controle avant publication.
  • Le typage des documents présente assez souvent un caractère structurant dans les plans de classement, et l’usage est en alors facilité par l’héritage des points d’accès : il peut ainsi suffire de marquer d’un seul TDD «image fixe» l’ensemble intitulé «Portraits», ou d’un seul GFF «correspondance» l’ensemble intitulé «Lettres reçues». Mais il faut garder à l’esprit qu’un point d’accès <genreform> est censé irriguer l’intégralité des documents faisant l’objet d’un composant. Dans l’exemple suivant :   <scopecontent><p>Cet ensemble comprend notamment de nombreux fragments de texte imprimé (coupures de presse).</p></scopecontent> , résistons à la tentation d’indexer «texte imprimé» (TDD) et «coupures de presse» (GFF) sauf (éventuellement) en l’absence de sous-composants, puisqu’une telle description suppose que d’autres types et natures de documents peuplent l’ensemble en question.
  • Un composant <c> peut comporter plusieurs TDD (ensembles ou composants dits « mixtes »), mais ne doit en principe hériter que d’un seul et unique TDD. Cette remarque vaut également pour les deux autres types de <genreform>, bien que le cas d’un <c> parent indexé à la fois pour ses photographies et ses dessins ne soit pas tout à fait inimaginable. En toute logique, un composant « mixte », contenant par exemple à la fois un TDD « objet » et un TDD «image fixe», répond à l’un comme à l’autre des champs de recherche correspondants. Un mot au sujet du TDD «texte manuscrit» : cette valeur, qui est une déclinaison et un sous-ensemble de la valeur par défaut «archives et manuscrits», n’a d’utilité que dans le seul cas des composants dits «mixtes». Sa vocation est uniquement de signaler que tel <c> comporte à la fois des photographies et des imprimés mais aussi des documents manuscrits ; a contrario, dans un <c> mixte, si «texte manuscrit» n’est pas renseigné, c’est qu’on n’est censé y trouver aucun document de type manuscrit. [Un (ensemble de) <c> ayant pour unique TDD « texte manuscrit » sera en somme totalement ignoré de Calames : cela ne nuira pas, peut-être cela sera-t-il jugé plus clair dans certains contextes de catalogage, mais cela n’aura aucun effet dans l’interface publique].

Quant à l’index des documents numérisés (éléments <dao> et <daogrp>), un billet spécifique lui sera prochainement consacré sur ce blog.

(A suivre. JMF 28/05/2013)

Read Full Post »

Depuis l’origine de l’outil de catalogage de Calames en 2008, se pose la question de la réexploitation des données EAD hors de cet environnement : un dilemme peut se poser entre d’une part la conservation d’un format EAD autorisant à la fois finesse et souplesse dans les descriptions, mais aussi complexe et parfois inutilisable dans tel ou tel contexte, et d’autre part la transformation des inventaires en données plus « oecuméniques » (Dublin Core, Unimarc), au risque d’un appauvrissement plus ou moins préoccupant des héritages et contextualisations d’origine. Ces questions ont fait l’objet en novembre dernier d’un « j.e.cours », disponible  sur la plateforme d’autoformation de l’ABES.

Pour les établissements qui sont dans le 1er cas, le caractère monolithique de l’export « Natif » pouvait représenter une forme de contrainte. L’export d’un fichier EAD contenant des milliers de composants n’est pas la solution la plus commode lorsqu’on souhaite, par exemple, n’exporter que tels composants répondant à tels critères, réutiliser tout ou partie de tel inventaire pour en faire la base d’une nouvelle instance, etc.

L’export Natif de l’outil de catalogage fournissait déjà l’intégralité des données EAD de tel fichier (sans déclaration XML cependant, mais le cas échéant il n’est pas compliqué de l’ajouter). Viennent s’y ajouter depuis quelques jours trois déclinaisons, dont les deux premières impliquent de faire usage du filtre XPath de l’utilitaire d’export. Pour mémoire, XPath est le langage qui permet de localiser, à l’intérieur d’un document XML, un ou plusieurs fragments de ce document. Attention, notez tout de suite une bizarrerie (incorrigible) de cet outil : les double quotes (« ) qui figurent dans les expressions XPath doivent y être remplacées par deux simples quotes ( »), sans quoi la syntaxe n’est pas reconnue.

FiltreXpath

– L’export Natif-C permet d’exporter uniquement tel(s) fragment(s) localisé(s) à l’aide du filtre. Par exemple, avec l’XPath //dsc/c[3], j’obtiendrai un fichier ne comportant plus que les données du 3e composant enfant de <dsc> (dont les sous-composants descendants, s’il y en a). Un Xpath tel quel //c[did/unitid/@type= »cote »] aura pour vertu, ou pour inconvénient c’est selon, de fournir tous les composants répondant à ce critère (le fichier ne sera pas valide et son extension conseillée serait alors plutôt .txt). Un composant de type « cote » qui aurait pour parent un autre composant de type « cote » figurera donc deux fois dans le fichier résultat… ce que rectifierait un Xpath tel que //c[did/unitid/@type= »cote »][not(ancestor::c[did/unitid[@type= »cote »]])].

– L’export Natif-Filtre remplit le même office, mais en conservant les parties hautes du fichier EAD cible. Avec l’export précédent Natif-C, bien que l’utilité n’en soit pas évidente, on pouvait à la rigueur imaginer d’exporter uniquement l’en-tête d’un fichier (avec l’XPath //eadheader) : rien de tel avec Natif-Filtre, qui nous assure de conserver des métadonnées EAD bien formées et valides.  Avec l’XPath //dsc/c[3], Natif-Filtre génère un nouveau document EAD dont sont éliminés tous les composants qui ne sont pas enfants du fragment ciblé. Là encore, attention aux expressions ambiguës : pour éviter les répétitions de données dans le fichier résultat, il conviendra d’employer un chemin Xpath précis.

– Quant à Kill-Id, ce programme de transformation est générique : le filtre Xpath n’est ici d’aucune importance. Kill-Id permet d’exporter l’ensemble des données encodées d’un fichier EAD à l’exception des identifiants des composants (c/@id). Si l’on souhaite par exemple s’inspirer intégralement des données d’un fichier déjà encodé, et plutôt que de partir d’un fichier « modèle » réduit à l’essentiel, un export Kill-Id suivi de la création d’un « nouveau document EAD » aura pour effet de créer un fichier identique et pourvu automatiquement d’identifiants nouveaux et uniques. En revanche, il vaut mieux s’interroger deux fois plutôt qu’une avant d’en faire usage sur un fichier dont le test de détection de doublons est positif, en s’assurant 1° qu’il s’agit bien de doublons internes au fichier (et non pas à l’échelle de la base publique Calames), 2° que les données en question n’ont pas déjà été publiées une première fois (i.e. exposition des ID au web et risque de casser d’anciens permaliens déjà utilisés).

Ces nouveautés, rapides à mettre en œuvre, sont une conséquence des discussions ayant animé le « Parcours Patrimoine » des dernières Journées ABES (15/05/2013). D’autres pourraient fort bien être demandées ou imaginées en fonction des besoins.

JMF 24/05/2013

Read Full Post »

Le 27 juin dernier s’est tenue une journée d’étude sur le Web sémantique, à l’initative du cabinet de consultants Tosca et de l’Aula. On peut trouver sur le blog de Liberlibri un résumé riche et vivant de cette journée vivante et riche.

Dans ma présentation, j’ai essayé de fantasmer d’imaginer ce à quoi ressemblerait un Web of data à l’échelle de l’ABES, puis de l’enseignement supérieur, en connectant les corpus de métadonnées du Sudoc, de Calames, de Star, des ressources scientifiques ou pédagogiques produites par les universités… Mais pourquoi s’arrêter en si bon chemin ? J’ai profité de la présence de grandes institutions comme la BnF et les Archives de France pour suggérer une interconnexion de nos bases de données respectives, grâce aux technologies du Web sémantique et à l’esprit du modèle Linked data. Cela n’a rien d’original ni de fantasmatique : c’est la suite naturelle d’une entreprise comme celle du CCfr, à ceci près que :

  • il ne s’agit plus de juxtaposer des notices (logique de la recherche fédérée), mais d’agréger des métadonnées au niveau plus fin du triplet RDF (c’est-à-dire au niveau des affirmations élémentaires du genre Ceci a-pour-sujet cela ) ;
  • il ne s’agit plus d’ériger une interface en portail exclusif, mais de connecter des bases de données sans préjuger du point d’entrée dans ce réseau de métadonnées liées entre elles ;
  • la mise en relation de catalogues de bibliothèques français n’est qu’une étape vers une mise en relation plus globale, au-delà du périmètre national et au-delà du périmètre bibliothéconomique. A moins que ce ne soit l’inverse : c’est peut-être en faisant l’effort de s’articuler sur de grands corpus globaux que les institutions françaises parviendront, indirectement, par transitivité (pour être pédant), à s’articuler entre elles. Ainsi, on pourrait conclure que le Goethe-du-Sudoc et le Goethe-de-la-BnF sont identiques parce que chacun d’entre eux serait déclaré identique au Goethe-de-DBpedia. Mais ce serait tout de même un paradoxe qu’il faille Wikipedia-DBpedia ou OCLC pour connecter le Sudoc et le catalogue de la BnF…

Quoi qu’il en soit, pour commencer, à chacun de travailler son lopin. De notre côté, cela veut dire poursuivre la mise aux normes RDF de Calames.

Read Full Post »

Le 19 juin, à l’enssib (Villeurbanne), dans le cadre d’une formation générale à EAD pilotée par Fabienne Queyroux (Bibliothèque de l’institut de France), nous avons fait une présentation de Calames sous l’angle « données » : que faire de ces métadonnées EAD ? quelles exploitations variées peut-on imaginer ? EAD n’est qu’un format. C’est un instrument de libération des données, qui doit leur permettre de se métamorphoser en interfaces et services Web multiples, qui pour beaucoup restent encore à inventer. Ce n’est pas une cage XML dont elle ne devrait pas sortir.

La dernière journée de ce stage était consacrée aux utilisations des données EAD. Au programme étaient également prévues une intervention de Florent Palluault (BnF) sur la rétroconversion du CGM et le volet Manuscrits du CCfr ; et une intervention de Florence Clavaud (Ecole nationale des Chartes) sur les divers outils pour produire ou exploiter de l’EAD.  Que du premier choix !

Read Full Post »

Le 8 février dernier, Florence Clavaud, directrice des nouvelles technologies à l’Ecole des Chartes, nous a donné l’occasion de présenter Calames à la promotion du Master « Nouvelles technologies appliquées à l’histoire ». Les conditions offertes étaient exceptionnelles : une séance de trois heures (de quoi aller dans le détail), un public averti et attentif (malgré le stress, encore frais, des examens), le dialogue avec Florence (grande experte d’EAD et de Pléade), une exposition plein Sud… Merci à Florence pour son accueil et ses interventions, merci à la promotion (actuellement en stage, dont certains dans un établissement du réseau Calames) et aux collègues de l’Ecole des chartes qui avaient fait le déplacement !

En trois heures, on peut faire plus que de la promo. On a vraiment le loisir d’expliquer, de contextualiser, mais aussi de faire une démo complète. On a souhaité aller plus loin en disséquant in vivo l’interface de recherche et de consultation, avec Firebug pour scalpel. Firebug est un plugin Firefox qui facilite le développement Web : il permet d’analyser le code HTML, Javascript, CSS… mais surtout, en l’occurrence, de voir passer les requêtes AJAX et les données XML renvoyées par la base de données de Calames.

Hélas, le diaporama (.ppt) ne reflète ni le détail de ma présentation, ni les échanges avec Florence Clavaud, ni le spectacle (insoutenable) de la vivisection au Firebug.

Vous pouvez aussi laisser des commentaires sur cette page de SlideShare, site de partage sur lequel j’ai également déposé le diaporama.

Read Full Post »

Older Posts »