Feeds:
Articles
Commentaires

Archive for the ‘interfaces’ Category

Mardi 27 mai 2014, en salle Hugot de l’Institut de France, s’est tenu un événement inédit à l’échelle du réseau des établissements participant au Catalogue des archives et manuscrits de l’Enseignement supérieur : ce sont un peu plus de 80 membres du réseau, invités, intervenants, qui ont répondu à l’appel de la journée du réseau Calames [programme].

La journée répondait à plusieurs objectifs :

– présenter un document préparatoire de « bilan prospectif » de Calames et permettre à tous de s’en approprier. Partant du constat d’une actualité chargée en matière d’EAD et de production des métadonnées (hypothèse d’un dispositif national de catalogage en XML envisagée avec la BnF, arrivée prochaine d’un schéma XML qui pose bien des questions, développements « Calames Plus » en question, orientations de l’ABES liées au futur SGB mutualisé) l’élaboration de ce document a été décidée par le Groupe de travail Calames en février et son ébauche a été adressée au réseau dès le 25 avril. Les suites de la journée du 27 mai permettront de dresser un état définitif de ce document, que l’ABES publiera en ligne.

– proposer un cadre d’échanges directs et prendre du recul sur un existant de plusieurs années. Que plus des deux tiers des correspondants Calames puissent être réunis dans un même lieu ne s’était jamais produit : les journées ABES elles-mêmes n’ont jamais permis un tel rassemblement, à même de recueillir la parole d’un réseau (très) majoritairement francilien.

– nourrir la réflexion sur l’avenir de Calames, en donnant des éclairages sur d’autres contextes de production en XML/EAD en France. Intervenants et invités ont presque tous pu répondre positivement à l’invitation de l’ABES et du GT Calames : qu’ils en soient ici de nouveau vivement remerciés, car leur participation a été garante d’importantes et nécessaires mises en perspective.

Yann Sordet, directeur de la Bibliothèque Mazarine, qui s’est particulièrement impliquée dans l’organisation de cette journée, l’a inaugurée en rappelant la nécessité d’aborder conjointement signalement et diffusion. Principal établissement utilisateur de Calames Plus images à ce jour, la Bibliothèque Mazarine envisage de recourir à d’autres solutions de bibliothèques numériques, et regrette que Calames Images n’ait pris ni son essor, ni la direction d’une véritable réponse aux enjeux actuels des numérisations patrimoniales. Jérôme Kalfon, directeur de l’ABES, a ensuite introduit la présentation de l’étude collective sur les outils et le réseau Calames que votre serviteur a proposée et a rendue disponible sur Slideshare :

 

L’accent a été mis sur différents éléments de bilan :

–          le développement en interne entre 2006 et 2008 d’une application dont les deux volets (production et publication) sont accessibles en ligne, choix qui reste à ce jour largement original. L’interface publique reste une vitrine de qualité, tandis que l’outil de production pose différents problèmes d’installation, de lenteurs, de bugs dont souffrent de manière inégale les catalogueurs du réseau

–          la réussite de l’initiative Calames tient largement à la synergie qui a pu être établie, dès l’origine, entre un groupe d’établissements moteurs et d’experts en leurs seins d’une part, et d’autre part les équipes de l’ABES, dont les forces sont limitées : env. 3 ETP consacrés à tous les aspects de l’application (qui ont donc un besoin crucial de l’implication du réseau)

–          près d’un demi-million de composants <c> publiés à ce jour, contre un peu moins de 150.000 publiés à l’origine (déc. 2007), avec un fort accroissement des données disponibles en 2012-2013. L’hétérogénéité du réseau Calames peut être résumée par ce seul fait : les 2/3 des données de Calames produites en cinq ans (plus de 440.000 <c>) l’ont été par cinq établissements très actifs (Muséum, Institut de France, Académie de Médecine, BDIC, Bibliothèque Littéraire Jacques Doucet). Le soutien financier aux rétroconversions (mission transférée du MESR à l’ABES depuis 2010), dont 21 établissements ont déjà pu bénéficier entre 2009 et 2014, est directement à l’origine de 1/4 à 1/3 de l’activité de catalogage

–          des statistiques de consultation qui ont marqué le pas au printemps 2010 : alors que Google sur-référençait Calames en 2009, l’effet d’aubaine des premiers temps a cédé le pas à un sous-référencement certain. Depuis cette époque, et malgré des discordances partielles entre l’analyse des logs ABES et les rapports de l’outil Google Analytics, on estime à 8000 à 12000 la quantité de visites mensuelles sur l’interface Calames

–          depuis juin 2012 et la mise en service de Calames Plus (service complémentaire né de l’abandon du projet de portail national des manuscrits), les fonctionnalités de commentaires n’ont quasiment pas été utilisées. Quant au volet images, trois bibliothèques ont à ce jour confié un total de 46 Go de fichiers jpeg (notamment déposés par la Bibliothèque Mazarine) et plusieurs établissements ont manifesté leur intérêt, pour des projets de dépôt d’une ampleur très variable.

Patrick Latour, directeur adjoint et correspondant Calames de la Bibliothèque Mazarine, a illustré la problématique de l’intégration de Calames au sein d’une chaîne de production numérique patrimoniale, en présentant quatre des projets de valorisation et de recherche en cours à la Bibliothèque Mazarine. Tandis que Calames s’est vu renforcé dans sa position de pivot (production des métadonnées descriptives de référence, signalement permettant d’orienter vers les différentes documents et initiatives en lien avec les documents), certains besoins actuels et émergents mettent en lumière les insuffisances d’un produit Calames pourtant conçu dans un souci de modularité et d’évolutivité : l’encodage TEI du registre de la Société des Amis des Noirs (également projeté pour l’ édition électronique de manuscrits philosophiques clandestins ) n’est pas fongible dans Calames Plus en l’état ; et le signalement du fonds photographique Demangeon et des estampages d’inscriptions latines ne serait vraiment complet qu’avec une possibilité de géolocalisation.

Matthieu Bonicel (BnF) et Régis Robineau (Pool Biblissima) ont clos la matinée en présentant la mise en interopérabilité (sémantique, syntaxique et technologique) de plus d’une cinquantaine de base de données, catalogues et bibliothèques numériques dans le cadre de l’équipement d’excellence Biblissima.

[Voir cette présentation sur Prezi]

Cette mise en dialogue de données hétérogènes et/ou à venir, qui doit aboutir en 2017 par la mise à disposition d’un outil de recherche fédérée, passe par la construction d’une ontologie (compatible avec CIDOC-CRM) modélisant l’histoire de la transmission des textes et des collections. En s’appuyant notamment sur le modèle de données Shared Canvas (conçu pour traiter les fac-similés numériques autour de la notion d’annotations : images, transcriptions, notices… exprimées et structurées au sein de fichiers de référence ou « manifestes ») et sur le protocole d’échange IIIF (International Image Interoperability Framework, syntaxe commune à l’usage des visionneuses de documents numériques), les réalisations en cours dans le cadre de l’Equipex (visualiseur Mirador) permettent aussi de penser l’interopérabilité de bibliothèques numériques en profondeur, portant sur les images elles-mêmes et non plus seulement sur des métadonnées descriptives. En vue de tracer un horizon à d’éventuelles évolutions de Calames Images, et pour progresser sur la voie d’une ouverture sans appauvrissement des données EAD (la solution la plus aboutie actuellement étant celle du moissonnage des données de Calames à l’aide des web services natifs de Calames), les recherches et développements menées par les équipes Biblissima fournissent des exemples très nourrissants. Parmi les développements en cours autour de la boîte à outils Biblissima, l’attention s’est plus particulièrement portée sur les outils d’encodage en XML : en disposant des sources du logiciel XXE (société Pixware), produit reconnu pour sa stabilité, et en poursuivant pour TEI et EAD les développements réalisés depuis plusieurs années à la MRSH Caen, les partenaires consortiaux de l’Equipex se doteront prochainement de nouveaux environnements de production de données. XXE présente également l’avantage de s’installer de trois façons distinctes (client lourd, client web, version intermédiaire). Les partenaires qui relèvent de l’INSHS bénéficiant du serveur de licences oXygen d’HumaNum, Les développements réalisés pour XXE devraient être menés de manière à bénéficier également aux utilisateurs d’oXygen. A cet égard, Stéphane Pouyllau est revenu dans l’après-midi sur le choix qui a été progressivement fait, par le TGE Adonis puis par la TGIR HumaNum, d’encourager les chercheurs en SHS à se fabriquer leur propre outillage XML, plutôt que de bâtir des formulaires de saisie : une quarantaine de laboratoires français mettent ainsi actuellement à profit une soixantaine de jetons de licences et une liste de diffusion a été créée pour favoriser les échanges autour de la pratique d’oXygen.

 

La table ronde de l’après-midi, modérée par Fabienne Queyroux, responsable du service du patrimoine à la Bibliothèque de l’INHA et membre du Groupe de travail Calames, a permis de donner un aperçu synthétique sur la production de données XML (EAD) en réseau et/ou dans des contextes voisins de Calames.

* Jérôme Sirdey, conservateur à la BM Lyon et ancien responsable du CCFr-Manuscrits, a présenté le point de vue des établissements relevant du ministère de la Culture. Depuis 2008, le CGM en ligne (hors données Calames) s’est accru de 55 nouvelles instances (soit environ 30000 <c> issus notamment des BM Lyon, Dijon, de la BHVP, du Sénat…) et de plus de 8000 liens vers des documents numérisés (BVMM notamment), pour atteindre plus de 536.000 composants publiés (relatifs aux fonds de 471 institutions de conservation, répartis dans env. 800 fichiers EAD). L’équipe CCFr propose à des institutions très diverses un ensemble de services de soutien technique (formations, contributions directes à l’encodage, à l’enrichissement et aux conversions de données…), mais le travail de mise à jour des inventaires n’a jusqu’alors pas bénéficié d’un outil de catalogage adossé à la base de données CGM, comme c’est le cas de Calames. Dans les exemples les plus avancés, à l’instar de la BM Lyon, plusieurs professionnels formés à l’EAD ont pu, à l’aide d’XMetal puis oXygen, encoder des suppléments au CGM ; les données sont publiées et interrogeables à la fois dans le CCFr et via une interface Pleade et un module de recherche spécifique sur site de la BML. L’intervention s’est conclue par un plaidoyer en faveur d’un outil de catalogage adossé au CGM, et plus largement, en faveur d’un dispositif de production national en EAD.

* La multiplication des initiatives en laboratoires et l’importance d’une mise en interopérabilité et d’un accès unifié à une masse de données très hétérogènes en SHS (via Isidore) ont constitué le fil directeur de Stéphane Pouyllau, directeur adjoint de la TGIR HumaNum. Signaler est insuffisant, l’âge des plateformes et des « aventures bibliographiques » en laboratoires est pratiquement révolu, et les professionnels de la documentation sont amenés à se tourner vers la gestion des données de la recherche. La logique de corpus n’en reste pas moins pertinente pour rationaliser l’accès et donner forme à des services numériques attachés aux données (cf. les 9 consortiums HumaNum, dont certains comme MASA et Archives des ethnologues commencent par ailleurs à être largement représentés dans le réseau Calames). L’EAD occupe une place centrale dans cette sortie de la logique du silo isolé et de la base de données relationnelles classique, bien que cela ait parfois entraîné des détournements d’usage de cette DTD (la possibilité d’une diffusion quasi immédiate et d’une éditorialisation relativement simple via Pleade ayant contribué à ce succès). Reste que le travail de modélisation des connaissances par l’encodage en TEI ou en EAD reste marginal dans les travaux de recherche, et qu’une véritable mise en commun de compétences scientifiques reste à élaborer autour de la conception et de la réutilisation des métadonnées.

* Vincent Boulet, responsable de BnF Archives et Manuscrits, a présenté le contexte et les conclusions d’une étude menée, courant 2013, sur l’avenir de l’EAD au sein de la BnF. C’est pour un usage semi-expérimental et « réservé » au département des Manuscrits principalement que les outils de catalogage (PIXML) et plus encore de publication (BAM, recourant jusqu’en 2014 au logiciel Pleade) ont été mis en place, or l’EAD s’est depuis très largement étendu dans les pratiques de signalement de la BnF (types de documents non manuscrits), au point que l’établissement compte aujourd’hui plus de 750.000 composants publiés. [On constatera au passage que les masses de données en jeu dans chacun des pôles du triptyque CGM – BAM – Calames sont comparables.] La priorité a été donnée à la mise en place d’une nouvelle solution de publication, puis dans un second temps, à une réflexion à mener sur l’outil d’encodage. PIXML, rappelons-le, présente un certain nombre de points communs avec l’outil Calames (plugin XMAX version 5, volet d’accès aux fichiers EAD, attribution automatique d’identifiants), mais aussi des différences (adossement plus indirect à une base de données Oracle et disjonction entre production et publication, fonctionnalités spécifiques développées pour la gestion du circuit des numérisations Gallica, pas de notion d’arborescence comme dans Calames mais organisation de l’accès aux inventaires par le « cadre de classement » Pleade) qui seront analysées plus en détails dans le cadre de la réflexion, naissante, sur un dispositif national d’édition en XML (EAD et TEI à tout le moins). L’EAD peut-il, doit-il servir à décrire tout document ou ensemble qui n’entrent pas dans une démarche éditoriale (lâchesse d’usage qui a entraîné les réappropriations soulignées par Stéphane Pouyllau) ? Et/ou qui appellent une description à niveaux ou contextuelle ? Comment articuler véritablement les deux points de vue sur un même manuscrit que sont sa description générique (en EAD), la description de sa reliure (en TEI, dans une base BnF plus spécifique), la description de son contexte de production (en EAC, schéma dont l’emploi n’est pas encore entré dans les pratiques des bibliothèques françaises, malgré les inadéquations des formats Marc à cet égard) ? Autant de questions qui entrent en résonance avec les besoins du CCFr et avec le bilan prospectif de Calames.

* Charlotte Maday, présidente de la section Aurore de l’AAF et correspondante Calames de l’université Paris Diderot, est revenue sur les enjeux qui intéressent plus spécifiquement les archivistes des établissements d’Enseignement Supérieur et de Recherche. La nouvelle loi relative aux patrimoines culturels introduit dans la législation la responsabilité de l’archiviste en matière, non seulement de documents, mais aussi de données produites et/ou reçues dans le cadre de l’activité de personnes ou organismes publics. Ce périmètre en extension va directement toucher les activités des (jeunes) services d’archives des établissements d’ESR (37 universités s’en sont dotées à ce jour, ainsi que 17 académies sur 26, depuis moins de cinq ans pour la plupart). Faut-il signaler d’abord, pour faire la promotion d’archives librement communicables, avant même d’avoir complètement classé et traité les fonds (cela rend pour partie compte de la modeste contribution à Calames des services d’archives jusqu’alors déployés) ? Dans quelle mesure Calames peut-il concourir au cycle de vie de toutes les données archivistiques (scientifiques, pédagogiques, administratives) ? Les questions posées ensuite par l’assemblée sur la possibilité de développer Calames comme outil de gestion interne (suivi de la vie des documents et problème de la gestion de l’attribut @audience= »internal », liens vers des modules de communication à l’instar de ce qui existe pour la BDIC…) montrent que la problématique intéresse aussi pour partie les bibliothèques et services muséaux. Tandis que certains services (une minorité) bénéficie de systèmes informatiques comprenant des outils de générations d’instruments de recherche en EAD, le besoin d’un point d’entrée unique et d’un état des fonds de l’ESR reste effectif pour le réseau Aurore, et Calames une réponse potentielle à la multiplicité des lieux de dépôts d’archives – du moins, s’il est possible d’y comprendre les données des archives définitives (services d’archives nationales ou départementales).

 

Trois dossiers centraux pour l’avenir de Calames (outil d’encodage en XML, interopérabilité et ouverture des données, gestion des numérisations) ont été mis en évidence et discutés en fin de journée.

Partant du constat d’une convergence de besoins à la BnF, dans les établissements CGM, et dans le réseau Calames qui a souligné certains des handicaps de son outil d’encodage, en parallèle des développements qu’engagent les équipes Biblissima, l’hypothèse d’un dispositif national d’édition en XML ouvert et « agnostique » (ne se cantonnant pas à l’EAD des bonnes pratiques françaises, qui n’a pas vocation à « tout faire » dès lors qu’il s’agit d’accompagner des projets de recherche) sera examinée à l’automne 2014. L’enjeu sous-jacent est de disposer d’outils ouverts en entrée comme en sortie, et capables de contrôler une variété de pratiques professionnelles et scientifiques (on pense notamment à l’indexation, jusqu’alors peu répartie et/ou bien souvent cloisonnée).

C’est certainement la question des numérisations, formes devenues incontournable des descriptions de documents patrimoniaux, ainsi que l’avenir de Calames Plus Images qui ont suscité le plus de réactions dans l’assemblée. L’éventail reste large entre les établissements qui disposent d’une bibliothèque numérique stable et ceux se déclarant intéressés par une solution collective adossée au catalogue Calames. Faut-il, et jusqu’où, redéfinir la notion de « solution d’appoint », tout en s’inscrivant mieux dans l’écosystème national de la numérisation (Gallica, BSN 5…), et en évitant l’écueil chimérique d’un portail documentaire complet ? L’ABES ne pourra – au mieux – s’engager sur une voie intermédiaire satisfaisante qu’avec le soutien actif d’établissements dont elle tire sa légitimité.

Les partenariats à nouer autour de ces dossiers clés devraient trouver, à partir de l’automne, un cadre de mise en cohérence privilégié dans le dispositif CollEx, futur pendant de BSN pour les collections physiques et patrimoniales.

[JMF 06/06/2014]

Publicités

Read Full Post »

Image D’un certain point de vue, le développement qui vient d’être mis en production par les équipes de l’ABES pourrait passer pour une régression : est-ce bien la peine de décrire des fonds et collections dans un format XML riche et adapté à des contextes documentaires précis, si c’est pour proposer au final un document numérique équivalent à un instrument de recherche papier ? Maints usagers ont pourtant eu l’occasion de nous rappeler l’intérêt de fournir une vue d’ensemble respectant le périmètre d’un instrument de recherche, réalité que Calames, par sa tendance à individualiser chaque composant en « notice » citable et à organiser les instances EAD en arborescences, a jusqu’alors tenue pour secondaire.

Il ne s’agit évidemment pas de « dispenser » de décrire en EAD le détail d’un fonds : cette pratique est déconseillée quel que soit le lieu de stockage du PDF d’ailleurs, ces usages « transitoires » de fichiers textuels appelant trop souvent des prolongations indéterminées. L’ABES ne se propose donc d’exporter en PDF que des instances (ou des fragments d’instances, ou même des liaisons et regroupements d’instances ssi les tailles de fichiers ne deviennent pas ingérables) dont la publication est effective et stabilisée, et dont la transformation sera jugée pertinente par les correspondants Calames. Aussi la date de production du fichier PDF figure-t-elle en tête du document : charge auxdits correspondants de signaler un éventuel besoin de mise à jour, à des intervalles de temps qui ne se compteront qu’en mois ou années. Le choix fut délibéré de s’éviter le (coûteux) développement d’une fonction générique pouvant transformer à la volée tout fragment affiché et/ou ses sous-composants en PDF (à l’instar de ce que proposent des plateformes Pleade comme BnF Archives et Manuscrits).

Un exemple pour illustrer : le fonds Apollinaire de la BLJD.

Techniquement, le processus emprunte le cheminement suivant :
– l’établissement signale via le guichet d’assistance de l’ABES quelles données EAD transformer en PDF
– les équipes de l’ABES se chargent des exports, puis du stockage des fichiers résultats sur le serveur dédié à « Calames Plus »
– sur un mode proche de Calames Images, chaque document déposé est rendu citable sous la forme d’une URL du type http://www.calames.abes.fr/doc/ [RCR Calames responsable]/[identifiant].[extension]
– les fichiers PDF d’inventaires Calames doivent porter pour intitulés l’identifiant de leur composant racine : si ce même composant comporte la chaîne de caractères « fichier PDF » au sein de l’élément <otherfindaid><p> (Autres instruments de recherche), s’affichera dans la boîte à outils de Calames une rubrique et un lien « Fichier PDF de l’inventaire ».

Image

On aurait pu se contenter de réutiliser l’URL pour générer un simple lien hypertexte en haut niveau d’instance. En l’occurrence, il est plus intéressant de mettre en avant cette information à tous les niveaux concernés par cet export, et c’est une vertu de ce service : dès lors qu’un composant affiché ou son ancêtre le plus proche répond au critère attendu dans <otherfindaid>, la fonction « Inventaire PDF » s’activera.

L’opération revient de fait à une extension des services Calames Plus : c’est d’après le voeu du comité de suivi Calames 2013 que l’effort a été prioritairement porté sur les mises en forme PDF de données publiées dans la base. Du fait que l’ABES conserve à ce stade l’entière maîtrise de la chaîne de production et de publication de ces documents annexes, il n’a pas été jugé nécessaire d’entraîner les établissements intéressés dans un conventionnement du type « Calames images ». L’existence d’une fonction ad hoc dans la boîte à outils de l’interface publique dispense quasiment les catalogueurs d’intervenir : la présence d’un champ EAD standardisé suffit à l’activer. Mais le processus de dépôt et de génération de permaliens mis en place permet d’envisager de prolonger l’expérience en direction d’autres types de documents que les seules « instances PDFisées », dès lors qu’on souhaiterait mettre à disposition tels fichiers étroitement liés à des instruments de recherche (pièces annexes à des inventaires difficilement restituables dans le code EAD par exemple).
Suites escomptées au cours du premier semestre 2014.

[JMF – 07/11/13]

Read Full Post »

Après le Muséum national d’histoire naturelle en début d’année, c’est au tour du Musée Curie et de la Bibliothèque de l’Académie nationale de médecine de disposer d’une interface Calames customisée (les 6e et 7e du genre). Tandis que dans le cas du Muséum, des adaptations de codes inédites avaient eu lieu, ces derniers développements ont été réalisés cet été selon les principes les plus simples : des requêtes restreintes aux données d’un seul RCR Calames, et quelques adaptations graphiques [JMF – 10/09/2013]

[M.à.j. nov. 2013] Courant novembre 2013, une 8e interface personnalisée a vu le jour, celle de la Bibliothèque Mazarine, liée comme celle de la Bibliothèque Littéraire Jacques Doucet à une page de présentation des documents numérisés disponibles via Calames Plus.

https://i1.wp.com/www.calames.abes.fr/pub/images_curie/Logo_Mus%C3%A9e_Curie.jpg https://i0.wp.com/www.calames.abes.fr/pub/images_anm/Logo_ANM.jpg https://i1.wp.com/www.calames.abes.fr/pub/images_mazarine/Logo_Mazarine.jpg

Read Full Post »

Tout comme celle des points d’accès (mais à la différence des langues, dates, provenances et intitulés qui suivent des règles spécifiques), l’indexation des « Documents numérisés associés » mise en production fin mai 2013 dans Calames obéit à des règles d’héritage strictes (exemple : documents numérisés relatifs à « André Breton »). Tout composant, tout niveau descriptif où figurent les éléments <dao> (Objet archivistique numérique) ou <daogrp> (Groupe d’objets archivistiques numériques) porte l(es) entité(s) qu’il décrit au rang des documents reproduits sous forme numérique. Si ce niveau comporte des enfants, petits-enfants…, alors cette descendance est censée bénéficier du même statut de « document numérisé ».

Le corollaire de cet héritage orthodoxe est une clause de complétude : dès lors qu’un composant marqué par un <dao> ou un <daogrp> présente une descendance, le document « parent » est en principe réputé intégralement numérisé. Cette clause peut être assouplie dans le cas des composants « feuilles » (i.e. sans descendance) : si l’on peut tolérer de voir la description d’un manuscrit enluminé complétée par un <daogrp> recensant les liens vers ces seules enluminures, l’équilibre est rompu dès lors qu’on entre dans le détail des composantes intellectuelles et/ou matérielles de ce manuscrit.

Aussi, lorsqu’il s’est agi en mai dernier de signaler la Bibliothèque Virtuelle des Manuscrits Médiévaux (BVMM) dans Calames, deux cas ont-ils été distingués : les manuscrits intégralement reproduits par l’Institut de Recherche sur l’Histoire des Textes ont été signalés à l’aide d’éléments <daogrp> (exemple strasbourgeois), tandis que les reproductions partielles (de décors) ont été signalées à l’aide d’une combinaison des éléments <extref> et <extptr> (exemple génovéfain), permettant de générer des vignettes cliquables sortant du cadre strictement défini pour les signalement des <dao> & <daogrp>.

Les nombreuses nuances possibles dans l’usage de <dao> ou <daogrp> (signaler une numérisation sous forme de rebond par défaut ) , de liste de liens ou sous forme de vignette cliquable ; avec ou sans modification des rebonds hypertextuels ; avec ou sans informations complémentaires en <daodesc>…) n’ont d’importance que dans l’affichage des notices : au point de vue de l’indexation, l’ensemble de ces variantes est considéré uniformément et sans distinction. Ce traitement égalitaire se double d’un champ d’exclusion des usages déviants : un <dao> dont l’attribut HREF ne serait pas renseigné (ce qui serait absurde et contreviendrait au principe même de cette balise) ne sera pas pris en compte par le processus d’indexation. Non plus qu’un élément <daogrp> qui ne contiendrait pas au moins un élément <daoloc role= »rebond » href= »[URL] »>. En-dehors des oublis de renseignement de rôles de <daoloc>, cette disposition permet d’ignorer les cas où l’on fait uniquement mention de « vignettes », c’est-à-dire d’adresses d’images (cas soumis par la Bibliothèque Littéraire Jacques Doucet, où il est fait emploi d’un encodage ignoré par Calames mais exploitable en interne, dans une base Pleade, sous forme de carrousels d’images non libres de droits).

Inversement, on peut imaginer une « ruse d’encodage » qui permette d’indexer les documents numérisés associés à un composant sans en modifier l’affichage détaillé :

<daogrp><daoloc linktype= »locator » role= »vignette » /><daoloc linktype= »locator » href= »INDEXATION DAO SANS AFFICHAGE » title= »INDEXATION DAO SANS AFFICHAGE » role= »rebond » /></daogrp>

Prenons l’exemple d’un ensemble numérisé dont toutes les unités (sous-composants enfants) disposent d’une adresse propre vers leurs substituts, mais pour lequel aucun lien de regroupement n’existe : aucun rebond pertinent ne peut donc être imaginé au niveau parent. L’insertion d’un élément <daogrp> tel que formulé ci-dessus aura alors pour vertu d’indexer plus qu’une fratrie, mais l’ensemble des niveaux pertinents dans l’inventaire : les résultats de recherche, après infanticide si nécessaire, en seront plus satisfaisants.

Nul besoin d’une telle « ruse » pour indexer les notices sous lesquelles un dépôt d’images dans Calames Plus a été effectué. Une table spécifique recense en effet les <c> sous lesquels une association d’images à la volée et vers les serveurs de l’ABES a été effectuée. L’alimentation de cette table n’est à ce jour pas automatisée – choix qui ne pourrait être remis en cause que face à un rythme de dépôt soutenu et régulier.

Le développement d’une facette dans les listes de résultats a semblé prématuré au vu de la part encore très faible des documents numérisés dans l’ensemble des inventaires publiés.

Pour résumer, le filtre « Documents numérisés associés » recense trois catégories de composants :

– <c> qui comportent ou héritent un élément <dao> dont l’attribut HREF est renseigné

– <c> qui comportent ou héritent un élément <daogrp> comportant au moins un élément <daoloc role= »rebond »> avec un attribut HREF renseigné

– <c> sous lesquels un dépôt d’images a été effectué via les services « Calames Plus »

JMF 09/07/2013

Read Full Post »

Quatre nouveaux index, une nouvelle facette et des modifications dans l’affichage détaillé des notices : ainsi pourrait-on résumer la phase de «Calames v.3» entrée en service ce matin.

Si ces nouveautés devaient être classées par ordre d’importance, sans doute commencerait-on par les types de documents (point d’accès <genreform type= »type de document« >, plus commodément abrégé en « TDD »). Le sentiment partagé par l’ABES, son CS et ses réseaux que Calames peut être un excellent outil pour signaler des fonds mixtes et composites (papiers de chercheurs, archives administratives, sonores, photographiques, etc.) a justifié des égards particuliers :

  • un dispositif inédit en recherche avancée, incluant l’ex-unique filtre de Calames, «Documents illustrés» [qui indexe tout <c> comportant un élément <physfacet type=illustration>… mais sans héritage en l’occurrence]. Exception dans les modes de recherche de Calames, c’est l’opérateur booléen «OU» qui régit les relations entre index publics TDD. Par opposition à la construction classique du type : «documents numérisés» ET «tel établissement», on obtient les «documents iconographiques» OU les «documents illustrés» de tout le catalogue ou répondant conjointement à un tiers critère. Le filtre lié à la valeur « ressource électronique », prêt à l’emploi, restera masqué dans l’attente d’être significativement alimenté ; ExempleRechercheTddOU
  • une nouvelle facette pour affiner les listes de résultats ;
  • un mode d’affichage détaillé distinct des autres éléments d’indexation, recourant non pas à des points d’accès en fin de notices, mais à des icônes, pour certaines reprises du Sudoc, légendées par des info-bulles, et dont l’affichage est héritable (deuxième dispositif du genre, après la mise en place des rappels de mentions de Conditions d’accès et d’utilisation). Lorsque plusieurs TDD figurent dans un même composant <c>, une icône ad hoc (verte et améliorable) permet d’éviter tout conflit à l’affichage (exemple) ;ExempleIconeTddObjet
  • lorsqu’aucun TDD n’est précisé, ni directement ni par héritage, le niveau descriptif est dans le cas de la valeur par défaut « Archives et manuscrits », valable à l’échelle de tout Calames du fait de la nature même des métadonnées EAD.

Les deux autres types de <genreform> («technique» et «genre, forme et fonction»  – abrégé en « GFF ») sont assez souvent, mais pas systématiquement des compléments ou des déclinaisons des TDD.
Contrairement aux TDD pour lesquels seules les valeurs d’attribut NORMAL comptent vraiment, tous deux font l’objet d’une indexation portant à la fois sur leurs valeurs normalisées et sur les contenus de balises, qui ont vocation à se compléter. On a ainsi tout intérêt à choisir l’encodage suivant :   Boîte contenant 24 <genreform type= »technique » normal= »photographie »>daguerréotypes </genreform>  de manière à pouvoir rechercher aussi bien le terme spécifique «daguerréotype» que  le terme générique «photographie» dans l’index des techniques. Ces valeurs qui sont interrogeables à l’aide d’un champ de recherche du type «mots clés». Un feuilletage des valeurs normalisées par liste devrait être prochainement mis en place ; bien que cela n’ait pas été jugé prioritaire, on ne peut pas exclure qu’elles bénéficient un jour de leur propre facette.ExempleTechniqueEtGff

Du point de vue des producteurs de métadonnées, la plus grande rigueur est de mise dans l’emploi de l’élément <genreform>.

  • Non seulement les attributs TYPE et NORMAL doivent être tous les deux renseignés, non seulement ces valeurs sont strictement restreintes aux listes fermées définies en groupe de travail Calames, mais ces deux valeurs doivent être en correspondance logique. A NORMAL= »image fixe » doit obligatoirement répondre TYPE= »type de document », et lorsqu’on renseigne TYPE= »technique », on n’est pas censé compléter par NORMAL= »dessin d’actualité » (qui est une valeur de GFF). Deux garde-fous pour cela : les listes fermées et à rubriques de l’outil de catalogage, et l’export visio_controle avant publication.
  • Le typage des documents présente assez souvent un caractère structurant dans les plans de classement, et l’usage est en alors facilité par l’héritage des points d’accès : il peut ainsi suffire de marquer d’un seul TDD «image fixe» l’ensemble intitulé «Portraits», ou d’un seul GFF «correspondance» l’ensemble intitulé «Lettres reçues». Mais il faut garder à l’esprit qu’un point d’accès <genreform> est censé irriguer l’intégralité des documents faisant l’objet d’un composant. Dans l’exemple suivant :   <scopecontent><p>Cet ensemble comprend notamment de nombreux fragments de texte imprimé (coupures de presse).</p></scopecontent> , résistons à la tentation d’indexer «texte imprimé» (TDD) et «coupures de presse» (GFF) sauf (éventuellement) en l’absence de sous-composants, puisqu’une telle description suppose que d’autres types et natures de documents peuplent l’ensemble en question.
  • Un composant <c> peut comporter plusieurs TDD (ensembles ou composants dits « mixtes »), mais ne doit en principe hériter que d’un seul et unique TDD. Cette remarque vaut également pour les deux autres types de <genreform>, bien que le cas d’un <c> parent indexé à la fois pour ses photographies et ses dessins ne soit pas tout à fait inimaginable. En toute logique, un composant « mixte », contenant par exemple à la fois un TDD « objet » et un TDD «image fixe», répond à l’un comme à l’autre des champs de recherche correspondants. Un mot au sujet du TDD «texte manuscrit» : cette valeur, qui est une déclinaison et un sous-ensemble de la valeur par défaut «archives et manuscrits», n’a d’utilité que dans le seul cas des composants dits «mixtes». Sa vocation est uniquement de signaler que tel <c> comporte à la fois des photographies et des imprimés mais aussi des documents manuscrits ; a contrario, dans un <c> mixte, si «texte manuscrit» n’est pas renseigné, c’est qu’on n’est censé y trouver aucun document de type manuscrit. [Un (ensemble de) <c> ayant pour unique TDD « texte manuscrit » sera en somme totalement ignoré de Calames : cela ne nuira pas, peut-être cela sera-t-il jugé plus clair dans certains contextes de catalogage, mais cela n’aura aucun effet dans l’interface publique].

Quant à l’index des documents numérisés (éléments <dao> et <daogrp>), un billet spécifique lui sera prochainement consacré sur ce blog.

(A suivre. JMF 28/05/2013)

Read Full Post »

Depuis l’origine de l’outil de catalogage de Calames en 2008, se pose la question de la réexploitation des données EAD hors de cet environnement : un dilemme peut se poser entre d’une part la conservation d’un format EAD autorisant à la fois finesse et souplesse dans les descriptions, mais aussi complexe et parfois inutilisable dans tel ou tel contexte, et d’autre part la transformation des inventaires en données plus « oecuméniques » (Dublin Core, Unimarc), au risque d’un appauvrissement plus ou moins préoccupant des héritages et contextualisations d’origine. Ces questions ont fait l’objet en novembre dernier d’un « j.e.cours », disponible  sur la plateforme d’autoformation de l’ABES.

Pour les établissements qui sont dans le 1er cas, le caractère monolithique de l’export « Natif » pouvait représenter une forme de contrainte. L’export d’un fichier EAD contenant des milliers de composants n’est pas la solution la plus commode lorsqu’on souhaite, par exemple, n’exporter que tels composants répondant à tels critères, réutiliser tout ou partie de tel inventaire pour en faire la base d’une nouvelle instance, etc.

L’export Natif de l’outil de catalogage fournissait déjà l’intégralité des données EAD de tel fichier (sans déclaration XML cependant, mais le cas échéant il n’est pas compliqué de l’ajouter). Viennent s’y ajouter depuis quelques jours trois déclinaisons, dont les deux premières impliquent de faire usage du filtre XPath de l’utilitaire d’export. Pour mémoire, XPath est le langage qui permet de localiser, à l’intérieur d’un document XML, un ou plusieurs fragments de ce document. Attention, notez tout de suite une bizarrerie (incorrigible) de cet outil : les double quotes (« ) qui figurent dans les expressions XPath doivent y être remplacées par deux simples quotes ( »), sans quoi la syntaxe n’est pas reconnue.

FiltreXpath

– L’export Natif-C permet d’exporter uniquement tel(s) fragment(s) localisé(s) à l’aide du filtre. Par exemple, avec l’XPath //dsc/c[3], j’obtiendrai un fichier ne comportant plus que les données du 3e composant enfant de <dsc> (dont les sous-composants descendants, s’il y en a). Un Xpath tel quel //c[did/unitid/@type= »cote »] aura pour vertu, ou pour inconvénient c’est selon, de fournir tous les composants répondant à ce critère (le fichier ne sera pas valide et son extension conseillée serait alors plutôt .txt). Un composant de type « cote » qui aurait pour parent un autre composant de type « cote » figurera donc deux fois dans le fichier résultat… ce que rectifierait un Xpath tel que //c[did/unitid/@type= »cote »][not(ancestor::c[did/unitid[@type= »cote »]])].

– L’export Natif-Filtre remplit le même office, mais en conservant les parties hautes du fichier EAD cible. Avec l’export précédent Natif-C, bien que l’utilité n’en soit pas évidente, on pouvait à la rigueur imaginer d’exporter uniquement l’en-tête d’un fichier (avec l’XPath //eadheader) : rien de tel avec Natif-Filtre, qui nous assure de conserver des métadonnées EAD bien formées et valides.  Avec l’XPath //dsc/c[3], Natif-Filtre génère un nouveau document EAD dont sont éliminés tous les composants qui ne sont pas enfants du fragment ciblé. Là encore, attention aux expressions ambiguës : pour éviter les répétitions de données dans le fichier résultat, il conviendra d’employer un chemin Xpath précis.

– Quant à Kill-Id, ce programme de transformation est générique : le filtre Xpath n’est ici d’aucune importance. Kill-Id permet d’exporter l’ensemble des données encodées d’un fichier EAD à l’exception des identifiants des composants (c/@id). Si l’on souhaite par exemple s’inspirer intégralement des données d’un fichier déjà encodé, et plutôt que de partir d’un fichier « modèle » réduit à l’essentiel, un export Kill-Id suivi de la création d’un « nouveau document EAD » aura pour effet de créer un fichier identique et pourvu automatiquement d’identifiants nouveaux et uniques. En revanche, il vaut mieux s’interroger deux fois plutôt qu’une avant d’en faire usage sur un fichier dont le test de détection de doublons est positif, en s’assurant 1° qu’il s’agit bien de doublons internes au fichier (et non pas à l’échelle de la base publique Calames), 2° que les données en question n’ont pas déjà été publiées une première fois (i.e. exposition des ID au web et risque de casser d’anciens permaliens déjà utilisés).

Ces nouveautés, rapides à mettre en œuvre, sont une conséquence des discussions ayant animé le « Parcours Patrimoine » des dernières Journées ABES (15/05/2013). D’autres pourraient fort bien être demandées ou imaginées en fonction des besoins.

JMF 24/05/2013

Read Full Post »

(Suite du billet du 12/06/2012, consacré aux fonctionnalités du service Calames Images).

Des deux versants de Calames Plus, les commentaires occupent en quelque sorte l’ubac. A divers titres : ce n’est pas à ces fonctionnalités que la majeure partie du temps de développement a été consacrée, loin s’en faut ; et ce n’est pas cet aspect du projet qui a soulevé le plus d’enthousiasme parmi les experts du réseau.

L’objectif fondateur de ce service est de (commencer à) donner une dimension collaborative l’ouverture des données – l’un des grands axes de la politique de l’ABES. Le volet « commentaires » de Calames Plus répond plus spécifiquement à une volonté de susciter la participation des différents publics du patrimoine en bibliothèques en matière de description et d’accès aux fonds et collections d’archives et de manuscrits. Il est tout particulièrement vrai dans ce domaine que « les catalogues se doivent de rester au diapason des travaux d’identification et d’étude des documents patrimoniaux » (voir le compte rendu de l’atelier Patrimoine tenu à l’ABES le 16 mai 2011).

Peu de catalogues en ligne ont jusqu’alors tenté une expérience comparable – si l’on peut citer quelques cas approchants, comme les comptes Worldcat (d’abord destinés aux professionnels des bibliothèques), ou plus récemment le site des instruments de recherche des B.U. de Princeton, il est certain que l’on manque de recul à ce sujet. Ce genre d’audaces adventices n’est souvent pas jugé prioritaire. Aussi le volet Commentaires est-il plus particulièrement visé par le caractère « probatoire » des premiers mois de mise en production qui courront jusqu’au printemps 2013. Cette évaluation est l’affaire de tout le réseau et sera sanctionnée lors du comité de suivi annuel de l’application Calames.

Princeton University Library Finding Aids (exemple)

L’exemple du nouveau site de publication des inventaires de Princeton, mis en production cet été. En plus d’un feedback mettant en relation avec les responsables du site, les fonctionnalités d’annotations font usage de l’outil IntenseDebate, système de gestion des commentaires à l’usage des blogs et sites web.

Les objections et obstacles à la mise en place de Calames Plus Commentaires ont été (et dans certains cas demeurent) de plusieurs ordres :

* du point de vue juridique. Parmi les craintes que la mise en place du volet a pu susciter au sein du réseau, l’une d’entre elles a trait aux risques d’usurpation d’identité, et plus secondairement, à différents types d’usages impertinents. Aussi le service se devait-il de se doter d’un double cadre (droits et devoirs) :
– l’acte réglementaire de la Commission Nationale de l’Informatique et des Libertés (CNIL) en date du 8 novembre 2010 définit les modalités de fonctionnement du service relativement aux données à caractère personnel sur lesquelles s’applique le droit d’accès et de rectification : données d’identification (nom, prénom) et vie professionnelle (domaine de recherche, équipe et établissement d’appartenance)
– toute création d’un compte Calames par un internaute suppose d’accepter une charte d’utilisation du service, validée par le comité de suivi Calames 2011. Le texte de ces conditions d’utilisation est accessible depuis chaque boîtier de commentaires. Assumant l’initiative du projet, l’ABES s’est engagée à effectuer le suivi global des annotations effectuées sous les notices de Calames durant l’année d’évaluation, à avertir le cas échéant les établissements concernés, et/ou à supprimer des commentaires en contradiction avec les objectifs du service.

* du point de vue technique. Calames Plus, en regroupant deux services (images et commentaires) envisageables indépendamment l’un de l’autre, est pour ainsi dire né sous les auspices de Janus. Le pari de l’autonomie est un des principes fondateurs de Calames. La volonté de l’ABES de donner à différents types de publics les moyens de contribuer à l’édifice commun s’est traduite dans l’architecture technique du projet. L’existence du pivot que représentent les comptes à accès authentifiés justifie (seule) une conception sous forme de unique. Ce dénominateur mis à part, le volet « commentaires » dispose de ses propres fonctionnalités, tout aussi simples que celles de Calames Images : aux modifications et suppressions de commentaires par leurs auteurs, s’ajoute la possibilité de suivre par fils RSS les commentaires effectués à quelque niveau descriptif que ce soit (notice, groupe de notices, établissement, base Calames dans son entier). Les établissements membres du réseau peuvent par ailleurs librement créer un compte institutionnel pour répondre à des commentaires, compte qui peut être augmenté si l’établissement souhaite déposer des images.
Le cahier des charges techniques initial n’a pu être entièrement rempli à ce jour : il a ainsi  fallu renoncer (temporairement ?) à une possibilité d’authentification simplifiée via Renater, la fédération d’identité des universités françaises. Le recours à Shibboleth permet(trait) aux communautés de recherche et d’enseignement supérieur, qui constituent sans ambiguïté le principal public-cible d’un tel service, d’éviter de la création d’un énième compte à gérer.

* du point de vue des usages. Quelle plus-value peut-on attendre de commentaires déposés sans circuit de validation ? Les risques de mésusages ou de sous-emploi sont réels (p.ex., des messages « perdus » voués à être réorientés vers le bouton « contacter la bibliothèque » ou vers le guichet d’assistance de l’ABES). A contrario, soulignons aussi qu’il est peu probable que cela entraîne un surcroît de travail pour les établissements, et que dans un univers d’infobésité l’internaute utilisant l’interface publique de Calames a le droit d’être davantage assimilé à un associé potentiel qu’au « tout-venant ». Devant la gêne que peuvent ressentir certains utilisateurs à voir juxtaposés deux niveaux d’informations bien différents, l’un (les métadonnées structurées d’instruments de recherche publics) n’ayant pas nécessairement vocation à la même pérennité et au même traitement que l’autre (des annotations composées librement), il faut rappeler que le distingo est clairement établi :
– dans l’ergonomie de l’interface Calames : les commentaires sont par défaut masqués, les consulter doit donc faire l’objet d’un clic (si ce n’est d’une démarche) supplémentaire ;
– dans l’exploitation des données : les annotations, contrairement aux notices elles-mêmes, ne sont ni indexées dans la base, ni moissonnées par les moteurs de recherche généralistes.

Les entreprises de signalement demeurent généralement dans la pénombre des sciences (humaines) en train de se faire. L’insertion de Calames au sein des outils et pratiques de l’ESR ne peut simplement passer par une solution d’appoint ad hoc : pour en faire le maillon qu’il peut et/ou doit être sur les terrains de la valorisation, de la numérisation, de l’exploitation des sources, des humanités digitales…, il est légitime d’explorer (et il nous faudra probablement trouver) d’autres voies collaboratives, au-delà de cette première perche tendue vers la toile.

JMF 24/09/2012

Read Full Post »

Older Posts »