Feeds:
Articles
Commentaires

Retrouvez désormais les publications au sujet de Calames, de son réseau de production, des données EAD (…) dans les blogs Punktokomo ou Fil Abes.

Les articles restent cependant accessibles.

Statistiques Calames 2015

A l’heure où nombreux sont celles et ceux qui pensent galettes ou royaumes, le réseau Calames attend avec une impatience certaine la nouvelle série de camemberts chatoyants qui composera son argus 2015. Ce chapelet sera l’objet du dernier article du « blog Calames » : les futurs billets relatifs à Calames seront publiés via Fil’ABES, ou via le blog technique de l’ABES (Punktokomo).

Rappelons encore que les chiffres et représentations graphiques qui suivent sont à considérer pour ce qu’ils sont : des tendances et des indicateurs, incapables de dire quelle ont été la qualité, la précision et la technicité de l’encodage, ou la proportion du travail rétrospectif sur des données pré-existantes.

Etat de la base publique au 31 décembre 2015 :

Répartition par établissements de 2/3 de million de composants publiés dans Calames 

 

repartition-c-publiés-fin-2015-par-RCR

Répartition par origines (rétroconversions nationales originelles ou production – ou du moins identification – par l’outil) des composants publiés dans Calames 

originedonneescalames2015

Répartition par cercles de déploiement des composants publiés dans Calames (1er cercle déployé dans Calames en 2008, 7e et 8e cercles en 2014)

repartition-c-publiés-fin-2015-par-cercles

Les nouvelles données publiées dans Calames courant 2015

La quantité de données nouvellement publiées a fortement augmenté en 2015 (+30% par rapport à 2014), du fait d’une « réserve » de données 2014 initialement importante, mais aussi, comme on le voit plus bas, de l’activité marquée de plusieurs établissements en catalogage, suivie de publications sous d’assez courts délais. Plus de la moitié de ces nouvelles données (créées en 2015 et 2014 notamment) a été portée au jour par deux établissements : le Muséum et la BDIC.

origine-surcroit-c-publies-courant-2015

Huit ans après son lancement, Calames a plus que quadruplé et approche rapidement des deux tiers de million de niveaux descriptifs publiés :

evolution-c-publies-2007-2015

Statistiques de production dans l’outil de catalogage :

Origines des 126.000 composants créés courant 2015 par le réseau Calames : l’habitude de cataloguer en-dehors de la base de production est désormais bien ancrée, seuls 2000 <c> étant uniquement présents en base de formation après dédoublonnage.

catalogage-dans-calames-2015

Une nouvelle donnée statistique, disponible depuis fin 2014, permet d’affiner le regard porté sur l’activité de création de données EAD via l’outil Calames et la fréquence du recours à cet outil (au-delà des nouveaux <c> créés). Le graphique ci-dessous doit être ainsi lu : en 2015, la BDIC a effectué 768 interventions quotidiennes sur fichiers EAD unitaires (ou 768 « jours-fichiers » : l’existence pour un RCR d’un grand nombre de fichiers EAD est ici le principal biais, favorisant de « bons » chiffres). Ainsi des établissements comme la BLJ Doucet compensent-ils une moindre productivité apparente par une forte assiduité à l’outil de catalogage EAD (interventions sur des niveaux descriptifs souvent déjà présents).

ultralogs-catalogage-calames-2015

Bilan de huit fins d’années de publications et de catalogage dans Calames :

production-c-2008-2015

Le décalage entre ces deux représentations des « composants Calames », i.e. créés via l’outil Calames (<c> publiés / <c> créés), reste stable depuis 2012-2013 : il est de l’ordre d’environ 100.000 composants présents mais n’ayant jamais connu de première publication. Les <c> créés en base de formation ont été « purgés » au maximum des rebuts, données de tests, et doublons de fait (ID différents mais données identiques à des niveaux descriptifs publiés en base de production) : leur poids n’est désormais plus guère significatif (au maximum 15.000 <c> en attente d’une exposition publique).

Origines des 678.000 composants <c> créés et/ou identifiés via l’outil de catalogage de Calames entre 2008 et 2015 :

repartition-c-crees-2008-2015-par-rcr

Dix établissements déployés ne sont pas représentés dans ce graphique (aucun <c> créé avant le 31/12/2015) : SCD Bourgogne, Sciences Po Paris, SCD Rennes 2, SCD Franche-Comté, Collège de France, LESC, OURS, CRBC Brest, SCD Lille 3, Maison Asie-Pacifique.

 

Statistiques de consultation :

En lien avec la hausse des données, mais aussi avec trois épisodes de popularité liés aux recherches ponctuelles de certains mots-clés sur les moteurs de recherche, le nombre de visites sur le catalogue public est a augmenté en 2015 par rapport aux années précédentes, se situant à une une moyenne de 13.000 visites/mois (par plus de de 11.000 visiteurs/mois).

Depuis qu’un moissonnage spécifique a été mis en place début 2013, les accès à Calames en provenance du Catalogue Collectif de France (CCFr) restent stables, à environ 5% des consultations (humaines).

JMF 11/01/2016

Une septième année de catalogage d’archives, manuscrits et autres documents patrimoniaux vient de s’achever pour Calames, avec sa ribambelle de chiffres qui s’alignent et de tendances qui se dessinent. Chiffres et tendances à pondérer, relativiser, et à prendre avec des pincettes du fait de l’absence de chiffres viables sur l’enrichissement des données déjà existantes, voire du fait de la pertinence qu’il peut y avoir, pour gagner en qualité, à supprimer des niveaux descriptifs et à réduire la profondeur de certains inventaires ou fragments EAD.  Ces chiffres ne disent rien non plus d’une diversité d’usages de l’outil de catalogage de Calames (catalogage au long cours, importation de données à retravailler plus ou moins…) qui va en s’accroissant.

Etat de la base publique au 31 décembre 2014 :

Répartition par établissements d’un demi-million de composants publiés dans Calames 

repartition-c-publies-fin-2014-par-RCR

 

Répartition par origines (rétroconversions nationales originelles ou production – ou du moins identification – par l’outil) des composants publiés dans Calames 

originesdonneescalames2014

Répartition par cercles de déploiement des composants publiés dans Calames (1er cercle déployé dans Calames en 2008, 7e et 8e cercles en 2014)

repartition-c-publies-fin-2014-par-cercles

Les nouvelles données publiées dans Calames courant 2014

La quantité de données nouvellement publiées a marqué le pas en 2014 (trois fois moins qu’au cours de chacune des deux années précédentes). Ce qui dénote l’importance des projets à moyen terme ou au long cours, appelant une publication finale parfois massive. La barre du demi-million de composants publiés a cependant été franchie en octobre 2014.

origine-surcroit-c-publies-courant-2014

evolution-c-publies-2007-2014

Statistiques de production dans l’outil de catalogage :

Origines des 109.000 composants créés courant 2014 par le réseau Calames (dont 35000 <c> uniquement présents en base de formation, après dédoublonnage et analyse)

catalogage-dans-calames-2014

Liages et créations/modifications IdRef par le réseau Calames

L’enrichissement des données par le liage de points d’accès au référentiel IdRef s’est poursuivi en 2014, mais à un rythme moins soutenu que les deux années précédentes. En 2012-2013, la BDIC était le principal contributeur Calames dans IdRef, à des niveaux comparables à ceux des plus gros contributeurs Star/Step. En 2014, sur 1930 actes de créations/modifications de notices IdRef par le réseau Calames, près des deux tiers ont été le fait de l’INHA (1102) ; viennent ensuite la MMSH (207), le Museum (172), la BDIC (137).

Bilan de sept années de publications et de catalogage dans Calames :

production-c-2008-2014N.B. : le décalage entre ces deux représentations des « composants Calames », i.e. créés via l’outil Calames (<c> publiés / <c> créés), s’explique du fait que de nombreux composants peuvent exister dans la base de production [ou celle de formation le cas échéant] au 31 déc. tout en attendant d’être publiés au moins une première fois. Par ailleurs, les <c> créés dans la base de formation, pris en compte uniquement après une analyse précise de leur nature et à l’exclusion des rebuts et données de tests, peuvent néanmoins fort bien ne jamais avoir vocation à alimenter les données publiques. Le poids des données créées et potentiellement pertinentes présentes en base de formation est presque équivalent à celui des données non publiées et présentes dans la base officielle (env. 73000 <c> en base de formation, pour env. 87000 <c> en base de production).

Origines des 552.000 composants <c> créés et/ou identifiés via l’outil de catalogage de Calames entre 2008 et 2014 :

repartition-c-crees-2008-2014-par-rcr

Dix établissements déployés ne sont pas représentés dans ce graphique (aucun <c> créé avant le 31/12/2014) : SICD Toulouse, SCD Bourgogne, Ecole des Mines ParisTech, Sciences Po Paris, SCD Rennes 2, Collège de France, LESC, OURS, CRBC Brest, Maison Asie-Pacifique.

 

Statistiques de consultation :

Le nombre de visites sur le catalogue public est assez stable sur les deux années 2013-2014, avec une moyenne de plus 10.000 visites/mois (par un peu moins de 8.000 visiteurs/mois).

Depuis qu’un moissonnage spécifique a été mis en place début 2013, les accès à Calames en provenance du Catalogue Collectif de France (CCFr) représentent environ 5% des consultations (humaines).

JMF 19/01/2015

L’étude collective portant sur le bilan, les enjeux et les perspectives des applications et du réseau Calames (2006-2014) est désormais en ligne via une nouvelle rubrique du site web de l’ABES :
http://www.abes.fr/Calames/Le-reseau-Calames/Journee-du-reseau-Calames-et-etude-collective-2014

JMF 17/07/2014

Mardi 27 mai 2014, en salle Hugot de l’Institut de France, s’est tenu un événement inédit à l’échelle du réseau des établissements participant au Catalogue des archives et manuscrits de l’Enseignement supérieur : ce sont un peu plus de 80 membres du réseau, invités, intervenants, qui ont répondu à l’appel de la journée du réseau Calames [programme].

La journée répondait à plusieurs objectifs :

– présenter un document préparatoire de « bilan prospectif » de Calames et permettre à tous de s’en approprier. Partant du constat d’une actualité chargée en matière d’EAD et de production des métadonnées (hypothèse d’un dispositif national de catalogage en XML envisagée avec la BnF, arrivée prochaine d’un schéma XML qui pose bien des questions, développements « Calames Plus » en question, orientations de l’ABES liées au futur SGB mutualisé) l’élaboration de ce document a été décidée par le Groupe de travail Calames en février et son ébauche a été adressée au réseau dès le 25 avril. Les suites de la journée du 27 mai permettront de dresser un état définitif de ce document, que l’ABES publiera en ligne.

– proposer un cadre d’échanges directs et prendre du recul sur un existant de plusieurs années. Que plus des deux tiers des correspondants Calames puissent être réunis dans un même lieu ne s’était jamais produit : les journées ABES elles-mêmes n’ont jamais permis un tel rassemblement, à même de recueillir la parole d’un réseau (très) majoritairement francilien.

– nourrir la réflexion sur l’avenir de Calames, en donnant des éclairages sur d’autres contextes de production en XML/EAD en France. Intervenants et invités ont presque tous pu répondre positivement à l’invitation de l’ABES et du GT Calames : qu’ils en soient ici de nouveau vivement remerciés, car leur participation a été garante d’importantes et nécessaires mises en perspective.

Yann Sordet, directeur de la Bibliothèque Mazarine, qui s’est particulièrement impliquée dans l’organisation de cette journée, l’a inaugurée en rappelant la nécessité d’aborder conjointement signalement et diffusion. Principal établissement utilisateur de Calames Plus images à ce jour, la Bibliothèque Mazarine envisage de recourir à d’autres solutions de bibliothèques numériques, et regrette que Calames Images n’ait pris ni son essor, ni la direction d’une véritable réponse aux enjeux actuels des numérisations patrimoniales. Jérôme Kalfon, directeur de l’ABES, a ensuite introduit la présentation de l’étude collective sur les outils et le réseau Calames que votre serviteur a proposée et a rendue disponible sur Slideshare :

 

L’accent a été mis sur différents éléments de bilan :

–          le développement en interne entre 2006 et 2008 d’une application dont les deux volets (production et publication) sont accessibles en ligne, choix qui reste à ce jour largement original. L’interface publique reste une vitrine de qualité, tandis que l’outil de production pose différents problèmes d’installation, de lenteurs, de bugs dont souffrent de manière inégale les catalogueurs du réseau

–          la réussite de l’initiative Calames tient largement à la synergie qui a pu être établie, dès l’origine, entre un groupe d’établissements moteurs et d’experts en leurs seins d’une part, et d’autre part les équipes de l’ABES, dont les forces sont limitées : env. 3 ETP consacrés à tous les aspects de l’application (qui ont donc un besoin crucial de l’implication du réseau)

–          près d’un demi-million de composants <c> publiés à ce jour, contre un peu moins de 150.000 publiés à l’origine (déc. 2007), avec un fort accroissement des données disponibles en 2012-2013. L’hétérogénéité du réseau Calames peut être résumée par ce seul fait : les 2/3 des données de Calames produites en cinq ans (plus de 440.000 <c>) l’ont été par cinq établissements très actifs (Muséum, Institut de France, Académie de Médecine, BDIC, Bibliothèque Littéraire Jacques Doucet). Le soutien financier aux rétroconversions (mission transférée du MESR à l’ABES depuis 2010), dont 21 établissements ont déjà pu bénéficier entre 2009 et 2014, est directement à l’origine de 1/4 à 1/3 de l’activité de catalogage

–          des statistiques de consultation qui ont marqué le pas au printemps 2010 : alors que Google sur-référençait Calames en 2009, l’effet d’aubaine des premiers temps a cédé le pas à un sous-référencement certain. Depuis cette époque, et malgré des discordances partielles entre l’analyse des logs ABES et les rapports de l’outil Google Analytics, on estime à 8000 à 12000 la quantité de visites mensuelles sur l’interface Calames

–          depuis juin 2012 et la mise en service de Calames Plus (service complémentaire né de l’abandon du projet de portail national des manuscrits), les fonctionnalités de commentaires n’ont quasiment pas été utilisées. Quant au volet images, trois bibliothèques ont à ce jour confié un total de 46 Go de fichiers jpeg (notamment déposés par la Bibliothèque Mazarine) et plusieurs établissements ont manifesté leur intérêt, pour des projets de dépôt d’une ampleur très variable.

Patrick Latour, directeur adjoint et correspondant Calames de la Bibliothèque Mazarine, a illustré la problématique de l’intégration de Calames au sein d’une chaîne de production numérique patrimoniale, en présentant quatre des projets de valorisation et de recherche en cours à la Bibliothèque Mazarine. Tandis que Calames s’est vu renforcé dans sa position de pivot (production des métadonnées descriptives de référence, signalement permettant d’orienter vers les différentes documents et initiatives en lien avec les documents), certains besoins actuels et émergents mettent en lumière les insuffisances d’un produit Calames pourtant conçu dans un souci de modularité et d’évolutivité : l’encodage TEI du registre de la Société des Amis des Noirs (également projeté pour l’ édition électronique de manuscrits philosophiques clandestins ) n’est pas fongible dans Calames Plus en l’état ; et le signalement du fonds photographique Demangeon et des estampages d’inscriptions latines ne serait vraiment complet qu’avec une possibilité de géolocalisation.

Matthieu Bonicel (BnF) et Régis Robineau (Pool Biblissima) ont clos la matinée en présentant la mise en interopérabilité (sémantique, syntaxique et technologique) de plus d’une cinquantaine de base de données, catalogues et bibliothèques numériques dans le cadre de l’équipement d’excellence Biblissima.

[Voir cette présentation sur Prezi]

Cette mise en dialogue de données hétérogènes et/ou à venir, qui doit aboutir en 2017 par la mise à disposition d’un outil de recherche fédérée, passe par la construction d’une ontologie (compatible avec CIDOC-CRM) modélisant l’histoire de la transmission des textes et des collections. En s’appuyant notamment sur le modèle de données Shared Canvas (conçu pour traiter les fac-similés numériques autour de la notion d’annotations : images, transcriptions, notices… exprimées et structurées au sein de fichiers de référence ou « manifestes ») et sur le protocole d’échange IIIF (International Image Interoperability Framework, syntaxe commune à l’usage des visionneuses de documents numériques), les réalisations en cours dans le cadre de l’Equipex (visualiseur Mirador) permettent aussi de penser l’interopérabilité de bibliothèques numériques en profondeur, portant sur les images elles-mêmes et non plus seulement sur des métadonnées descriptives. En vue de tracer un horizon à d’éventuelles évolutions de Calames Images, et pour progresser sur la voie d’une ouverture sans appauvrissement des données EAD (la solution la plus aboutie actuellement étant celle du moissonnage des données de Calames à l’aide des web services natifs de Calames), les recherches et développements menées par les équipes Biblissima fournissent des exemples très nourrissants. Parmi les développements en cours autour de la boîte à outils Biblissima, l’attention s’est plus particulièrement portée sur les outils d’encodage en XML : en disposant des sources du logiciel XXE (société Pixware), produit reconnu pour sa stabilité, et en poursuivant pour TEI et EAD les développements réalisés depuis plusieurs années à la MRSH Caen, les partenaires consortiaux de l’Equipex se doteront prochainement de nouveaux environnements de production de données. XXE présente également l’avantage de s’installer de trois façons distinctes (client lourd, client web, version intermédiaire). Les partenaires qui relèvent de l’INSHS bénéficiant du serveur de licences oXygen d’HumaNum, Les développements réalisés pour XXE devraient être menés de manière à bénéficier également aux utilisateurs d’oXygen. A cet égard, Stéphane Pouyllau est revenu dans l’après-midi sur le choix qui a été progressivement fait, par le TGE Adonis puis par la TGIR HumaNum, d’encourager les chercheurs en SHS à se fabriquer leur propre outillage XML, plutôt que de bâtir des formulaires de saisie : une quarantaine de laboratoires français mettent ainsi actuellement à profit une soixantaine de jetons de licences et une liste de diffusion a été créée pour favoriser les échanges autour de la pratique d’oXygen.

 

La table ronde de l’après-midi, modérée par Fabienne Queyroux, responsable du service du patrimoine à la Bibliothèque de l’INHA et membre du Groupe de travail Calames, a permis de donner un aperçu synthétique sur la production de données XML (EAD) en réseau et/ou dans des contextes voisins de Calames.

* Jérôme Sirdey, conservateur à la BM Lyon et ancien responsable du CCFr-Manuscrits, a présenté le point de vue des établissements relevant du ministère de la Culture. Depuis 2008, le CGM en ligne (hors données Calames) s’est accru de 55 nouvelles instances (soit environ 30000 <c> issus notamment des BM Lyon, Dijon, de la BHVP, du Sénat…) et de plus de 8000 liens vers des documents numérisés (BVMM notamment), pour atteindre plus de 536.000 composants publiés (relatifs aux fonds de 471 institutions de conservation, répartis dans env. 800 fichiers EAD). L’équipe CCFr propose à des institutions très diverses un ensemble de services de soutien technique (formations, contributions directes à l’encodage, à l’enrichissement et aux conversions de données…), mais le travail de mise à jour des inventaires n’a jusqu’alors pas bénéficié d’un outil de catalogage adossé à la base de données CGM, comme c’est le cas de Calames. Dans les exemples les plus avancés, à l’instar de la BM Lyon, plusieurs professionnels formés à l’EAD ont pu, à l’aide d’XMetal puis oXygen, encoder des suppléments au CGM ; les données sont publiées et interrogeables à la fois dans le CCFr et via une interface Pleade et un module de recherche spécifique sur site de la BML. L’intervention s’est conclue par un plaidoyer en faveur d’un outil de catalogage adossé au CGM, et plus largement, en faveur d’un dispositif de production national en EAD.

* La multiplication des initiatives en laboratoires et l’importance d’une mise en interopérabilité et d’un accès unifié à une masse de données très hétérogènes en SHS (via Isidore) ont constitué le fil directeur de Stéphane Pouyllau, directeur adjoint de la TGIR HumaNum. Signaler est insuffisant, l’âge des plateformes et des « aventures bibliographiques » en laboratoires est pratiquement révolu, et les professionnels de la documentation sont amenés à se tourner vers la gestion des données de la recherche. La logique de corpus n’en reste pas moins pertinente pour rationaliser l’accès et donner forme à des services numériques attachés aux données (cf. les 9 consortiums HumaNum, dont certains comme MASA et Archives des ethnologues commencent par ailleurs à être largement représentés dans le réseau Calames). L’EAD occupe une place centrale dans cette sortie de la logique du silo isolé et de la base de données relationnelles classique, bien que cela ait parfois entraîné des détournements d’usage de cette DTD (la possibilité d’une diffusion quasi immédiate et d’une éditorialisation relativement simple via Pleade ayant contribué à ce succès). Reste que le travail de modélisation des connaissances par l’encodage en TEI ou en EAD reste marginal dans les travaux de recherche, et qu’une véritable mise en commun de compétences scientifiques reste à élaborer autour de la conception et de la réutilisation des métadonnées.

* Vincent Boulet, responsable de BnF Archives et Manuscrits, a présenté le contexte et les conclusions d’une étude menée, courant 2013, sur l’avenir de l’EAD au sein de la BnF. C’est pour un usage semi-expérimental et « réservé » au département des Manuscrits principalement que les outils de catalogage (PIXML) et plus encore de publication (BAM, recourant jusqu’en 2014 au logiciel Pleade) ont été mis en place, or l’EAD s’est depuis très largement étendu dans les pratiques de signalement de la BnF (types de documents non manuscrits), au point que l’établissement compte aujourd’hui plus de 750.000 composants publiés. [On constatera au passage que les masses de données en jeu dans chacun des pôles du triptyque CGM – BAM – Calames sont comparables.] La priorité a été donnée à la mise en place d’une nouvelle solution de publication, puis dans un second temps, à une réflexion à mener sur l’outil d’encodage. PIXML, rappelons-le, présente un certain nombre de points communs avec l’outil Calames (plugin XMAX version 5, volet d’accès aux fichiers EAD, attribution automatique d’identifiants), mais aussi des différences (adossement plus indirect à une base de données Oracle et disjonction entre production et publication, fonctionnalités spécifiques développées pour la gestion du circuit des numérisations Gallica, pas de notion d’arborescence comme dans Calames mais organisation de l’accès aux inventaires par le « cadre de classement » Pleade) qui seront analysées plus en détails dans le cadre de la réflexion, naissante, sur un dispositif national d’édition en XML (EAD et TEI à tout le moins). L’EAD peut-il, doit-il servir à décrire tout document ou ensemble qui n’entrent pas dans une démarche éditoriale (lâchesse d’usage qui a entraîné les réappropriations soulignées par Stéphane Pouyllau) ? Et/ou qui appellent une description à niveaux ou contextuelle ? Comment articuler véritablement les deux points de vue sur un même manuscrit que sont sa description générique (en EAD), la description de sa reliure (en TEI, dans une base BnF plus spécifique), la description de son contexte de production (en EAC, schéma dont l’emploi n’est pas encore entré dans les pratiques des bibliothèques françaises, malgré les inadéquations des formats Marc à cet égard) ? Autant de questions qui entrent en résonance avec les besoins du CCFr et avec le bilan prospectif de Calames.

* Charlotte Maday, présidente de la section Aurore de l’AAF et correspondante Calames de l’université Paris Diderot, est revenue sur les enjeux qui intéressent plus spécifiquement les archivistes des établissements d’Enseignement Supérieur et de Recherche. La nouvelle loi relative aux patrimoines culturels introduit dans la législation la responsabilité de l’archiviste en matière, non seulement de documents, mais aussi de données produites et/ou reçues dans le cadre de l’activité de personnes ou organismes publics. Ce périmètre en extension va directement toucher les activités des (jeunes) services d’archives des établissements d’ESR (37 universités s’en sont dotées à ce jour, ainsi que 17 académies sur 26, depuis moins de cinq ans pour la plupart). Faut-il signaler d’abord, pour faire la promotion d’archives librement communicables, avant même d’avoir complètement classé et traité les fonds (cela rend pour partie compte de la modeste contribution à Calames des services d’archives jusqu’alors déployés) ? Dans quelle mesure Calames peut-il concourir au cycle de vie de toutes les données archivistiques (scientifiques, pédagogiques, administratives) ? Les questions posées ensuite par l’assemblée sur la possibilité de développer Calames comme outil de gestion interne (suivi de la vie des documents et problème de la gestion de l’attribut @audience= »internal », liens vers des modules de communication à l’instar de ce qui existe pour la BDIC…) montrent que la problématique intéresse aussi pour partie les bibliothèques et services muséaux. Tandis que certains services (une minorité) bénéficie de systèmes informatiques comprenant des outils de générations d’instruments de recherche en EAD, le besoin d’un point d’entrée unique et d’un état des fonds de l’ESR reste effectif pour le réseau Aurore, et Calames une réponse potentielle à la multiplicité des lieux de dépôts d’archives – du moins, s’il est possible d’y comprendre les données des archives définitives (services d’archives nationales ou départementales).

 

Trois dossiers centraux pour l’avenir de Calames (outil d’encodage en XML, interopérabilité et ouverture des données, gestion des numérisations) ont été mis en évidence et discutés en fin de journée.

Partant du constat d’une convergence de besoins à la BnF, dans les établissements CGM, et dans le réseau Calames qui a souligné certains des handicaps de son outil d’encodage, en parallèle des développements qu’engagent les équipes Biblissima, l’hypothèse d’un dispositif national d’édition en XML ouvert et « agnostique » (ne se cantonnant pas à l’EAD des bonnes pratiques françaises, qui n’a pas vocation à « tout faire » dès lors qu’il s’agit d’accompagner des projets de recherche) sera examinée à l’automne 2014. L’enjeu sous-jacent est de disposer d’outils ouverts en entrée comme en sortie, et capables de contrôler une variété de pratiques professionnelles et scientifiques (on pense notamment à l’indexation, jusqu’alors peu répartie et/ou bien souvent cloisonnée).

C’est certainement la question des numérisations, formes devenues incontournable des descriptions de documents patrimoniaux, ainsi que l’avenir de Calames Plus Images qui ont suscité le plus de réactions dans l’assemblée. L’éventail reste large entre les établissements qui disposent d’une bibliothèque numérique stable et ceux se déclarant intéressés par une solution collective adossée au catalogue Calames. Faut-il, et jusqu’où, redéfinir la notion de « solution d’appoint », tout en s’inscrivant mieux dans l’écosystème national de la numérisation (Gallica, BSN 5…), et en évitant l’écueil chimérique d’un portail documentaire complet ? L’ABES ne pourra – au mieux – s’engager sur une voie intermédiaire satisfaisante qu’avec le soutien actif d’établissements dont elle tire sa légitimité.

Les partenariats à nouer autour de ces dossiers clés devraient trouver, à partir de l’automne, un cadre de mise en cohérence privilégié dans le dispositif CollEx, futur pendant de BSN pour les collections physiques et patrimoniales.

[JMF 06/06/2014]

La fin de la trêve des confiseurs marque traditionnellement le retour, non seulement des confiseries, mais aussi des camemberts et des pâtes de fruits en bâtonnets. Voici donc, en plus des chiffres que les établissements du réseau Calames peuvent trouver via l’application Webstats, un bilan du signalement d’archives et de manuscrits de l’Enseignement supérieur et de la Recherche dans le courant de l’année 2013.

Etat de la base publique au 31 décembre 2013 :

Repartition-C-publies-fin2013

OriginesdonneesCalames2013

Les nouvelles données publiées dans Calames courant 2013Origines-Sucroit-C-publies-en-2013Evolution-C-publies-2007-2013

Statistiques de production dans l’outil de catalogage :

Origines des 103000 composants créés courant 2013 par le réseau Calames (dont 22000 <c> uniquement présents en base de formation, après dédoublonnage et analyse)

Catalogage-dans-Calames-2013

Bilan de six années de publications et de catalogage dans Calames :

Production-C-2008-2013N.B. : le décalage entre ces deux représentations des « composants Calames », i.e. créés via l’outil Calames (<c> publiés / <c> créés), s’explique du fait que de nombreux composants peuvent exister dans la base de production [ou celle de formation le cas échéant] au 31 déc. tout en attendant d’être publiés au moins une première fois.

Origines des 443000 composants <c> portant la marque d’une création via l’outil de catalogage de Calames (2008-2013)

repartition-c-crees-2008-2013

N.B. : Ces chiffres ne disent rien des activités de modifications des composants existants, ni des temps d’utilisation effective ou de la diversité des usages de l’outil de catalogage de Calames. Cinq établissements déployés ne sont pas représentés dans ce graphique (aucun <c> créé avant le 31/12/2013) : SICD Toulouse, SCD Bourgogne, Ecole des Mines ParisTech, Sciences Po Paris, SCD Rennes 2.

Image D’un certain point de vue, le développement qui vient d’être mis en production par les équipes de l’ABES pourrait passer pour une régression : est-ce bien la peine de décrire des fonds et collections dans un format XML riche et adapté à des contextes documentaires précis, si c’est pour proposer au final un document numérique équivalent à un instrument de recherche papier ? Maints usagers ont pourtant eu l’occasion de nous rappeler l’intérêt de fournir une vue d’ensemble respectant le périmètre d’un instrument de recherche, réalité que Calames, par sa tendance à individualiser chaque composant en « notice » citable et à organiser les instances EAD en arborescences, a jusqu’alors tenue pour secondaire.

Il ne s’agit évidemment pas de « dispenser » de décrire en EAD le détail d’un fonds : cette pratique est déconseillée quel que soit le lieu de stockage du PDF d’ailleurs, ces usages « transitoires » de fichiers textuels appelant trop souvent des prolongations indéterminées. L’ABES ne se propose donc d’exporter en PDF que des instances (ou des fragments d’instances, ou même des liaisons et regroupements d’instances ssi les tailles de fichiers ne deviennent pas ingérables) dont la publication est effective et stabilisée, et dont la transformation sera jugée pertinente par les correspondants Calames. Aussi la date de production du fichier PDF figure-t-elle en tête du document : charge auxdits correspondants de signaler un éventuel besoin de mise à jour, à des intervalles de temps qui ne se compteront qu’en mois ou années. Le choix fut délibéré de s’éviter le (coûteux) développement d’une fonction générique pouvant transformer à la volée tout fragment affiché et/ou ses sous-composants en PDF (à l’instar de ce que proposent des plateformes Pleade comme BnF Archives et Manuscrits).

Un exemple pour illustrer : le fonds Apollinaire de la BLJD.

Techniquement, le processus emprunte le cheminement suivant :
– l’établissement signale via le guichet d’assistance de l’ABES quelles données EAD transformer en PDF
– les équipes de l’ABES se chargent des exports, puis du stockage des fichiers résultats sur le serveur dédié à « Calames Plus »
– sur un mode proche de Calames Images, chaque document déposé est rendu citable sous la forme d’une URL du type http://www.calames.abes.fr/plus/doc/ [RCR Calames responsable]/[identifiant].[extension]
– les fichiers PDF d’inventaires Calames doivent porter pour intitulés l’identifiant de leur composant racine : si ce même composant comporte la chaîne de caractères « fichier PDF » au sein de l’élément <otherfindaid><p> (Autres instruments de recherche), s’affichera dans la boîte à outils de Calames une rubrique et un lien « Fichier PDF de l’inventaire ».

Image

On aurait pu se contenter de réutiliser l’URL pour générer un simple lien hypertexte en haut niveau d’instance. En l’occurrence, il est plus intéressant de mettre en avant cette information à tous les niveaux concernés par cet export, et c’est une vertu de ce service : dès lors qu’un composant affiché ou son ancêtre le plus proche répond au critère attendu dans <otherfindaid>, la fonction « Inventaire PDF » s’activera.

L’opération revient de fait à une extension des services Calames Plus : c’est d’après le voeu du comité de suivi Calames 2013 que l’effort a été prioritairement porté sur les mises en forme PDF de données publiées dans la base. Du fait que l’ABES conserve à ce stade l’entière maîtrise de la chaîne de production et de publication de ces documents annexes, il n’a pas été jugé nécessaire d’entraîner les établissements intéressés dans un conventionnement du type « Calames images ». L’existence d’une fonction ad hoc dans la boîte à outils de l’interface publique dispense quasiment les catalogueurs d’intervenir : la présence d’un champ EAD standardisé suffit à l’activer. Mais le processus de dépôt et de génération de permaliens mis en place permet d’envisager de prolonger l’expérience en direction d’autres types de documents que les seules « instances PDFisées », dès lors qu’on souhaiterait mettre à disposition tels fichiers étroitement liés à des instruments de recherche (pièces annexes à des inventaires difficilement restituables dans le code EAD par exemple).
Suites escomptées au cours du premier semestre 2014.

[JMF – 07/11/13]

Après le Muséum national d’histoire naturelle en début d’année, c’est au tour du Musée Curie et de la Bibliothèque de l’Académie nationale de médecine de disposer d’une interface Calames customisée (les 6e et 7e du genre). Tandis que dans le cas du Muséum, des adaptations de codes inédites avaient eu lieu, ces derniers développements ont été réalisés cet été selon les principes les plus simples : des requêtes restreintes aux données d’un seul RCR Calames, et quelques adaptations graphiques [JMF – 10/09/2013]

[M.à.j. nov. 2013] Courant novembre 2013, une 8e interface personnalisée a vu le jour, celle de la Bibliothèque Mazarine, liée comme celle de la Bibliothèque Littéraire Jacques Doucet à une page de présentation des documents numérisés disponibles via Calames Plus.

https://i0.wp.com/www.calames.abes.fr/pub/images_curie/Logo_Mus%C3%A9e_Curie.jpg https://i0.wp.com/www.calames.abes.fr/pub/images_anm/Logo_ANM.jpg https://i0.wp.com/www.calames.abes.fr/pub/images_mazarine/Logo_Mazarine.jpg

Tout comme celle des points d’accès (mais à la différence des langues, dates, provenances et intitulés qui suivent des règles spécifiques), l’indexation des « Documents numérisés associés » mise en production fin mai 2013 dans Calames obéit à des règles d’héritage strictes (exemple : documents numérisés relatifs à « André Breton »). Tout composant, tout niveau descriptif où figurent les éléments <dao> (Objet archivistique numérique) ou <daogrp> (Groupe d’objets archivistiques numériques) porte l(es) entité(s) qu’il décrit au rang des documents reproduits sous forme numérique. Si ce niveau comporte des enfants, petits-enfants…, alors cette descendance est censée bénéficier du même statut de « document numérisé ».

Le corollaire de cet héritage orthodoxe est une clause de complétude : dès lors qu’un composant marqué par un <dao> ou un <daogrp> présente une descendance, le document « parent » est en principe réputé intégralement numérisé. Cette clause peut être assouplie dans le cas des composants « feuilles » (i.e. sans descendance) : si l’on peut tolérer de voir la description d’un manuscrit enluminé complétée par un <daogrp> recensant les liens vers ces seules enluminures, l’équilibre est rompu dès lors qu’on entre dans le détail des composantes intellectuelles et/ou matérielles de ce manuscrit.

Aussi, lorsqu’il s’est agi en mai dernier de signaler la Bibliothèque Virtuelle des Manuscrits Médiévaux (BVMM) dans Calames, deux cas ont-ils été distingués : les manuscrits intégralement reproduits par l’Institut de Recherche sur l’Histoire des Textes ont été signalés à l’aide d’éléments <daogrp> (exemple strasbourgeois), tandis que les reproductions partielles (de décors) ont été signalées à l’aide d’une combinaison des éléments <extref> et <extptr> (exemple génovéfain), permettant de générer des vignettes cliquables sortant du cadre strictement défini pour les signalement des <dao> & <daogrp>.

Les nombreuses nuances possibles dans l’usage de <dao> ou <daogrp> (signaler une numérisation sous forme de rebond par défaut ) , de liste de liens ou sous forme de vignette cliquable ; avec ou sans modification des rebonds hypertextuels ; avec ou sans informations complémentaires en <daodesc>…) n’ont d’importance que dans l’affichage des notices : au point de vue de l’indexation, l’ensemble de ces variantes est considéré uniformément et sans distinction. Ce traitement égalitaire se double d’un champ d’exclusion des usages déviants : un <dao> dont l’attribut HREF ne serait pas renseigné (ce qui serait absurde et contreviendrait au principe même de cette balise) ne sera pas pris en compte par le processus d’indexation. Non plus qu’un élément <daogrp> qui ne contiendrait pas au moins un élément <daoloc role= »rebond » href= »[URL] »>. En-dehors des oublis de renseignement de rôles de <daoloc>, cette disposition permet d’ignorer les cas où l’on fait uniquement mention de « vignettes », c’est-à-dire d’adresses d’images (cas soumis par la Bibliothèque Littéraire Jacques Doucet, où il est fait emploi d’un encodage ignoré par Calames mais exploitable en interne, dans une base Pleade, sous forme de carrousels d’images non libres de droits).

Inversement, on peut imaginer une « ruse d’encodage » qui permette d’indexer les documents numérisés associés à un composant sans en modifier l’affichage détaillé :

<daogrp><daoloc linktype= »locator » role= »vignette » /><daoloc linktype= »locator » href= »INDEXATION DAO SANS AFFICHAGE » title= »INDEXATION DAO SANS AFFICHAGE » role= »rebond » /></daogrp>

Prenons l’exemple d’un ensemble numérisé dont toutes les unités (sous-composants enfants) disposent d’une adresse propre vers leurs substituts, mais pour lequel aucun lien de regroupement n’existe : aucun rebond pertinent ne peut donc être imaginé au niveau parent. L’insertion d’un élément <daogrp> tel que formulé ci-dessus aura alors pour vertu d’indexer plus qu’une fratrie, mais l’ensemble des niveaux pertinents dans l’inventaire : les résultats de recherche, après infanticide si nécessaire, en seront plus satisfaisants.

Nul besoin d’une telle « ruse » pour indexer les notices sous lesquelles un dépôt d’images dans Calames Plus a été effectué. Une table spécifique recense en effet les <c> sous lesquels une association d’images à la volée et vers les serveurs de l’ABES a été effectuée. L’alimentation de cette table n’est à ce jour pas automatisée – choix qui ne pourrait être remis en cause que face à un rythme de dépôt soutenu et régulier.

Le développement d’une facette dans les listes de résultats a semblé prématuré au vu de la part encore très faible des documents numérisés dans l’ensemble des inventaires publiés.

Pour résumer, le filtre « Documents numérisés associés » recense trois catégories de composants :

– <c> qui comportent ou héritent un élément <dao> dont l’attribut HREF est renseigné

– <c> qui comportent ou héritent un élément <daogrp> comportant au moins un élément <daoloc role= »rebond »> avec un attribut HREF renseigné

– <c> sous lesquels un dépôt d’images a été effectué via les services « Calames Plus »

JMF 09/07/2013

Quatre nouveaux index, une nouvelle facette et des modifications dans l’affichage détaillé des notices : ainsi pourrait-on résumer la phase de «Calames v.3» entrée en service ce matin.

Si ces nouveautés devaient être classées par ordre d’importance, sans doute commencerait-on par les types de documents (point d’accès <genreform type= »type de document« >, plus commodément abrégé en « TDD »). Le sentiment partagé par l’ABES, son CS et ses réseaux que Calames peut être un excellent outil pour signaler des fonds mixtes et composites (papiers de chercheurs, archives administratives, sonores, photographiques, etc.) a justifié des égards particuliers :

  • un dispositif inédit en recherche avancée, incluant l’ex-unique filtre de Calames, «Documents illustrés» [qui indexe tout <c> comportant un élément <physfacet type=illustration>… mais sans héritage en l’occurrence]. Exception dans les modes de recherche de Calames, c’est l’opérateur booléen «OU» qui régit les relations entre index publics TDD. Par opposition à la construction classique du type : «documents numérisés» ET «tel établissement», on obtient les «documents iconographiques» OU les «documents illustrés» de tout le catalogue ou répondant conjointement à un tiers critère. Le filtre lié à la valeur « ressource électronique », prêt à l’emploi, restera masqué dans l’attente d’être significativement alimenté ; ExempleRechercheTddOU
  • une nouvelle facette pour affiner les listes de résultats ;
  • un mode d’affichage détaillé distinct des autres éléments d’indexation, recourant non pas à des points d’accès en fin de notices, mais à des icônes, pour certaines reprises du Sudoc, légendées par des info-bulles, et dont l’affichage est héritable (deuxième dispositif du genre, après la mise en place des rappels de mentions de Conditions d’accès et d’utilisation). Lorsque plusieurs TDD figurent dans un même composant <c>, une icône ad hoc (verte et améliorable) permet d’éviter tout conflit à l’affichage (exemple) ;ExempleIconeTddObjet
  • lorsqu’aucun TDD n’est précisé, ni directement ni par héritage, le niveau descriptif est dans le cas de la valeur par défaut « Archives et manuscrits », valable à l’échelle de tout Calames du fait de la nature même des métadonnées EAD.

Les deux autres types de <genreform> («technique» et «genre, forme et fonction»  – abrégé en « GFF ») sont assez souvent, mais pas systématiquement des compléments ou des déclinaisons des TDD.
Contrairement aux TDD pour lesquels seules les valeurs d’attribut NORMAL comptent vraiment, tous deux font l’objet d’une indexation portant à la fois sur leurs valeurs normalisées et sur les contenus de balises, qui ont vocation à se compléter. On a ainsi tout intérêt à choisir l’encodage suivant :   Boîte contenant 24 <genreform type= »technique » normal= »photographie »>daguerréotypes </genreform>  de manière à pouvoir rechercher aussi bien le terme spécifique «daguerréotype» que  le terme générique «photographie» dans l’index des techniques. Ces valeurs qui sont interrogeables à l’aide d’un champ de recherche du type «mots clés». Un feuilletage des valeurs normalisées par liste devrait être prochainement mis en place ; bien que cela n’ait pas été jugé prioritaire, on ne peut pas exclure qu’elles bénéficient un jour de leur propre facette.ExempleTechniqueEtGff

Du point de vue des producteurs de métadonnées, la plus grande rigueur est de mise dans l’emploi de l’élément <genreform>.

  • Non seulement les attributs TYPE et NORMAL doivent être tous les deux renseignés, non seulement ces valeurs sont strictement restreintes aux listes fermées définies en groupe de travail Calames, mais ces deux valeurs doivent être en correspondance logique. A NORMAL= »image fixe » doit obligatoirement répondre TYPE= »type de document », et lorsqu’on renseigne TYPE= »technique », on n’est pas censé compléter par NORMAL= »dessin d’actualité » (qui est une valeur de GFF). Deux garde-fous pour cela : les listes fermées et à rubriques de l’outil de catalogage, et l’export visio_controle avant publication.
  • Le typage des documents présente assez souvent un caractère structurant dans les plans de classement, et l’usage est en alors facilité par l’héritage des points d’accès : il peut ainsi suffire de marquer d’un seul TDD «image fixe» l’ensemble intitulé «Portraits», ou d’un seul GFF «correspondance» l’ensemble intitulé «Lettres reçues». Mais il faut garder à l’esprit qu’un point d’accès <genreform> est censé irriguer l’intégralité des documents faisant l’objet d’un composant. Dans l’exemple suivant :   <scopecontent><p>Cet ensemble comprend notamment de nombreux fragments de texte imprimé (coupures de presse).</p></scopecontent> , résistons à la tentation d’indexer «texte imprimé» (TDD) et «coupures de presse» (GFF) sauf (éventuellement) en l’absence de sous-composants, puisqu’une telle description suppose que d’autres types et natures de documents peuplent l’ensemble en question.
  • Un composant <c> peut comporter plusieurs TDD (ensembles ou composants dits « mixtes »), mais ne doit en principe hériter que d’un seul et unique TDD. Cette remarque vaut également pour les deux autres types de <genreform>, bien que le cas d’un <c> parent indexé à la fois pour ses photographies et ses dessins ne soit pas tout à fait inimaginable. En toute logique, un composant « mixte », contenant par exemple à la fois un TDD « objet » et un TDD «image fixe», répond à l’un comme à l’autre des champs de recherche correspondants. Un mot au sujet du TDD «texte manuscrit» : cette valeur, qui est une déclinaison et un sous-ensemble de la valeur par défaut «archives et manuscrits», n’a d’utilité que dans le seul cas des composants dits «mixtes». Sa vocation est uniquement de signaler que tel <c> comporte à la fois des photographies et des imprimés mais aussi des documents manuscrits ; a contrario, dans un <c> mixte, si «texte manuscrit» n’est pas renseigné, c’est qu’on n’est censé y trouver aucun document de type manuscrit. [Un (ensemble de) <c> ayant pour unique TDD « texte manuscrit » sera en somme totalement ignoré de Calames : cela ne nuira pas, peut-être cela sera-t-il jugé plus clair dans certains contextes de catalogage, mais cela n’aura aucun effet dans l’interface publique].

Quant à l’index des documents numérisés (éléments <dao> et <daogrp>), un billet spécifique lui sera prochainement consacré sur ce blog.

(A suivre. JMF 28/05/2013)