Nous avons commencé à exploiter une nouvelle fonctionnalité du moteur de recherche Yahoo : SearchMonkey.
Cette fonctionnalité permet d’enrichir les résultats de Yahoo relatifs à Calames.
Au lieu de voir cela dans la liste des résultats :
l’internaute pourra voir cela :
Avantage :
On maîtrise l’affichage de nos données dans Yahoo.
La copie d’écran ci-dessus n’est qu’un exemple : on pourra aller plus loin, ajouter du contenu, des liens, voire des images (par exemple, des vignettes des manuscrits numérisés sur Liber Floridus ou ailleurs).
Méthode :
Cet affichage enrichi n’est pas l’affichage par défaut dans Yahoo. Chaque utilisateur doit faire la démarche d’activer cette fonctionnalité à partir de cette page, ce qui suppose de posséder un compte chez Yahoo (et, hmm, d’utiliser Yahoo plutôt que… Google, par exemple).
Ensuite, dès qu’une de vos recherches dans Yahoo renverra dans sa liste une réponse Calames, celle-ci pourra être visualisée sous sa forme enrichie. En fait, pour l’instant, pour voir la forme enrichie, il faut cliquer sur la flèche :
On a deux présentations pour le prix d’une : en haut, par défaut, l’ancien affichage ; en bas, à portée de clic, le nouveau. Pourquoi cette redondance ? Pourquoi faut-il encore cliquer ? Pourquoi Yahoo n’affiche-t-il pas directement la nouvelle vue enrichie ? Comme l’explication est technique, je vous renvoie aux sections suivantes.
Comment ça marche ?
Nous aimerions pouvoir répondre : parce que Calames expose ses métadonnées en RDFa et que Yahoo SearchMonkey exploite les métadonnées RDFa. Hélas, seule la première partie de cette phrase est vraie… pour l’instant.
Depuis quelques semaines, nous avons enrichi les pages HTML de Calames de quelques attributs qui permettent de dire que telle information correspond au titre (dc:title) du manuscrit ou telle autre à son auteur (dc:creator). C’est le principe de RDFa. Voici l’encodage de la date par exemple :
<span about="http://www.calames.abes.fr/pub/ms/res/MAZA10001" content="1101/1125" property="dc:date" class="unitdate">Premier quart du XIIe siècle</span
Le navigateur affiche la date sous une forme lisible par un humain (« Premier quart du XIIe siècle »), mais certains programmes comme Yahoo SearchMonkey sont capables d’extraire de cette page HTML des informations structurées en RDF. Ce qui les intéresse alors, ce sont plutôt les attributs about, content et property, qui affirment formellement que tel manuscrit (nommé http://www.calames.abes.fr/pub/ms/res/MAZA10001) a pour date (au sens du Dublin Core) telle période (formatée en « 1101/1125 »). En d’autres termes :
http://www.calames.abes.fr/pub/ms/res/MAZA10001 dc:date « 1101/1125«
Nous aurons l’occasion, dans de prochains billets, de revenir en détail sur RDF et Calames. Pour l’instant, il suffit de comprendre qu’avec RDFa, notre page Calames reste aussi présentable qu’une page HTML classique mais devient aussi exploitable qu’une notice Dublin Core bien structurée (c’est un raccourci). Ainsi, quand Yahoo moissonne les pages de Calames pour les indexer, il récupère aussi des métadonnées déjà structurées, que SearchMonkey est censé exploiter. Dès lors, tout ce qu’il devrait nous rester à faire, c’est de paramétrer en PHP le mode d’affichage de ces métadonnées dans chaque résultat Yahoo.
Limites
Hélas, à notre connaissance, SearchMonkey ne supporte pas encore RDFa. C’est imminent, croit-on comprendre. Pour patienter, on a donc utilisé une autre méthode proposée par SearchMonkey pour extraire des métadonnées : au moment de l’affichage de la liste de résultats, un script XSLT transforme la page HTML moissonnée par Yahoo en un format XML (DataRSS), qui lui-même est converti en ce bloc HTML que vous voyez sur la page de résultats. Forcément, comme l’extraction des métadonnées se fait au moment même où l’utilisateur consulte Yahoo, ça rame un peu, ce qu’un moteur de recherche ne tolère pas. Un dixième de seconde est un dixième de seconde. C’est pourquoi le nouvel affichage (plus gourmand en ressources, plus lent) n’est pas affiché par défaut. Par contre, si vous relancez la même recherche (F5), l’affichage enrichi remplace l’ancien affichage : la transformation XSLT n’est plus un frein, car le résultat a été conservé en cache ; il est prémâché.
Quand SearchMonkey comprendra directement le RDFa des pages Calames, la phase d’extraction des métadonnées se fera au moment de l’indexation des pages crawlées, et non au moment de la consultation. Plus besoin de passer par l’extraction en XSLT. Plus de problème de performance. L’affichage dans Yahoo présentera directement la vue enrichie, ce qui est bien l’effet souhaité.
Il restera un obstacle : l’internaute (authentifié) aura toujours à effectuer la démarche prélable d’activer cette fonctionnalité dans ses paramètres de recherche dans Yahoo (regardez à droite de la boîte de saisie, le lien « personnaliser »). Ce qu’on peut espérer, c’est que les propriétaires de site (en l’occurrence l’ABES pour Calames) auront la possibilité de rendre automatique cet affichage enrichi pour leur site, que l’utilisateur l’ait voulu ou non, qu’il soit authentifié ou non. Quitte à ce que l’utilisateur puisse passer outre ce choix imposé, en activant ou développant son propre module d’affichage pour Calames. En effet, n’importe qui peut créer un tel module pour n’importe quel site. Par exemple, je pourrais créer un module d’affichage des pages de l’Assemblée nationale qui, pour chaque député, fasse un lien avec le site mon-depute.fr, qui tient le compte de leurs votes au Parlement. Il doit même être possible d’afficher directement le nombre de votes pour, d’abstentions… pour telle législature. Les possibilités sont infinies.
Perspectives
Une innovation comme SearchMonkey a vraiment le potentiel de changer la donne :
- pour les éditeurs de site : après avoir sous-traité aux moteurs de recherche la fonction de « racoler le client », les propriétaires de sites Web ont l’opportunité de contrôler un peu plus leur apparence dans la liste des résultats des moteurs, à défaut d’en pouvoir influencer le classement. On observera amusé que les résultats des moteurs vont de plus en plus ressembler à une notice de catalogue.
- pour les utilisateurs de site : sans trop d’effort, beaucoup de gens auront la possibilité de modifier l’apparence dans Yahoo de leur site préféré. Ils pourront ainsi se l’approprier, l’adapter à leurs besoins propres, mais aussi inventer de nouvelles manières d’en exploiter les données. C’est en retour, pour les éditeurs de site, un vivier d’idées sans prix, un brainstorming permanent et ouvert, une source d’inspiration pour imaginer de nouvelles fonctionnalités (ou les tester sans modifier le site lui-même), mais aussi une source d’information sur les communautés d’utilisateurs du site. Tout cela est encore plus vrai quand il s’agit de modifier l’apparence du site lui-même (via des scripts utilisateurs comme dans Greasemonkey ou Operator), et pas seulement ses résultats dans Yahoo. Dans cet esprit, on ne peut manquer de mentionner Show Us a Better Way , la brillante initiative du gouvernement britannique qui vient de lancer un concours où chacun est invité à suggérer de nouvelles manières d’exploiter (réutiliser, afficher, combiner…) les données publiques mises en ligne par le gouvernement : données géographiques, statistiques… Fascinant.
- Customiser les résultats de Calames dans Yahoo suppose d’abord que Calames soit indexé dans Yahoo, ce qui n’est pas encore le cas de tous les catalogues et autres sites Web dynamiques. Mais cela suppose aussi qu’on expose ses informations sous une forme structurée et normalisée, qui les rende plus facilement réutilisables par soi-même ou par des tiers. Une solution possible serait d’exposer Calames en dataRSS, le format propre à Yahoo SearchMonkey. Mais il est bien plus tentant d’utiliser RDFa, qui est un format standard du W3C, car il promet bien d’autres usages au-delà de SearchMonkey – ce blog y reviendra bientôt. Quoi qu’il en soit, voici une nouvelle ruse de l’Histoire du Web : alors que bien des catalogues étaient sur le point d’abdiquer devant le modèle apparemment simpliste du moteur de recherche, c’est précisément un de ces vulgaires moteurs qui vient nous rappeler l’immense potentiel – encore en jachère – de la structuration des métadonnées, pourvu qu’on échappe aux formats traditionnels qui enferment les données dans leur carcan strictement bibliothéconomique (MARC), et qu’on adopte des solutions universelles et extensibles (RDF, bien sûr).
Exemples de requêtes pour trouver du Calames dans Yahoo :
A propos de RDFa, je vous invite à lire les explications de Gautier Poupeau et de Fabien Gandon.