Michèle Galdemar est administratrice de la base de données du musée Guimet. Depuis deux ans, elle travaille à la vérification et à l’harmonisation des vocabulaires contrôlés, qui sont autant de points d’entrée dans la richesse des collections. Elle nous explique comment cette opération de longue haleine s’avère une solution immédiate pour améliorer durablement les performances de la base de données du musée.
Visuel : Le bodhisattva Avalokitesvara à huit bras, Hanoi, 18e siècle,
Photo (C) RMN-Grand Palais (musée Guimet, Paris) / Thierry Ollivier
Bureau de la diffusion numérique : Présentez-nous la situation de départ en quelques mots...
Michèle Galdemar : La base du musée a été créée sur un outil du marché lorsque les collections ont été mises en réserve, à l’occasion de la rénovation du musée Guimet à la fin des années 1990. Les collections ont été saisies au fur et à mesure de leur déménagement.
Le déploiement des collections sur deux sites distants, non connectés informatiquement pour des raisons techniques, a nécessité le développement de deux bases dont les thesaurus ne sont pas symétriques. Il existe aussi des outils de gestion informels comme des tableurs.
BDNC : Quel état des lieux préalable avez-vous fait ?
MG : La plus petite des deux bases (3.300 notices d’oeuvre) est remarquablement homogène. Tandis que la seconde (70.000 notices) se caractérise par une hétérogénéité sans commune mesure. Cette dispersion des données pénalise lourdement ses performances en recherche et rend presque impossible toute volonté de se conformer à une charte de saisie.
Les administratrices précédentes ont essayé de mettre en place des outils : création de thesaurus, charte de saisie. Mais ces préconisations ont fait long feu et les thesaurus initialement constitués ont été contournés.
Les contributions significatives en dehors des saisies en masse (déménagement et récolement) reflètent les fragmentations fonctionnelles du musée, à l’image d’une chaîne de montage sur laquelle chaque action est découplée de la suivante.
Il en résulte une pollution invraisemblable des index.
BDNC : Pouvez-vous caractériser ces dysfonctionnements avérés des index ?
MG : Oui, ils sont de plusieurs types
détournement de l’index, la table de référence « Domaine » a été détournée pour les descriptions formelles et iconographiques au détriment du thesaurus documentaire « Mot clé ». Ainsi la base Guimet compte 460 domaines (contre 160 dans Joconde). Le thesaurus des Titres (multi-thesaurus Désignation) a suivi la même évolution.
doublement de l’index, les mêmes données sont présentes dans deux multi-thesaurus distincts. Il existe 7 à 8 thesaurus « Personnes/collectivités » correspondant à la nature du lien de la personne/collectivité avec l’oeuvre (personne représentée, collectionneur et dernier propriétaire, musée et déposant etc).
l’éparpillement des informations en zone de notes : les données utiles pour la régie des œuvres (constante de conservation) sont éparpillées dans les matières et techniques (support rigide), les notes de désignation (encadrement), notes de récolement etc.
BDNC : Votre constat s’est-il cantonné aux index ?
MG : Non, j’ai aussi trouvé des inversions de saisies dues à une incompréhension de la base, sa structure et son fonctionnement. Certaines Tables de références ont été utilisées pour saisir les valeurs et non les qualifier, comme dans le cas de la rubrique « Autre numéro » et « Numéro de marquage ». La charte de saisie préconisait la saisie des valeurs dans le champ de gauche (qualification du numéro) et non dans la rubrique en texte libre de droite, destinée aux valeurs.
A mon arrivée : plus de 13.000 occurrences dans la table de référence, rendant impossible toute recherche sur des éléments fragmentaires et sans possibilité de récupérer les résultats à moins de faire un panier, notice après notice. Cette inversion a été repérée et le champ est en cours de correction, manuelle, notice après notice. Nous sommes au milieu du gué et il est impossible désormais d’automatiser la correction sous peine de perdre ou les données déjà corrigées ou celles à reprendre.
BDNC : Quels critères d’analyse des données avez-vous privilégiés ?
MG : A l’issue des formations dispensées par l’éditeur, je me suis plongée dans les manuels fournis pour retrouver l’esprit initial de la base telle qu’elle avait été conçue, que j’ai confrontés aux préconisations de Joconde. Les manuels d’utilisation apportent une base de catalogage objective, une vue panoramique de la structure de la base et expliquent la destination de chaque champ.
Puis j’ai exporté les valeurs des différents thesaurus pour les analyser selon les critères suivants :
- structuration du thesaurus par application du filtre hiérarchie,
- cohérence sémantique (les doublons non repérés par Micromusée, valeurs nécessitant d’être éclatées en descripteurs plus simples et plus flexibles),
- pertinence de la valeur par rapport à l’objet de la rubrique qu’il renseigne.
BDNC : Quelle organisation a présidé ensuite au nettoyage des index ?
MG : Cette reprise des index s’est faite avec le concours des conservateurs pour ceux des thesaurus gérant des données spécifiques aux collections asiatiques du musée Guimet.
J’ai accordé la priorité aux index les plus sollicités en saisie et en recherche :
Les numéros d’identification en vue de la migration (rubrique : Autres numéros) dont la consolidation n’est pas automatisable
création (datation et lieux) : organisation hiérarchique essentiellement
matières et techniques : reconstruction des thesaurus à partir des TG puis propositions aux conservateurs pour validation des termes
personnes collectivités : fusions et déplacements de thesaurus
le fichier des Acquisitions
Certains thesaurus ou fichiers ne peuvent être consolidés en masse. Ils sont repris notice après notice, comme le fichier des Acquisition et la rubrique « Autre numéro ». Pour les autres, les corrections sont faites par modification par lot, à partir de lots homogènes de notices.
BDNC : Avez-vous décidé d’exclure certaines données de cette consolidation ?
MG : Oui, ce que j’appellerais les « thesaurus morts-nés », composés de quelques valeurs uniquement, j’ai réaffecté les valeurs dans d’autres thesaurus plus structurés ou reporté la valeur dans un champ note de la notice œuvre.
Certains thesaurus étant irrécupérables, ils seront migrés en l’état sans consolidation.
BDNC : Quels bénéfices percevez-vous à cette consolidation ?
MG : Dès aujourd’hui, le nettoyage par les index donne une vue d’ensemble de la base et la cohérence des thesaurus donne rapidement des résultats visibles. La recherche est plus performante ; les valeurs invalides cessent de se propager dans la base ; la saisie devient plus simple à partir de listes d’autorités claires et structurées. Tout le musée tire ainsi un bien meilleur profit de l’utilisation de la base.