Comment penser la promotion de contenus culturels ? (1/2)

Le 20 Juin 2023, la BnF proposait une journée d'étude pour "penser la découvrabilité des contenus culturels". Comment concevoir des algorithmes de promotion de contenus à des fins de service public ? De tels algorithmes peuvent-ils inciter à la découverte ou réduisent-ils toujours les perspectives à quelques contenus populaires ? Telles furent les questions posées ce jour là. Dans ce premier article, on vous résume les interventions de la matinée.

Cette journée de conférence, ou plutôt de retours d’expérience, relatifs à la découvrabilité des contenus pour les services publics s’est déroulée en deux parties. Dans ce premier article nous vous partageons nos notes de la matinée, qui était dédiée à la découvrabilité des contenus culturels pour un usage interne aux institutions, dédié à la recherche.

N.B : Le texte suivant est issu de notre prise de notes (les elements entre parenthèse et en italique sont nos remarques a posteriori). Cette journée a été filmée et la vidéo des huit heures est disponible sur YouTube, ici.

PARTIE 1 : La découvrabilité interne

Introduction.

[BnF]

Qu’est-ce que la découvrabilité ? C’est une notion qui regroupe à la fois la disponibilité d’une information et sa capacité à être repérée par une personne qui n’en faisait pas vraiment la recherche.


Le sujet est un enjeu important pour Gallica, la plateforme numérique de mise a disposition de la collection de la BnF. Celle-ci doit valoriser dix millions d’objets, sans se restreindre à une partie « plus actuelle » ou « plus populaire ». L’enjeu, lorsqu’on dispose d’un patrimoine culturel, est bien d’en assurer la découvrabilité, sans pour autant qu’un utilisateur ou qu’une utilisatrice ne s’y perde.


Une enquête menée auprès des publics de Gallica mettait en valeur que 92% étaient satisfaits de la plateforme, mais seulement 25% utilisent le moteur de recherche. Et 14% le trouvent pertinent.


Autre indicateur intéressant, parmi ces dix millions d’objets, 44% ont été consultés au moins une fois. Comment augmenter ce taux, alors même que la collection croit ?

Un levier d’action réside dans la mise en relations des œuvres, via des modèles de métadonnées transverses qui permettent à un utilisateur ou une utilisatrice de faire son propre cheminement. Ces modèles doivent, au-delà d’offrir une indexation bibliographique, faciliter la navigation des personnes au sein des fonds. C’est l’intérêt du récent référentiel de regroupement des données, l’IFLALRM.


Par ailleurs, s’impose la nécessité “d’outils de médiation” pour guider les utilisateurs et utilisatrices à travers la masse d’informations disponibles. Comment promouvoir des contenus tout en restant pertinent ? Les systèmes de recommandations peuvent-ils répondre a ces enjeux ?


Dans cette optique, la BnF a créé en 2021, un datalab en humanité numérique, cf. ici.


Que peuvent apporter les grands modèles de langage ? Comment définir une recommandation de service public ? Comment répartir les responsabilités entre l’éditorialisation humaine et les recommandations algorithmiques ?

Telles seront les questions abordées au fil des différents retours d’expérience de cette journée.


Archival

[ANR – BnF - Orange Innovation - LIS Marseille -  IRISA]

L’objectif du projet était de proposer un outil d’aide à la navigation dans des fonds d’archives via la création de liens entre les éléments du fond, grâce à des modèles d’analyse du langage.


Une équipe pluridisciplinaire s'est appuyée sur des sources de données diversifiées questionnées via des API. Le fond initial était la version numérisée de la revue “autogestion”, puis furent agrégés des fonds audiovisuels (Canal U et INA), ainsi que des informations issues de WikiData. L’interface utilisateur devait permettre de comprendre comment fonctionne les algorithmes qui l'alimentent. Ainsi, les contenus et les pages sont liés entre eux par des modèles d'inférence, c'est-à-dire des modèles qui expliquent les résultats du modèle de recommandation.


L’architecture de principe se compose de deux interfaces. Une de requête, qui questionne les différents fonds via des API (équivalent backend). L’autre de publication des résultats qui donne à visualiser les liens découverts par les algorithmes, dans des ensembles informationnels a priori hétérogènes (équivalent frontend).


Le projet a suivi le séquencement suivant :

Phases du projet

 

Un partenaire privé de cette expérimentation était Orange Innovation, qui travaille depuis 2015 avec des organismes publics pour penser des réponses à ces problématiques de découvrabilité des contenus. L’intérêt pour une grande entreprise réside dans la valorisation des connaissances professionnelles au sein d’un intranet moderne. En effet, ces plateformes permettent à tous les employées de créer une grande diversités de contenus, tant dans les formats que dans les thématiques. C'est une problématique que partagent grandes entreprises et institutions culturelles : comment peut-on rendre la recherche dans de grands volumes d'information pertinente, tout en incitant à la découverte d'informations satellites ?


Le thesaurus fut initié grâce a un modèle interne d’Orange, initialement dédié au classements des vidéos professionnelles. Il a permis de disposer de tags initiaux. Mais, une problématique courante lorsqu'un utilisateur ou une utilisatrice publie des contenus et renseigne les thématiques associées, est la fragmentation de l'information. Cette dernière parfois manque, parfois elle est erronée. Ainsi faut-il aussi être en mesure de générer automatiquement des métadonnées pertinentes pour combler les manques.

Un autre sujet de réflexion était d’explorer de nouvelles formes du paradigme de la question-réponse. Car explorer une collection c'est interroger son contenu. Il est donc nécessaire d’étudier la correspondance entre requête et résultat. En s'appuyant sur des modèles de deep learning (apprentissage profond), on peut mettre en valeur des éléments de discours et même générer automatiquement des questions vis-a-vis d’un texte.

Pour évaluer la qualité d’une question, il existe alors des structures intrinsèques, comme la qualité syntaxique et sémantique des éléments. Mais ces critères ne s’intéressent pas à l’usage. Les résultats d’un modèle, au-delà d’être bons, doivent être utiles. (Les réflexions sur l’usage nécessitent une approche de service plus que de produit. Un service est toujours destiné à des usagers, et ses métriques de qualité sont donc produites par et pour ces derniers, cf. ITIL)

L’objectif de l’outil était, qu’à la consultation d’un contenu, le site propose des questions générées automatiquement. Celles-ci amèneront alors les utilisateurs et utilisatrices vers d’autres contenus.

La génération de liens s’est présentée comme le moyen fondamental d’explorer une collection.

Mais comment la structurer ? Avec des mots-clés ? Comment proposer des liens qui soient utiles ?

A nouveau, des algorithmes d’apprentissage peuvent faciliter l’explicabilité d’une relation. L’utilisation de l’e-SNLI rend des modèles capables d’inférer et d’expliquer des liens entre deux phrases : constituent-elles une suite logique ou une contradiction ? Grâce à une telle approche, la plateforme propose à ses utilisateurs et utilisatrices d’explorer les relations identifiées par les modèles de données. Les personnes naviguent ainsi au sein des fonds en parcourant à rebours l’indexation de l’outil.

Les liens entre les documents du fond furent créés par une approche lexico-sémantique (sentence BERT). Enfin, l’ambition fut d’éprouver le modèle par l’usage, via la dernière phase du projet : l’expérimentation auprès des publics.

Ce projet offre finalement un parcours documentaire par rebonds successifs, permis par un travail commun entre l’humain et la machine, pour thématiser et lier des contenus initialement distincts.

Question 810 : Avez-vous mis en place des traceurs permettant d'obtenir des retours utilisateurs classiques de ce type de service ? Taux de clics sur les liens ? Temps de consultation des pages ? etc.

Réponse : Oui, mais les analyses sont encore en cours.



Philherite

[Université Côte d’Azur - OpSci]

Ce projet visait à tisser informatiquement une histoire de la philosophie de l’héritage, sujet sous-jacent à tout processus de transmission du patrimoine.

Le point de départ de cette réflexion fut le travail de Thomas Piketty, ici, qui mettait en avant, depuis les années 70, « le retour de l’héritage ». Si la question de l’héritage est une d’actualité dans le domaine économique, la philosophie sociale ne s’en emparait plus vraiment . Alors qu’au XIXème siècle, la question était omniprésente, principielle et radicale. Notre imaginaire social et contemporain est à ce sujet devenu si pauvre, qu’on a même du mal à juger “imaginable” la proposition abolitionniste.

L’objectif était de travailler dans une démarche archéologiste des idées, pour tracer une histoire de la notion d’héritage. Comme pour tout projet de recherche, il fallut commencer par établir son corpus. Et ce corpus est aussi vaste que divers. D’où la nécessité de recourir “aux humanités numériques” pour traiter de grands volumes de données aux formats variés.

Tout d’abord, il faut noter que le débat n’est pas bien circonscrit. Les sciences sociales sont jeunes et ne disposaient pas, avant, d’un formalisme bien défini. Ainsi fallut-il choisir des termes de recherche sans ambiguïté, pour éviter de surcharger le jeu de données de contenus trop éloignés du sujet, qui bruiteraient le dataset. Une fois le corpus identifié, un modèle BERT a permis d'isoler des thématiques, mais aussi des structures narratives. Puis une visualisation en deux dimension a mis en valeur des regroupements possibles, comme la relation entre l’esclavage et l’héritage. Ce regroupement par cluster offre donc à la recherche un parcours thématique. Pour chaque sujet, on peut mettre rapidement en avant les mots les plus utilisés dans les documents concernés, mais aussi ceux plus spécifiques à l’auteur ou l’autrice. Cette visualisation synthétique d’un immense ensemble de documents, qu’il faudrait normalement une vie pour parcourir, offre un gain de temps de précieux.

Ainsi, cette modélisation mathématique des données, appliquée à la recherche en sciences sociales, a mis en avant les valeurs suivantes :

  1. L’outil facilite la découvrabilité documentaire. En philosophie, on commence toujours par l’analyse interne de l’œuvre. Avec un tel outil, l’analyse interne est systématisée et accélérée. Par exemple, pour Auguste Conte furent référencées toutes les occurrences de l’héritage au sein de son œuvre. Cela permet un déplacement fluide dans ce sous-ensemble documentaire déjà très étendu.
  2. L’outil facilite aussi l’analyse inter-textuelle, puisqu’on a toutes les occurrences d’une thématique chez un auteur, mais aussi chez ses pairs. Ce qui permet de faire émerger le contexte théorique et intellectuel d’une œuvre.
  3. Il crée une forme de sérendipité favorisée : quand la chercheuse navigue dans la base, elle découvre des choses. Cela rappelle l’époque où nous pouvions circuler dans les bibliothèques.
  4. Enfin, il offre une découvrabilité thétique : on découvre des thèses, grâce au topic modeling. On y trouve parfois des connaissances confirmatoires, comme le fait que la réforme de l’héritage est très liée aux évolutions de l’organisation du travail. Puis il y a aussi des découvertes de relations imprévues.

Pour conclure, Foucault nous alertait, dans "L’archéologie du savoir", sur la nécessité d’avoir des découpages dans la masse discursive pour être en mesure de l’analyser. Aujourd’hui, ce type de modèle informatique permet d’offrir un découpage qui n’aurait, avant, pas été possible sans y passer des vies.



L’analyse exploratoire de collections numériques

[BnF - Sorbonne]

Ce projet de post-doctorat visait à mener une analyse exploratoire des monographies numérisées à la BnF, par modélisation statistique. A l’instar des interventions précédentes, l’objectif était d’utiliser des outils de science des données pour dégager des informations pertinentes de grands volumes data, afin d’en tirer une connaissance efficace du contenu global.

Le sujet put être abordé comme une problématique de classification des documents du fonds, en cherchant à prédire la classification décimale de Dewey, grâce a la représentation mathématique des contenus.

Le projet a suivi les étapes suivantes :

Phases du projet

 


À nouveau, c’est un modèle de type BERT multi-lingual qui a permis de vectoriser les métadonnées des éléments du fonds. En utilisant sur la matrice des vecteurs du fond une mesure de similarité cosinus pour la création de clusters, on peut constater, grâce à la visualisation en deux dimensions, la proximité aux décimales de Dewey. On peut donc établir qu'une classification automatisée des éléments du fond est possible.

Il faudrait dorénavant confronter cette classification à des retours d'usage, via les logs des outils, pour évaluer la pertinence de cette classification : répond-elle au besoin de recherche et de découverte des utilisateurs et utilisatrices ?

Table ronde, matin

Penser l’innovation par l’usage

L’approche technologique des documents confronte toujours à la masse d’informations. Comment coordonner innovation et utilité ? Nous disposons de technologies très puissantes, mais qui font encore des erreurs parfois inacceptables. Comment faire cohabiter éditorialisation humaine et classification automatique ?

Auguste Comte évoquait déjà ce mouvement de massification des productions culturelles, qui impose de nouvelles manières de faire. L’innovation impose l’usage de nouveaux outils, qui gagnent à être construits en prenant en compte les spécificités des corpus traités. Si les outils peuvent être duplicables, ils sont meilleurs lorsqu’ils sont façonnés au contact des spécificités des données d’un fond (ou d’un métier).

Les modélisation informatiques permettent de répondre aux questions, mais offrent aussi de s’en poser de nouvelles.

L’enjeu est de parvenir à inscrire l’utilisateur au départ du projet : le numérique aujourd’hui nécessite une posture spécifique (un numérique choisi, jamais subis 😉 Resnumerica). Générer des nouveaux modes de consultation et trouver le bon compromis entre éditorialisation humaine et modèles automatisés nécessite transdisciplinarité, car les usages varient en fonction des disciplines. Mais des méthodologies transverses peuvent émerger de ce processus de création spécifique.

Que manque-t-il aujourd'hui pour passer a l’échelle ?

La médiation culturelle nécessite la traduction des développements informatiques de façon accessible pour l’utilisateur ou l'utilisatrice. Mais cette médiation démarre dès la composition de l’équipe projet qui devra partager enjeux metiers et informatiques pour produire des services de qualité.

La démocratisation des architectures informatiques, l'open source et l'open data, permettent de partager et d'inscrire des outils dans la pérennité.

Ainsi est-il nécessaire de valoriser les projets publics et privés et de faire connaître les API publiques déjà en production.

La mise a l’échelle repose sur un besoin public identifié de mutualisation des outils et des connaissances. Connaître les outils existants et accélérer les mises en œuvre passera par l’ouverture des données mais aussi des développement, i.e des codes sources (cf. EUAI fund).

Un facteur clé de succès de ce type de projet de service public appuyé par l’intelligence artificielle est la définition précises des valeurs recherchées, en phase de stratégie. A l’issue du projet se pose toujours la question du transfert  de  compétences, qui peut être facilité par l’explicabilité des modèles. Et cette explicabilité pourrait servir les besoins de médiation, sur le long terme.


in vitro vs. in vivo et perspectives

L’utilité d’un modèle passe par la confrontation de ce dernier aux comportements des utilisateurs et utilisatrices (l'usage), ainsi qu’aux métriques définies pour mesurer la performances des algorithmes utilisés. Il faut intégrer toujours plus d’utilisateurs pour obtenir des retours et améliorer les services en conséquences (ceci nécessite une stratégie de communication propre à ces projets). Il faut développer un rapport apaisé avec l’intelligence artificielle, car la puissance d’analyse profonde repose encore sur l’humain. Les modèles ne sont que des outils de consolidation, d’exploration et d’aide à la décision. Le travail d’interprétation des résultats, de leur composition, reste le travail de l’humain. À l'avenir, il va falloir déployer des modèles hybrides qui font communiquer indexation sémantique et retours d’usages.


ℹ️ Pour lire nos notes de synthèse de l'après-midi, dédié à la découvrabilité des contenus culturels pour les publics, lisez notre deuxième article, accessible ici.