IA et bibliothèque : l'épreuve par 6

Sophie Vandepontseele, directrice des collections contemporaines de KBR, la Bibliothèque nationale de Belgique. - Photo Fanny Guyomard

IA et bibliothèque : l'épreuve par 6

Conserver le patrimoine numérique tout en le rendant accessible, lutter contre les fausses informations, sensibiliser les citoyens aux nouvelles technologies... Autant de missions des bibliothèques que l'intelligence artificielle peut faciliter. Mais à quel prix ? Début de réponse en six applis et un témoignage.

Par Fanny Guyomard
Créé le 21.10.2024 à 12h45 ,
Mis à jour le 14.11.2024 à 12h15

1. Cataloguer (enfin !) les collections...

Au cœur de Bruxelles, la Bibliothèque royale de Belgique (KBR) conserve près de huit millions d'items sur huit hectares. « Chaque étage a une odeur », hume Sophie Vandepontseele, directrice des collections contemporaines. Chaque mois, plus de 3 000 livres papier font leur entrée dans le dépôt légal. La tour aux livres de 17 étages aux airs de Ghostbusters est quasiment pleine. Et en cette fin de premier quart du XXI^e siècle, un ouvrage n'a pas véritablement d'existence s'il n'est pas catalogué sur Internet. Or « nous avons découvert il y a quelques années que la moitié de nos collections n'étaient pas identifiées en ligne », signale la bibliothécaire. En 2022, KBR a donc lancé avec Microsoft une application qui photographie les premières pages de chaque ouvrage, et - c'est là que l'intelligence artificielle entre en jeu - identifie en un coup d'œil les métadonnées. Le document est désormais indexable. Cette année, KBR étend cette application au dépôt légal. « L'objectif est de réduire à quelques semaines le temps qui s'écoule entre leur arrivée ici et leur catalogage. »

2. ... puis les retranscrire sur Internet... et les protéger des IA !

Autre chantier pour KBR : numériser, avec Google, 100 000 documents d'ici 2026. Aujourd'hui, seulement 10 % des collections nationales belges le sont. De quoi élargir leur audience. L'institution Bibliothèque et Archives Canada utilise elle le logiciel Transkribus pour reconnaître des caractères manuscrits et les adapter en format numérique afin qu'ils puissent être lisibles sur internet. « Le projet pilote a ciblé les documents créés par le département gouvernemental, anciennement connu sous le nom d'Affaires indiennes. Environ cinq millions de pages de cette collection sont accessibles sur le site web de Canadiana, présente la directrice Leslie Weir. Ce projet souligne l'engagement profond de notre organisation en faveur de la réconciliation avec les peuples autochtones, ainsi que notre rôle important en tant que gardien et source de documents précieux. » Ce gardien est d'autant plus essentiel face aux IA capables de générer de nouveaux contenus qui peuvent tordre la réalité. La bibliothèque, elle, peut repérer ces distorsions en les comparant avec les documents originaux qu'elle conserve. Et qu'elle prend soin d'enregistrer en plusieurs copies, en cas de changement ou de perte des données.

3. Valoriser les contenus numérisés

Le catalogage permet de connaître l'existence d'un document, et sa numérisation permet d'y accéder depuis un appareil connecté à Internet. Mais comment s'y retrouver dans cette masse ? L'Institut national de recherche en sciences et technologies du numérique (Inria) et l'Institut national de l'audiovisuel (Ina) ont développé l'outil GallicaSnoop, d'après le nom de la bibliothèque numérique de la Bibliothèque nationale de France et « fouiner » en anglais : ses yeux de lynx repèrent les similarités entre des centaines de milliers d'images. De quoi permettre aux chercheurs de comparer efficacement l'iconographie au fil du temps, de localiser les singes qui peuplent les marges des manuscrits médiévaux, de recenser les véhicules inventés pour marcher sur l'eau... Le concept existe aussi pour la presse ancienne (projet NewsEye). Transformation des pixels de l'image en texte numérique, repérage de noms de personnes et de lieux, création de mots clés et de filtres... Un travail coordonné par l'université de La Rochelle, avec les bibliothèques nationales de France, d'Autriche, de Finlande et d'autres universités européennes.

4. Conserver le patrimoine physique

L'intelligence d'une IA repose sur le repérage de similarités entre des milliers de données. Une fois qu'elle a identifié de grandes lois qui semblent structurer ce système, comme des règles grammaticales, elle peut proposer des prédictions. C'est ce en quoi consistait le projet universitaire Dalgocol, à partir de millions de documents de la BnF : prédire leur état de dégradation, en recoupant leurs métadonnées. Celles-ci indiquent de quel support il s'agit, les différents traitements subis... Ce gros travail en amont permet de gagner du temps sur la suite : générer un calendrier qui indique quel document dormant dans les réserves doit être entretenu en priorité.

5. Aider à la création de contenus fiables

La manière dont les agents conversationnels se nourrissent d'informations, puis les trient pour ensuite générer des textes, est bien opaque. Comment s'y fier ? En demandant à des bibliothèques, garantes d'un savoir fiable, d'être les nourrices de l'IA. C'est ce que font la Bibliothèque nationale de France et l'INA pour un consortium d'entreprises : Mistral AI développe un grand modèle de langage français en open source à partir de leurs millions de données, Giskard s'occupe d'évaluer la fiabilité du contenu et de le sécuriser, et Artefact rend le tout utilisable par les entreprises. C'est également dans les tuyaux de la Bibliothèque royale du Danemark, comme nous l'explique Cecile Christensen, directrice de la transformation digitale : les archives de l'Internet du pays peuvent entraîner un grand modèle de langage danois, qui pourrait servir de nourriture à des agents conversationnels alternatifs à l'Américain ChatGPT, par exemple. L'algorithme serait « en open source et transparent », précise cette diplômée en droit, qui est en discussion avec la Suède et la Norvège. « Il sera toujours biaisé, car tout choix implique un biais, mais ce seront nos biais à nous ! » Et de conclure : « Cela permettrait à notre bibliothèque d'entrer dans une nouvelle ère et de jouer pleinement un rôle dans notre démocratie. »

« Ne cédons plus aux sirènes du technosolutionnisme »

« Ne fantasmons pas l'impact et les possibilités de l'IA en bibliothèque pour la production de notices bibliographiques ou la recommandation de contenus. Les bibliothèques nationales n'ont pas eu besoin d'attendre l'essor de l'IA pour remplir leurs missions. Le gain éventuel de temps pour ce genre de tâches ne rééquilibre pas l'impact carbone de ces technologies et leurs coûts en termes de développement et de maintenance. Il existe aujourd'hui des technologies moins énergivores pour faciliter la recherche documentaire. Une interface ergonomique et un travail sur la visibilité des bibliothèques et de leurs collections à travers le Web suffisent amplement à faciliter la recherche de documents pour les usagers. C'est d'ailleurs un processus dans lequel les bibliothèques sont engagées depuis plusieurs années. La plupart des services d'IA génératives comme ChatGPT, Gemini ou encore Midjourney sont mis à disposition par des géants du Web dont l'infrastructure repose sur des data centers gourmands en électricité et en eau pour les refroidir. L'alternative consiste à recourir à des IA qu'on installe directement sur nos machines, comme Jan.AI, sans avoir besoin de communiquer avec des serveurs hébergés ailleurs. Cela permet également de garder la main sur nos données. Ne cédons plus aux sirènes du technosolutionnisme. Laissons la place à un numérique éthique, raisonné et citoyen. Ce n'est pas la course à l'utilisation de la dernière techno à la mode qui nous rendra plus attrayants ou modernes auprès de nos usagers, mais plutôt notre capacité à prendre du recul, accompagner, faire réfléchir sur l'impact et les conséquences du numérique sur notre société. »