En février 2020, Tezuka Productions, le studio d'animation fondé par le mangaka Osamu Tezuka, annonce la parution de Paidon, nouvel opus du créateur d'Astro Boy. Pas de quoi chambouler le public au-delà des amateurs d'animes japonais ? L'information fait pourtant la Une de la presse tech et culture à l'international, pour une raison simple : Osamu Tezuka est mort en 1989, et Paidon a été mis au point principalement par une intelligence artificielle ayant digéré 65 œuvres du maître. Le constat aurait de quoi faire tomber de sa chaise n'importe quel professionnel du livre. Mais pas René Audet et Tom Lebrun, respectivement professeur titulaire et doctorant au département de littérature, théâtre et cinéma de l'université Laval (Québec) et auteurs, en octobre dernier, d'un livre blanc sur l'intelligence artificielle dans le monde du livre.
« Il y a eu un vrai bond en avant, en 2012, dans les domaines du machine learning, une technologie d'intelligence artificielle qui permet aux ordinateurs d'apprendre sans avoir été programmés pour cela, en se nourrissant des données du big data, analysent-ils. Et depuis 2019-2020, nous sommes entrés dans une nouvelle période de progrès exponentiels, avec la mise au point de programmes de génération de texte qui ne sont pas parfaits, mais qui ont souvent l'apparence de la cohérence », précisent les deux chercheurs, citant le programme GPT-3 de la start-up californienne OpenAI, capable de continuer un roman en s'appropriant le style d'un auteur, ou encore le service de messagerie Gmail, de Google, et ses suggestions de rédaction intelligente.
Tous les maillons concernés
Les tables des librairies et les rayonnages des bibliothèques seront-ils un jour remplis d'ouvrages écrits par des robots ? Pour l'instant, la question fait plutôt sourire Virginie Clayssen, directrice du patrimoine et de la numérisation d'Editis et présidente de la commission numérique du Syndicat national de l'édition. « Le moment où l'intelligence artificielle dépassera l'intelligence humaine n'est pas encore venu. D'ailleurs, cela n'a pas vraiment de sens de se focaliser sur le remplacement des humains : les applications de l'intelligence artificielle au livre et au langage sont moins romantiques que cela, mais plus pertinentes, et tous les maillons de la chaîne du livre sont concernés », explique celle qui préside aussi le laboratoire européen de recherche sur la lecture numérique EDRLab.
Le domaine de la traduction est l'un de ceux où le machine learning est le plus communément utilisé. Google Translate – firme de Mountain View, encore – permet aujourd'hui à tout un chacun de comprendre un article de journal écrit dans une langue qu'il ne maîtrise pas. Et les professionnels surveillent de près les progrès de ces outils de traduction automatique, puisque depuis 2018, l'Association pour la promotion de la traduction littéraire (Atlas) s'est dotée d'un Observatoire de la traduction automatique pour suivre l'évolution des performances des Google Translate, de son concurrent allemand DeepL et du logiciel de traduction destiné aux entreprises Systran. Concernant les textes littéraires, les résultats sont sans appel : « On observe des microréussites très ponctuelles (...) mais aucun des trois systèmes ne propose un résultat publiable, ni même une base de travail qu'un humain pourrait amender », notait le traducteur Dominique Nédellec lors des Assises de la traduction littéraire 2020. Ce qui n'empêche pas la post-édition, soit le fait d'améliorer manuellement un texte d'abord traduit par une machine, de se développer dans l'édition technique et scientifique.
Il y a trois ans, DeepL, en partenariat avec le cabinet de conseil en data science Quantmetry, a réussi un joli coup de com' en traduisant intégralement de l'anglais au français l'ouvrage de référence d'un trio de chercheurs, Deep Learning (L'apprentissage profond, Massot-Quantmetry). Le pavé de plus de 800 pages a tout de même été soumis à relecture par des chercheurs du CNRS, avant sa publication.
Sélectionner les futurs succès
Les innovations ne manquent pas non plus du côté de l'édition, mais c'est une fois encore le segment universitaire qui fait office de précurseur. « Si vous tapez “aspirine” dans une base de données d'articles scientifiques, un simple algorithme ne suffit pas à faire un tri efficace, c'est pourquoi les éditeurs scientifiques se sont dotés d'outils opérationnels », indique Virginie Clayssen, évoquant le logiciel développé par la compagnie danoise Unsilo. Mais dès que l'on bascule dans la fiction, les applications se comptent sur les doigts d'une main.
Pour sélectionner les premiers livres papier publiés par sa branche édition, la plateforme d'écriture Wattpad s'est appuyée sur un algorithme maison, le Story DNA Machine Learning. « En combinant la puissance de cette technologie avec les connaissances de nos experts en contenu, il est facile d'identifier le prochain grand succès », assure ainsi l'un des porte-parole de la société canadienne, mettant en avant le roman Historically Inaccurate, de l'autrice mexicaine Shay Bravo, choisi parmi plus de 169 000 histoires. L'entreprise allemande QualiFiction est l'une des rares sur le marché à proposer à ses clients d'effectuer un premier tri parmi des centaines de manuscrits.
« L'œuvre littéraire se compose globalement de deux parties : une partie artistique subjective, difficile à saisir, et une autre qui tient plus de l'artisanat, de la même façon qu'il vous faudra maîtriser quelques techniques de base en peinture pour faire de bons tableaux », décrit Ralf Winkler, l'un de ses fondateurs. L'algorithme de QualiFiction, nourri de « dizaines de milliers d'exemples de livres passés », se charge de détecter les connexions les plus prometteuses entre le sujet, les personnages, l'intrigue, ou le style. Difficile en revanche de savoir s'il existe un public pour ce type d'offre, d'autant que les intelligences artificielles ne peuvent pas détecter autre chose que des textes similaires à des succès passés, sans innover. « Je crois qu'aucun éditeur n'irait se vanter d'avoir recours à ce service, mais cela pourrait être la réalité de demain », souligne René Audet, pour qui tout n'est pas à jeter. Dans le futur, un algorithme pourrait trier des manuscrits pour les redistribuer aux bons éditeurs au sein d'une maison, ou encore aider un directeur commercial à établir le tirage le plus juste pour un ouvrage donné.
La puissance des métadonnées
Les interlocuteurs interrogés pour cet article s'accordent tous à le dire : ce n'est pas du monde du livre, petit poucet face aux acteurs majeurs de la Silicon Valley, que naîtront les prochaines intelligences artificielles propres à révolutionner l'industrie. Il n'y a donc rien d'étonnant à trouver le plus grand nombre d'applications des algorithmes en bout de chaîne, dans la recommandation littéraire. Les start-up s'appellent Collibris, BookGenie, Alexandre et Aristote, et promettent toutes de trouver « le bon livre pour le bon lecteur », voire s'affirment comme un « Tinder des lecteurs », pour reprendre le slogan du Matchmaker, développé lors de la dernière Foire du livre de Bruxelles.
Le principe est relativement simple : à partir de données récoltées sur vos goûts littéraires, l'application se charge de vous faire découvrir votre prochain coup de cœur. Les modèles sont évidents : Netflix dans le domaine des films et séries, Spotify dans celui de la musique, avec leurs algorithmes de recommandation surpuissants. Dans l'univers du livre, l'algorithme du réseau social Gleeph, mis au point en 2019 après cinq ans de développement et qui propose chaque jour 13 nouvelles suggestions de lecture à ses 300000 utilisateurs, s'approche aujourd'hui de ce Graal. Démonstration par les deux fondateurs, Guillaume Debaig et Khalil Mouna : « La Fnac ne connaît que les livres que vous avez achetés à la Fnac, et dans 40 % des cas, ces livres sont des cadeaux pour d'autres personnes. C'est la même chose pour Amazon, ou pour votre libraire indépendant. Sur Gleeph, vous épinglez dans votre bibliothèque les livres que vous avez aimés, qui ont parfois changé votre vie, parmi plus deux millions de livres référencés. Personne ne connaît vraiment les livres qui vous définissent, sauf vous. Et Gleeph. »
Ces données « de très grande qualité » représentent évidemment une mine d'informations monnayables, à l'ère du big data. Les deux entrepreneurs mettent ainsi leur algorithme de recommandation à la disposition du site de libraires indépendants Lalibrairie.com, pour prolonger le temps de visite et susciter l'acte d'achat. « Notre outil est un appui pour les libraires : si le spécialiste du manga n'est pas présent dans le magasin, un autre libraire pourra tout de même aiguiller un client, ce qui évitera qu'il reparte les mains vides et qu'il aille se fournir sur une grande plateforme. »
Pour les éditeurs, la promesse est elle aussi alléchante : Gleeph propose de diffuser dans les feed d'actualité de lecteurs ciblés les publicités qui vont les intéresser. « Et nous précisons toujours quand la recommandation est sponsorisée », insiste Guillaume Debaig. Avec un nombre de membres en hausse de 10 % en janvier 2021, et des données toujours plus précises, prévoir le prochain carton du livre ne relève plus vraiment de la science-fiction. Après tout, en 2013, c'est à partir des datas collectées sur ses utilisateurs que Netflix a déterminé le cadre (la conquête de la Maison Blanche) et l'acteur principal (Kevin Spacey) de sa première création originale, House of Cards, avec le succès (programmé) que l'on connaît.