Publicité
Monde
Après avoir ingurgité le Web, l’Intelligence artificielle veut se nourrir de livres
Par
Partager cet article
Monde
Après avoir ingurgité le Web, l’Intelligence artificielle veut se nourrir de livres
Lâche un peu Internet et prends un bon bouquin… A la recherche de données pour perfectionner leurs modèles, les géants de l’IA semblent en effet se tourner vers le monde du livre. L’éditeur américain HarperCollins vient ainsi de proposer à certains de ses auteurs un contrat avec une société d’intelligence artificielle (IA), dont l’identité est confidentielle, permettant à cette dernière d’utiliser leurs œuvres publiées pour entraîner son modèle d’intelligence artificielle générative.
Dans un courrier consulté par l’AFP, l’entreprise d’IA propose 2 500 dollars par livre sélectionné afin d’entraîner son modèle de langage pour une période de trois ans. Car pour pouvoir produire toutes sortes de contenus sur simple requête en langage courant, les modèles d’IA générative ont besoin d’être nourris d’une quantité de données sans cesse croissante.
L’offre a été diversement appréciée dans le secteur de l’édition, et des écrivains comme l’Américain Daniel Kibblesmith l’ont sèchement déclinée : «Je le ferais probablement pour un milliard de dollars. Je le ferais pour une somme d’argent qui ne me demanderait plus de travailler, puisque c’est le but final de cette technologie», s’est indigné l’auteur sur le réseau social Bluesky. Si HarperCollins est l’un des plus gros éditeurs à ce jour à passer ce type d’accord, il n’est pas le premier. L’éditeur américain de livres scientifiques Wiley a donné accès «au contenu de livres académiques et professionnels publiés pour une utilisation spécifique dans la formation des modèles, pour 23 millions de dollars, à une grande entreprise technologique», indiquait-il en mars cette année, lors de la présentation de ses résultats financiers.
Les entreprises de la tech n’ont peut-être plus le choix pour améliorer leurs produits que de mettre la main au portefeuille, d’autant qu’elles commencent à manquer de nouveaux matériaux pour alimenter les modèles.
La presse américaine a récemment rapporté que les nouveaux modèles en développement semblent avoir atteint leurs limites, notamment chez Google, Anthropic et OpenAI.
«Sur le Net, vous récoltez du licite et de l’illicite, et beaucoup de contenus piratés. Cela pose un problème juridique. Sans oublier le problème de qualité des données», observe Julien Chouraqui, du SNE : «Si on a à cœur le développement d’un marché sur des bases vertueuses, il faut donc associer l’ensemble des acteurs.»
Publicité
Les plus récents