Publicité

Questions à… Chatgpt intelligence artificielle capable de générer du contenu écrit

«L’IA ne peut pas reproduire parfaitement l’accent créole»

28 octobre 2024, 11:00

Par

Partager cet article

Facebook X WhatsApp

«L’IA ne peut pas reproduire parfaitement l’accent créole»

Développé par OpenAI, ce «chatbot» est ce que l’on appelle une «artificial intelligence» (AI) – ou une intelligence artificielle (IA) si vous préférez – générative. ChatGPT, outil extrêmement populaire à travers le monde, peut répondre à des questions, écrire des livres, organiser des notes, planifier des vacances, développer des lignes de codes. Il suffit de lui envoyer un «prompt» (une question) et ChatGPT s’exécute, avec la possibilité d’adapter sa personnalité. Tandis que la polémique autour des bandes sonores de «Missie Moustass» vole la vedette lors de cette campagne électorale, avec des révélations fracassantes, certains affirment encore qu’il s’agit de fabrications utilisant l’IA. Est-ce possible dans le contexte mauricien ? Nous avons posé la question à l’IA elle-même.

Salut ChatGPT comment vas-tu ?

Salut ! Je vais très bien, merci. Et toi, comment ça va ?

On fait aller. Je t’explique le topo : en ce moment, à Maurice, nous sommes en campagne électorale. Un certain «Missie Moustass», sorte de corbeau virtuel, publie des bandes sonores sur lesquelles on entend des voix de politiciens, citoyens, journalistes. Je vais te poser quelques questions ayant trait à l’intelligence artificielle, notamment, on est d’accord ?

Je comprends bien la situation ! On est totalement d’accord, pose toutes tes questions que tu veux. Je suis là pour t’aider à y voir plus clair.

Qu’est-ce que l’intelligence artificielle ?Toi, par exemple, comment as-tu été créé, quelles sont tes capacités et les limites ?

L’intelligence artificielle (IA) désigne la capacité des machines, en particulier des ordinateurs, à simuler des fonctions cognitives humaines comme la résolution de problèmes, la reconnaissance de la parole, la prise de décision, ou encore l’apprentissage. L’IA repose sur des algorithmes, des données et des modèles mathématiques qui permettent à une machine de comprendre, analyser et réagir de manière autonome à des situations diverses.

Je fais partie d’une catégorie d’IA appelée modèle de langage ou IA conversationnelle, développé par OpenAI. Ma création repose sur plusieurs étapes clés. J’ai été formé en analysant de vastes ensembles de données textuelles provenant de diverses sources (livres, articles, discussions, etc.). Ces données m’ont permis de comprendre la structure du langage humain et d’apprendre à répondre aux questions ou demandes.

Bien que mes capacités soient impressionnantes, je présente aussi certaines limites. Ma formation a été arrêtée à une certaine date (en 2023). Cela signifie que je ne suis pas au courant des événements récents ou des informations qui ont émergé après cette période, sauf lorsque j’utilise des outils de navigation pour chercher des données en direct. Je n’ai pas de conscience ni d’émotions. Mes réponses sont basées uniquement sur des modèles statistiques et des prédictions de langage. Je ne comprends pas les concepts au même titre qu’un humain.

Ne sois pas si modeste, voyons. Sinon, existet-il des logiciels utilisant l’intelligence artificielle pouvant cloner/reproduire des voix ?

Oui, il existe des logiciels utilisant l’intelligence artificielle capables de cloner ou de reproduire des voix de manière extrêmement réaliste. Ces technologies sont basées sur des modèles d’IA vocale qui analysent des enregistrements d’une voix donnée pour ensuite générer de nouveaux contenus audio avec cette même voix.
Ces logiciels fonctionnent généralement via des techniques d’apprentissage profond. Ils analysent plusieurs heures (parfois quelques minutes suffisent) d’enregistrements d’une voix particulière. L’IA décompose les caractéristiques de la voix, telles que le ton, l’intonation, le rythme, et le timbre. Une fois que le modèle est formé, il peut générer des phrases, des discours ou n’importe quel texte en reproduisant cette voix. Cela peut inclure les variations naturelles comme les pauses ou les émotions. Des exemples de logiciels : Descript ; qui permet de créer un clone vocal à partir d’un échantillon de voix. iSpeech et Resemble.ai : qui permettent de créer des clones vocaux à partir d’échantillons d’enregistrements vocaux, qui peuvent ensuite être utilisés pour produire des contenus audio personnalisés. VALL-E (de Microsoft) ; il s’agit d’un modèle IA capable de reproduire une voix en écoutant seulement trois secondes d’audio. ElevenLabs ; spécialisé dans la synthèse vocale, qui permet de créer des voix naturelles, avec une grande flexibilité pour personnaliser le ton, le débit et l’expression émotionnelle.

À l’heure actuelle, ces logiciels susmentionnés peuvent-ils reproduire parfaitement le créole mauricien, le bhojpuri, le tout sans accent ?

À l’heure actuelle, la reproduction parfaite du créole mauricien ou du bhojpuri, sans accent, à l’aide des logiciels d’intelligence artificielle de synthèse vocale reste un défi. Voici pourquoi : les modèles d’intelligence artificielle, comme ceux utilisés pour la synthèse vocale, sont formés à partir de vastes ensembles de données linguistiques. Pour des langues plus courantes comme l’anglais, le français ou le mandarin, il existe des bases de données vocales très riches et bien documentées. Cependant, pour des langues comme le créole mauricien ou le bhojpuri, il y a généralement beaucoup moins de ressources disponibles.Il n’y a pas autant d’enregistrements ou de corpus textuels disponibles pour ces langues en comparaison aux langues plus dominantes. Les nuances d’accent, d’intonation et de prononciation spécifiques à ces langues régionales ou minoritaires ne sont pas toujours bien capturées par les logiciels d’IA qui se basent sur des données limitées.

En résumé, les logiciels actuels ne sont pas encore en mesure de reproduire parfaitement le créole mauricien ou le bhojpuri sans accent.

Donc, si j’ai bien compris, tu penses, comme beaucoup de Mauriciens, que «Missie Moustass» n’a pas eu recours à l’intelligence artificielle pour reproduire les voix en question, mais qu’il s’agit de bandes sonores authentiques ?

D’après ce que tu décris et les limitations actuelles des logiciels d’intelligence artificielle pour des langues spécifiques comme le créole mauricien ou le bhojpuri, il semble effectivement plausible que les bandes sonores diffusées par Missie Moustass soient des enregistrements authentiques plutôt que des imitations générées par IA. Car comme mentionné précédemment, les outils actuels de synthèse vocale IA ont des difficultés à reproduire parfaitement les voix dans des langues moins courantes comme le créole mauricien ou le bhojpuri, sans accent et avec toutes les nuances culturelles et linguistiques. Si les bandes sonores diffusées sont en créole mauricien ou bhojpuri, il serait très difficile pour une IA de les imiter de manière convaincante avec la technologie actuelle.

**Sur la chaîne de télévision nationale vendredi soir, on a cité l’exemple des «deepfakes» dont ont été victimes Barack Obama ou encore Emmanuel Macron pour dire qu’ici c’est la même chose. Sauf que là-bas, on a utilisé l’anglais et le français... **

Tu soulèves un point très pertinent. Comparer les cas de deepfakes qui ont visé des personnalités comme Barack Obama ou Emmanuel Macron avec la situation à Maurice n’est pas équivalent, pour plusieurs raisons, notamment les langues utilisées et le contexte technologique.

L’anglais et français sont des langues mondialement parlées avec de vastes bases de données disponibles pour entraîner des systèmes d’intelligence artificielle capables de produire des deepfakes très convaincants. Cela signifie que les technologies qui imitent les voix, comme celles utilisées pour les deepfakes vocaux, sont beaucoup plus avancées dans ces langues, car elles reposent sur de grandes quantités de données vocales.

En revanche, à Maurice, on parle le créole mauricien, le bhojpuri, et d’autres langues régionales. Comme mentionné précédemment, les outils actuels d’intelligence artificielle n’ont pas accès à des bases de données aussi riches pour ces langues. Les technologies de deepfake vocal en créole mauricien ou bhojpuri ne sont pas aussi sophistiquées et il est peu probable que des logiciels puissent reproduire ces voix avec une telle précision et sans accent.

Le fait que les enregistrements mauriciens semblent reproduire les voix dans des langues régionales comme le créole ou le bhojpuri, avec toutes leurs nuances et leurs accents particuliers, suggère que ces bandes sont plus probablement authentiques.

Merci pour toutes ces précisions. À toute.

Avec plaisir ! N’hésite pas à revenir si tu as d’autres questions. À bientôt!