Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ?
Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil.
Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script comple
Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ?
Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil.
Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script complet et structuré pour votre émission. Et pas besoin d’être un expert, puisque l’application vulgarise les concepts techniques tout en rendant ça captivant pour votre audience.
L’outil transforme donc directement le texte en audio grâce à une synthèse vocale de bonne qualité qui vous permet de choisir parmi plusieurs voix. Le son produit est clair, naturel et dynamique et vous avez également un contrôle total sur le contenu généré puisqu’il est possible d’affiner les contenus, d’ajuster la longueur de l’épisode ou encore d’insérer vos propres commentaires et anecdotes. Bref, tout ce qu’il faut pour créer un podcast unique en anglais par contre… A voir ce que ça rend sur un texte en français… y’aura peut-être un petit effet Jane Birkin.
Économie de matos, de temps et surtout c’est accessible à tous. Alors bien sûr, je pense que (pour le moment), ça ne peut pas arriver au niveau d’un vrai podcast fait par un vrai humain… mais pour produire vos propres podcast thématiques rapidement afin de défricher un sujet qui vous tient à cœur et écouter tout ça en voiture lors de votre prochain déplacement, je trouve ça plutôt cool.
Vous l’aurez compris, pour moi c’est plutôt à réserver à des fins personnelles que pour une diffusion grand publique. Mais ça n’a pas arrêté les créateurs de l’outil qui ont mis en ligne leur podcast 100% généré par IA à des fins de démo. Ça vous permettra de vous faire un avis.
C’est à l’IRCAM (Institut de Recherche et Coordination Acoustique/Musique) que Kyutai a présenté ce mercredi 3 juillet, un peu moins de huit mois après son lancement, le prototype expérimental de son premier modèle d’IA générative doté de capacités vocales, à l’instar de GPT-4o : Moshi (Moshi-moshi signifie allo en japonais), qui a été entraîné à partir d’enregistrements d’appels passés entre 1994 et 2002 aux Etats-Unis.
C’est à Station F, lors de la conférence AI Pulse, organisée par Scaleway,
C’est à l’IRCAM (Institut de Recherche et Coordination Acoustique/Musique) que Kyutai a présenté ce mercredi 3 juillet, un peu moins de huit mois après son lancement, le prototype expérimental de son premier modèle d’IA générative doté de capacités vocales, à l’instar de GPT-4o : Moshi (Moshi-moshi signifie allo en japonais), qui a été entraîné à partir d’enregistrements d’appels passés entre 1994 et 2002 aux Etats-Unis.
C’est à Station F, lors de la conférence AI Pulse, organisée par Scaleway, filiale de l’entreprise Iliad fondée par Xavier Niel, que Kyutaia été lancé le 17 novembre dernier en présence de son équipe scientifique et de ses trois co-fondateurs : Xavier Niel, Rodolphe Saadé, fils du fondateur du groupe CMA CGM dont il assure la direction, et Eric Schmidt. Financé à hauteur de 300 millions d’euros, 100 millions d’euros d’Iliad, 100 du groupe CMA CGM et les 100 derniers restants via Schmidt Futures, l’entreprise philanthropique cofondée par Eric Schmidt et sa femme Wendy.
Ce laboratoire d’initiative privée à but non-lucratif, entièrement dédié à la recherche ouverte en IA, s’est donné pour objectif de développer des LLM pour s’attaquer “aux défis de l’IA moderne” en s’appuyant sur la puissance de calcul superpod Nabu 23 de Scaleway.
Moshi, la 1ère IA vocale accessible à tous
Il est désormais possible de communiquer de manière fluide, naturelle et expressive avec une IA. En seulement 6 mois, avec une équipe de 8 personnes, Kyutai a développé un modèle d’IA multimodal doté de capacités avancées de synthèse vocale et de reconnaissance des émotions.
Moshi a tout d’abord été entraîné avec le LLM Helium 7B puis avec un mix de données textuelles et audio. Pour lui apprendre à tenir une conversation, les chercheurs l’ont affiné avec des données synthétiques de dialogues. Ils ont travaillé avec une artiste nommée Alice pour la voix, les monologues ou dialogues ont permis d’entraîner le modèle text-to-speech à reconnaître 70 émotions. Moshi est donc capable d’adapter son ton, chuchoter, hésiter, faire des plaisanteries, prendre un accent. Son temps de latence est de seulement 160 millisecondes (contre 232 ms au minimum pour GPT-4o), ce qui donne vraiment l’impression de converser en temps réel.
Compact, Moshi peut également être installé localement et fonctionner en toute sécurité sur un appareil non connecté.
Pendant la présentation, l’équipe de Kyutai a interagi avec Moshi pour illustrer son potentiel en tant que coach ou compagnon, par exemple, et sa créativité à travers l’incarnation de personnages dans des jeux de rôle.
À la fin de la présentation, les participants – chercheurs, développeurs, entrepreneurs, investisseurs et journalistes – ont eux-mêmes pu interagir avec Moshi. Si vous désirez le faire vous aussi, il suffit pour vous inscrire sur la liste d’attente de remplir votre adresse mail, les conversations sont toutefois limitées à 5 mns.
Avec Moshi, Kyutai vise à soutenir la recherche ouverte en IA et à favoriser le développement de l’ensemble de l’écosystème. Le code et les poids des modèles seront bientôt accessibles librement, une première pour ce type de technologie. Ils seront utiles tant aux chercheurs qu’aux développeurs travaillant sur des produits et services basés sur la voix. Cette technologie pourra être examinée en détail, modifiée, étendue ou spécialisée selon les besoins. La communauté pourra enrichir la base de connaissances et la factualité de Moshi, actuellement délibérément restreintes dans un modèle aussi léger, tout en exploitant ses capacités d’interaction vocale exceptionnelles.
Kyutai présente Moshi la première IA vocale générative open source
OpenAI a récemment dévoilé Voice Engine, un modèle qui peut reproduire la voix d’un orateur à partir d’une invite textuelle et d’un échantillon audio de 15 secondes. Selon la start-up, il peut générer des voix émotives et réalistes mais, consciente des dangers d’usurpation d’identité, elle préfère ne pas le déployer à grande échelle pour l’instant.
OpenAI travaille au développement de Voice Engine depuis fin 2022, c’est à dire depuis le lancement de ChatGPT. Le modèle alimente d’ailleurs les voi
OpenAI a récemment dévoilé Voice Engine, un modèle qui peut reproduire la voix d’un orateur à partir d’une invite textuelle et d’un échantillon audio de 15 secondes. Selon la start-up, il peut générer des voix émotives et réalistes mais, consciente des dangers d’usurpation d’identité, elle préfère ne pas le déployer à grande échelle pour l’instant.
OpenAI travaille au développement de Voice Engine depuis fin 2022, c’est à dire depuis le lancement de ChatGPT. Le modèle alimente d’ailleurs les voix prédéfinies de son API de synthèse vocale ainsi que ChatGPT Voice et Read Aloud.
La start-up avait annoncé en septembre dernier le chat vocal et que la plateforme de streaming Spotify utilisait sa nouvelle technologie de génération de voix pour traduire les podcasts.
Un déploiement responsable
Pour appréhender les utilisations potentielles de Voice Engine, OpenAI a débuté des tests en privé avec un petit groupe de partenaires de confiance. Parmi les applications initiales du modèle, la start-up cite l’aide à la lecture aux non-lecteurs et aux enfants. Age of Learning, une entreprise de technologie éducative, l’utilise ainsi pour générer du contenu de voix off pré-scénarisé et des réponses personnalisées en temps réel pour interagir avec les élèves.
La plateforme HeyGen utilise Voice Engine pour traduire des contenus tels que des vidéos et des podcasts, ce qui lui permet de toucher un public mondial, Dimagi pour améliorer la prestation de services essentiels dans les régions éloignées en fournissant des conseils et des informations dans la langue principale de chaque communauté. Voice Engine permet également aux utilisateurs de Livox, une application de communication alternative basée sur l’IA, de choisir la voix qui les représente le mieux et de maintenir une cohérence dans chaque langue parlée.
Le modèle a été d’autre part utilisé dans un contexte clinique pour restaurer la voix d’une patiente atteinte d’une tumeur vasculaire au cerveau à L’Institut des neurosciences Norman Prince.
Malgré ces cas d’utilisations bénéfiques pour la société, OpenAI adopte une approche prudente pour un déploiement plus large en raison du risque potentiel de mauvaise utilisation des voix synthétiques.
La société déclare dans son communiqué :
“Nous reconnaissons que la production d’un discours qui ressemble à la voix des gens comporte de graves risques, qui sont particulièrement importants en cette année électorale. Nous collaborons avec des partenaires américains et internationaux issus du gouvernement, des médias, du divertissement, de l’éducation, de la société civile et au-delà pour nous assurer que nous intégrons leurs commentaires au fur et à mesure que nous construisons”.
OpenAI, qui a travaillé à sécuriser ChatGPT et DALL-E 3 à l’approche des élections américaines et mondiales, assure avoir également mis en place un ensemble de mesures de sécurité pour Voice Engine telles que le tatouage numérique et une surveillance proactive de l’utilisation du modèle.
Les partenaires de confiance qui testent Voice Engine ont accepté les politiques d’utilisation strictes de la start-up pour éviter l’usurpation d’identité. Si un consentement explicite des locuteurs originaux leur est exigé, ils se doivent également d’être transparents et informer leur public que les voix entendues ont été générées par l’IA.
La société conclut :
“Sur la base des résultats de nos tests à petite échelle, nous prendrons une décision plus éclairée quant à savoir si et comment déployer cette technologie à grande échelle”.
Amazon a récemment introduit BASE TTS (Big Adaptive Streamable TTS with Emergent capabilities), le plus grand modèle de synthèse vocale à ce jour, tant en termes de paramètres que de données d’entraînement. Entraîné sur 100 000 heures de données vocales du domaine public, il produit une parole naturelle et expressive à partir de textes bruts, en s’adaptant à la voix et au style du locuteur cible.
La synthèse vocale (TTS), qui consiste à produire de la parole à partir de textes, est une technolog
Amazon a récemment introduit BASE TTS (Big Adaptive Streamable TTS with Emergent capabilities), le plus grand modèle de synthèse vocale à ce jour, tant en termes de paramètres que de données d’entraînement. Entraîné sur 100 000 heures de données vocales du domaine public, il produit une parole naturelle et expressive à partir de textes bruts, en s’adaptant à la voix et au style du locuteur cible.
La synthèse vocale (TTS), qui consiste à produire de la parole à partir de textes, est une technologie clé pour de nombreuses applications, telles que les assistants virtuels, les livres audio, les systèmes de navigation… La qualité de la parole synthétique dépend de plusieurs facteurs, tels que la naturalité, l’expressivité, la fidélité au texte et à la voix cible, et la capacité à gérer plusieurs langues et domaines.
L’objectif des chercheurs d’Amazon était non seulement d’améliorer la qualité générale de la synthèse vocale mais également d’étudier comment la mise à l’échelle affecte la capacité du modèle à produire une prosodie (variations de ton, de rythme, d’accentuation et d’intonation) et une expression appropriées pour les entrées de texte difficiles, de la même manière que les LLM acquièrent de nouvelles capacités grâce à la mise à l’échelle des données et des paramètres, un phénomène connu sous le nom d'”émergence” ou de “capacités émergentes”.
BASE TTS repose sur un gigantesque transformateur autorégressif d’un milliard de paramètres, entraîné sur un ensemble de données vocales publiques totalisant 100 000 heures. Cette ampleur de données et de paramètres permet à BASE TTS d’atteindre un nouvel état de l’art en termes de naturalité de la parole, dépassant de loin les performances des modèles précédents.
Le transformateur permet de convertir les textes bruts en codes discrets appelés “speechcodes”, puis à les décoder de manière incrémentielle et diffusable en formes d’onde vocales. Ces speechcodes sont construits à l’aide d’une technique de tokenisation novatrice, qui comprend le désenchevêtrement et la compression de l’identifiant du locuteur avec un codage par paires d’octets. Cette approche permet à BASE TTS de capturer la richesse et la complexité de la parole humaine de manière efficace et précise.
Vue d’ensemble de BASE TTS. Le générateur de jetons vocaux (1) apprend une représentation discrète, qui est modélisée par un modèle autorégressif (2) conditionné par le texte et la parole de référence. Le décodeur speechcode (3) convertit les représentations vocales prédites en forme d’onde.
Jeu de données
Pour tester leur hypothèse selon laquelle les capacités émergent avec l’ampleur des données, ils ont constitué un ensemble de données de 100 000 heures de données vocales non étiquetées, principalement en anglais (plus de 90%), avec également des données en allemand, néerlandais et espagnol. Ces données, téléchargées depuis le Web, ont été reformatées en fichiers LPCM mono 24 kHz, sans traitement de signal supplémentaire pour tester la capacité du modèle à générer une parole claire à partir de données bruitées.
Ils ont construit plusieurs variantes de BASE TTS : La plus petite, avec 1 000 heures de données et 150 millions de paramètres, une seconde avec 10 000 hrs de données et 150 millions de paramètres et enfin la plus grande avec 100 000 heures de données et 980 millions de paramètres.
Evaluations et performances
Les chercheurs ont évalué BASE TTS sur plusieurs critères, tels que la qualité subjective de la parole, la fidélité au texte et à la voix cible, la robustesse aux textes longs et complexes, et la capacité à gérer plusieurs langues et domaines.
Ils ont construit un “test de capacités émergentes” en anglais avec 7 catégories de textes : Questions, Émotions, Noms composés, Complexités syntaxiques, Mots étrangers, Paralinguistique et Ponctuations. BASE-Medium a démontré des capacités émergentes que BASE-Large a confirmée.
Évaluations d’experts linguistes par système : BASE TTS – petit/moyen/grand. Les résultats sont présentés pour les sept tâches proposées, en calculant la moyenne des notes d’experts sur 20 phrases dans chaque catégorie.
Ils ont également comparé BASE TTS à des systèmes de synthèse vocale de grande échelle déjà accessibles au public, notamment YourTTS Casanova, Bark et TortoiseTTS. Les résultats ont démontré la supériorité de BASE TTS en termes de naturalité et d’expressivité de la parole. Cependant, en raison de l’utilisation abusive potentielle de leur modèle, ils ont décidé de ne pas l’ouvrir par mesure de précaution.
Les audios générées par le modèle peuvent être retrouvées sur https://amazon-ltts-paper.com/.
Références de l’article :
“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data” arXiv :2402.08093v1 [cs. LG] 12 févr. 2024
Auteurs :
Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova et Thomas Drugman.
BASE TTS le modèle de synthèse vocale d'Amazon d'un milliard de paramètres