Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal
  • ✇ActuIA
  • OpenAI partage un aperçu de Voice Engine, un modèle de clonage vocal
    OpenAI a récemment dévoilé Voice Engine, un modèle qui peut reproduire la voix d’un orateur à partir d’une invite textuelle et d’un échantillon audio de 15 secondes. Selon la start-up, il peut générer des voix émotives et réalistes mais, consciente des dangers d’usurpation d’identité, elle préfère ne pas le déployer à grande échelle pour l’instant. OpenAI travaille au développement de Voice Engine depuis fin 2022, c’est à dire depuis le lancement de ChatGPT. Le modèle alimente d’ailleurs les voi

OpenAI partage un aperçu de Voice Engine, un modèle de clonage vocal

2 avril 2024 à 13:00

OpenAI a récemment dévoilé Voice Engine, un modèle qui peut reproduire la voix d’un orateur à partir d’une invite textuelle et d’un échantillon audio de 15 secondes. Selon la start-up, il peut générer des voix émotives et réalistes mais, consciente des dangers d’usurpation d’identité, elle préfère ne pas le déployer à grande échelle pour l’instant.

OpenAI travaille au développement de Voice Engine depuis fin 2022, c’est à dire depuis le lancement de ChatGPT. Le modèle alimente d’ailleurs les voix prédéfinies de son API de synthèse vocale ainsi que ChatGPT Voice et Read Aloud.

La start-up avait annoncé en septembre dernier le chat vocal et que la plateforme de streaming Spotify utilisait sa nouvelle technologie de génération de voix pour traduire les podcasts.

Un déploiement responsable

Pour appréhender les utilisations potentielles de Voice Engine, OpenAI a débuté des tests en privé avec un petit groupe de partenaires de confiance. Parmi les applications initiales du modèle, la start-up cite l’aide à la lecture aux non-lecteurs et aux enfants. Age of Learning, une entreprise de technologie éducative, l’utilise ainsi pour générer du contenu de voix off pré-scénarisé et des réponses personnalisées en temps réel pour interagir avec les élèves.

La plateforme HeyGen utilise Voice Engine pour traduire des contenus tels que des vidéos et des podcasts, ce qui lui permet de toucher un public mondial, Dimagi pour améliorer la prestation de services essentiels dans les régions éloignées en fournissant des conseils et des informations dans la langue principale de chaque communauté. Voice Engine permet également aux utilisateurs de Livox, une application de communication alternative basée sur l’IA, de choisir la voix qui les représente le mieux et de maintenir une cohérence dans chaque langue parlée.

Le modèle a été d’autre part utilisé dans un contexte clinique pour restaurer la voix d’une patiente atteinte d’une tumeur vasculaire au cerveau à L’Institut des neurosciences Norman Prince.

Malgré ces cas d’utilisations bénéfiques pour la société, OpenAI adopte une approche prudente pour un déploiement plus large en raison du risque potentiel de mauvaise utilisation des voix synthétiques.

La société déclare dans son communiqué :

“Nous reconnaissons que la production d’un discours qui ressemble à la voix des gens comporte de graves risques, qui sont particulièrement importants en cette année électorale. Nous collaborons avec des partenaires américains et internationaux issus du gouvernement, des médias, du divertissement, de l’éducation, de la société civile et au-delà pour nous assurer que nous intégrons leurs commentaires au fur et à mesure que nous construisons”.

OpenAI, qui a travaillé à sécuriser ChatGPT et DALL-E 3 à l’approche des élections américaines et mondiales, assure avoir également mis en place un ensemble de mesures de sécurité pour Voice Engine telles que le tatouage numérique et une surveillance proactive de l’utilisation du modèle.

Les partenaires de confiance qui testent Voice Engine ont accepté les politiques d’utilisation strictes de la start-up pour éviter l’usurpation d’identité. Si un consentement explicite des locuteurs originaux leur est exigé, ils se doivent également d’être transparents et informer leur public que les voix entendues ont été générées par l’IA.

La société conclut :

“Sur la base des résultats de nos tests à petite échelle, nous prendrons une décision plus éclairée quant à savoir si et comment déployer cette technologie à grande échelle”.

OpenAI-partage-Voice-Engine-modele-clonage-vocal
  • ✇ActuIA
  • BASE TTS : le modèle de synthèse vocale d’Amazon d’un milliard de paramètres
    Amazon a récemment introduit BASE TTS (Big Adaptive Streamable TTS with Emergent capabilities), le plus grand modèle de synthèse vocale à ce jour, tant en termes de paramètres que de données d’entraînement. Entraîné sur 100 000 heures de données vocales du domaine public, il produit une parole naturelle et expressive à partir de textes bruts, en s’adaptant à la voix et au style du locuteur cible. La synthèse vocale (TTS), qui consiste à produire de la parole à partir de textes, est une technolog

BASE TTS : le modèle de synthèse vocale d’Amazon d’un milliard de paramètres

16 février 2024 à 11:30

Amazon a récemment introduit BASE TTS (Big Adaptive Streamable TTS with Emergent capabilities), le plus grand modèle de synthèse vocale à ce jour, tant en termes de paramètres que de données d’entraînement. Entraîné sur 100 000 heures de données vocales du domaine public, il produit une parole naturelle et expressive à partir de textes bruts, en s’adaptant à la voix et au style du locuteur cible.

La synthèse vocale (TTS), qui consiste à produire de la parole à partir de textes, est une technologie clé pour de nombreuses applications, telles que les assistants virtuels, les livres audio, les systèmes de navigation… La qualité de la parole synthétique dépend de plusieurs facteurs, tels que la naturalité, l’expressivité, la fidélité au texte et à la voix cible, et la capacité à gérer plusieurs langues et domaines.

L’objectif des chercheurs d’Amazon était non seulement d’améliorer la qualité générale de la synthèse vocale mais également d’étudier comment la mise à l’échelle affecte la capacité du modèle à produire une prosodie (variations de ton, de rythme, d’accentuation et d’intonation) et une expression appropriées pour les entrées de texte difficiles, de la même manière que les LLM acquièrent de nouvelles capacités grâce à la mise à l’échelle des données et des paramètres, un phénomène connu sous le nom d'”émergence” ou de “capacités émergentes”.

BASE TTS repose sur un gigantesque transformateur autorégressif d’un milliard de paramètres, entraîné sur un ensemble de données vocales publiques totalisant 100 000 heures. Cette ampleur de données et de paramètres permet à BASE TTS d’atteindre un nouvel état de l’art en termes de naturalité de la parole, dépassant de loin les performances des modèles précédents.

Le transformateur permet de convertir les textes bruts en codes discrets appelés “speechcodes”, puis à les décoder de manière incrémentielle et diffusable en formes d’onde vocales. Ces speechcodes sont construits à l’aide d’une technique de tokenisation novatrice, qui comprend le désenchevêtrement et la compression de l’identifiant du locuteur avec un codage par paires d’octets. Cette approche permet à BASE TTS de capturer la richesse et la complexité de la parole humaine de manière efficace et précise.

Vue d’ensemble de BASE TTS. Le générateur de jetons vocaux (1) apprend une représentation discrète, qui est modélisée par un modèle autorégressif (2) conditionné par le texte et la parole de référence. Le décodeur speechcode (3) convertit les représentations vocales prédites en forme d’onde.

Jeu de données

Pour tester leur hypothèse selon laquelle les capacités émergent avec l’ampleur des données, ils ont constitué un ensemble de données de 100 000 heures de données vocales non étiquetées, principalement en anglais (plus de 90%), avec également des données en allemand, néerlandais et espagnol. Ces données, téléchargées depuis le Web, ont été reformatées en fichiers LPCM mono 24 kHz, sans traitement de signal supplémentaire pour tester la capacité du modèle à générer une parole claire à partir de données bruitées.

Ils ont construit plusieurs variantes de BASE TTS : La plus petite, avec 1 000 heures de données et 150 millions de paramètres, une seconde avec 10 000 hrs de données et 150 millions de paramètres et enfin la plus grande avec 100 000 heures de données et 980 millions de paramètres.

Evaluations et performances

Les chercheurs ont évalué BASE TTS sur plusieurs critères, tels que la qualité subjective de la parole, la fidélité au texte et à la voix cible, la robustesse aux textes longs et complexes, et la capacité à gérer plusieurs langues et domaines.

Ils ont construit un “test de capacités émergentes” en anglais avec 7 catégories de textes : Questions, Émotions, Noms composés, Complexités syntaxiques, Mots étrangers, Paralinguistique et Ponctuations. BASE-Medium a démontré des capacités émergentes que BASE-Large a confirmée.

Évaluations d’experts linguistes par système : BASE TTS – petit/moyen/grand. Les résultats sont présentés pour les sept tâches proposées, en calculant la moyenne des notes d’experts sur 20 phrases dans chaque catégorie.

Ils ont également comparé BASE TTS à des systèmes de synthèse vocale de grande échelle déjà accessibles au public, notamment YourTTS Casanova, Bark et TortoiseTTS. Les résultats ont démontré la supériorité de BASE TTS en termes de naturalité et d’expressivité de la parole. Cependant, en raison de l’utilisation abusive potentielle de leur modèle, ils ont décidé de ne pas l’ouvrir par mesure de précaution.

Les audios générées par le modèle peuvent être retrouvées sur https://amazon-ltts-paper.com/.

Références de l’article :

“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data” arXiv :2402.08093v1 [cs. LG] 12 févr. 2024

Auteurs :

Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova et Thomas Drugman.

BASE TTS le modèle de synthèse vocale d'Amazon d'un milliard de paramètres
❌
❌