Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

À partir d’avant-hierson

ActuIA
BASE TTS : le modèle de synthèse vocale d’Amazon d’un milliard de paramètres
Amazon a récemment introduit BASE TTS (Big Adaptive Streamable TTS with Emergent capabilities), le plus grand modèle de synthèse vocale à ce jour, tant en termes de paramètres que de données d’entraînement. Entraîné sur 100 000 heures de données vocales du domaine public, il produit une parole naturelle et expressive à partir de textes bruts, en s’adaptant à la voix et au style du locuteur cible. La synthèse vocale (TTS), qui consiste à produire de la parole à partir de textes, est une technolog

BASE TTS : le modèle de synthèse vocale d’Amazon d’un milliard de paramètres

ActuIA

Par : Marie-Claude Benoit

16 février 2024 à 11:30

Amazon a récemment introduit BASE TTS (Big Adaptive Streamable TTS with Emergent capabilities), le plus grand modèle de synthèse vocale à ce jour, tant en termes de paramètres que de données d’entraînement. Entraîné sur 100 000 heures de données vocales du domaine public, il produit une parole naturelle et expressive à partir de textes bruts, en s’adaptant à la voix et au style du locuteur cible.

La synthèse vocale (TTS), qui consiste à produire de la parole à partir de textes, est une technologie clé pour de nombreuses applications, telles que les assistants virtuels, les livres audio, les systèmes de navigation… La qualité de la parole synthétique dépend de plusieurs facteurs, tels que la naturalité, l’expressivité, la fidélité au texte et à la voix cible, et la capacité à gérer plusieurs langues et domaines.

L’objectif des chercheurs d’Amazon était non seulement d’améliorer la qualité générale de la synthèse vocale mais également d’étudier comment la mise à l’échelle affecte la capacité du modèle à produire une prosodie (variations de ton, de rythme, d’accentuation et d’intonation) et une expression appropriées pour les entrées de texte difficiles, de la même manière que les LLM acquièrent de nouvelles capacités grâce à la mise à l’échelle des données et des paramètres, un phénomène connu sous le nom d'”émergence” ou de “capacités émergentes”.

BASE TTS repose sur un gigantesque transformateur autorégressif d’un milliard de paramètres, entraîné sur un ensemble de données vocales publiques totalisant 100 000 heures. Cette ampleur de données et de paramètres permet à BASE TTS d’atteindre un nouvel état de l’art en termes de naturalité de la parole, dépassant de loin les performances des modèles précédents.

Le transformateur permet de convertir les textes bruts en codes discrets appelés “speechcodes”, puis à les décoder de manière incrémentielle et diffusable en formes d’onde vocales. Ces speechcodes sont construits à l’aide d’une technique de tokenisation novatrice, qui comprend le désenchevêtrement et la compression de l’identifiant du locuteur avec un codage par paires d’octets. Cette approche permet à BASE TTS de capturer la richesse et la complexité de la parole humaine de manière efficace et précise.

Vue d’ensemble de BASE TTS. Le générateur de jetons vocaux (1) apprend une représentation discrète, qui est modélisée par un modèle autorégressif (2) conditionné par le texte et la parole de référence. Le décodeur speechcode (3) convertit les représentations vocales prédites en forme d’onde.

Jeu de données

Pour tester leur hypothèse selon laquelle les capacités émergent avec l’ampleur des données, ils ont constitué un ensemble de données de 100 000 heures de données vocales non étiquetées, principalement en anglais (plus de 90%), avec également des données en allemand, néerlandais et espagnol. Ces données, téléchargées depuis le Web, ont été reformatées en fichiers LPCM mono 24 kHz, sans traitement de signal supplémentaire pour tester la capacité du modèle à générer une parole claire à partir de données bruitées.

Ils ont construit plusieurs variantes de BASE TTS : La plus petite, avec 1 000 heures de données et 150 millions de paramètres, une seconde avec 10 000 hrs de données et 150 millions de paramètres et enfin la plus grande avec 100 000 heures de données et 980 millions de paramètres.

Evaluations et performances

Les chercheurs ont évalué BASE TTS sur plusieurs critères, tels que la qualité subjective de la parole, la fidélité au texte et à la voix cible, la robustesse aux textes longs et complexes, et la capacité à gérer plusieurs langues et domaines.

Ils ont construit un “test de capacités émergentes” en anglais avec 7 catégories de textes : Questions, Émotions, Noms composés, Complexités syntaxiques, Mots étrangers, Paralinguistique et Ponctuations. BASE-Medium a démontré des capacités émergentes que BASE-Large a confirmée.

Évaluations d’experts linguistes par système : BASE TTS – petit/moyen/grand. Les résultats sont présentés pour les sept tâches proposées, en calculant la moyenne des notes d’experts sur 20 phrases dans chaque catégorie.

Ils ont également comparé BASE TTS à des systèmes de synthèse vocale de grande échelle déjà accessibles au public, notamment YourTTS Casanova, Bark et TortoiseTTS. Les résultats ont démontré la supériorité de BASE TTS en termes de naturalité et d’expressivité de la parole. Cependant, en raison de l’utilisation abusive potentielle de leur modèle, ils ont décidé de ne pas l’ouvrir par mesure de précaution.

Les audios générées par le modèle peuvent être retrouvées sur https://amazon-ltts-paper.com/.

Références de l’article :

“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data” arXiv :2402.08093v1 [cs. LG] 12 févr. 2024

Auteurs :

Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova et Thomas Drugman.

BASE TTS le modèle de synthèse vocale d'Amazon d'un milliard de paramètres

ActuIA
Volkswagen intègre ChatGPT à son assistant vocal IDA
Depuis des années, les grands groupes automobiles ont recours à l’IA pour équiper leurs véhicules de systèmes avancés d’aide à la conduite (ADAS). Plus récemment, ils ont introduit des assistants vocaux pour optimiser l’expérience des conducteurs. Dans le cadre d’un partenariat technologique avec Cerence, Volkswagen s’apprête à intégrer ChatGPT à IDA, ce qui permettra d’apporter des réponses précises et pertinentes à pratiquement toutes les questions des conducteurs et des passagers, renforçant

Volkswagen intègre ChatGPT à son assistant vocal IDA

ActuIA

Par : Marie-Claude Benoit

24 janvier 2024 à 13:30

Depuis des années, les grands groupes automobiles ont recours à l’IA pour équiper leurs véhicules de systèmes avancés d’aide à la conduite (ADAS). Plus récemment, ils ont introduit des assistants vocaux pour optimiser l’expérience des conducteurs. Dans le cadre d’un partenariat technologique avec Cerence, Volkswagen s’apprête à intégrer ChatGPT à IDA, ce qui permettra d’apporter des réponses précises et pertinentes à pratiquement toutes les questions des conducteurs et des passagers, renforçant ainsi l’interaction intelligente au sein de ses véhicules.

Les assistants vocaux sont conçus pour offrir une expérience mains libres, améliorer la sécurité au volant et faciliter l’accès aux informations et aux fonctionnalités du véhicule. Ils peuvent régler la température des sièges chauffants, le volume de la radio, ou dégivrer les vitres, permettre de passer des appels téléphoniques mais manquent de compétences conversationnelles.

Ce partenariat avec Cerence, un fournisseur de solutions de mobilité basées sur l’IA, va permettre à Volkswagen d’exploiter “Cerence Chat Pro” afin d’augmenter son assistant vocal IDA. Le système, utilisant une multitude de sources, y compris ChatGPT, représente, selon Cerence, le moyen le plus rapide et le plus simple pour les constructeurs automobiles d’intégrer ChatGPT dans leurs plateformes d’assistant embarqué, offrant une flexibilité totale, une personnalisation étendue et un effort d’intégration minimal. Volkswagen sera le premier constructeur automobile à le déployer via des mises à jour cloud sur les véhicules existants, et ceci dès le prochain trimestre.

Il sera disponible dans les modèles Tiguan, Passat et la prochaine Golf, ainsi que dans la famille de véhicules électriques ID du constructeur. Grâce à sa compréhension du langage naturel et à la reconnaissance vocale, le système lorsque le conducteur ou l’un des ses passagers dira “j’ai froid”, augmentera la température dans la zone où il se trouve.

Volkswagen et Cerence prévoient de poursuivre leur collaboration pour concevoir une nouvelle expérience utilisateur alimentée par un LLM servant de base à l’assistant embarqué de nouvelle génération. Cette expérience utilisateur unique combinera la voix et le toucher, permettant aux utilisateurs d’effectuer des tâches dans différentes applications dans un seul fil de conversation pour une expérience de conduite plus sûre et plus agréable. Le système s’appuiera sur le LLM de Cerence, destiné à l’automobile, affiné avec le vaste ensemble de données automobiles de Volkswagen.

Si Volkswagen est le premier à exploiter Cerence Chat Pro, d’autres constructeurs intègrent déjà ChatGPT dans leur système d’infodivertissement, notamment la marque française DS Automobile.