Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

À partir d’avant-hierFlux principal

ActuIA
Kyutai dévoile Hibiki : une avancée majeure dans la traduction vocale simultanée
Hier, lors de la conférence scientifique internationale qui s’est tenue à l’Institut Polytechnique de Paris dans le cadre de la Semaine pour l’Action sur l’IA, Patrick Perez, Directeur général de Kyutai, a présenté Hibiki, un modèle de traduction vocale simultanée. Ce système se distingue par sa capacité à préserver la voix du locuteur tout en adaptant son rythme au contenu sémantique du discours source, offrant ainsi une traduction orale et écrite en temps réel. C’est à Station F, lors de la co

Kyutai dévoile Hibiki : une avancée majeure dans la traduction vocale simultanée

ActuIA

Par : Marie-Claude Benoit

7 février 2025 à 11:00

Hier, lors de la conférence scientifique internationale qui s’est tenue à l’Institut Polytechnique de Paris dans le cadre de la Semaine pour l’Action sur l’IA, Patrick Perez, Directeur général de Kyutai, a présenté Hibiki, un modèle de traduction vocale simultanée. Ce système se distingue par sa capacité à préserver la voix du locuteur tout en adaptant son rythme au contenu sémantique du discours source, offrant ainsi une traduction orale et écrite en temps réel.

C’est à Station F, lors de la conférence AI Pulse, organisée par Scaleway, filiale de l’entreprise Iliad fondée par Xavier Niel, que Kyutai a été lancé le 17 novembre 2023 en présence de son équipe scientifique et de ses trois co-fondateurs : Xavier Niel, Rodolphe Saadé, fils du fondateur du groupe CMA CGM dont il assure la direction, et Eric Schmidt, ex-PDG de Google. Ce laboratoire d’initiative privée à but non-lucratif a été financé à hauteur de 300 millions d’euros, 100 millions d’euros d’Iliad, 100 du groupe CMA CGM et les 100 derniers restants via Schmidt Futures, l’entreprise philanthropique cofondée par Eric Schmidt et sa femme Wendy.

Entièrement dédié à la recherche ouverte en IA, Kyutai s’est donné pour objectif de développer des LLMs pour s’attaquer “aux défis de l’IA moderne” et activer une IA européenne souveraine pour le bien commun, et ce, en s’appuyant sur la puissance de calcul de Scaleway, filiale dédiée aux activités cloud du Groupe Iliad. Le laboratoire, qui a pour conseiller scientifique Yann LeCun, compte actuellement une quinzaine de collaborateurs.

Après avoir présenté en juillet 2024 Moshi, la 1ère IA vocale open source, basée sur son LLM Helium 7B, Kyutai a donné un aperçu le 13 janvier dernier d’Helium-1, une version allégée comptant environ 2 milliards de paramètres. Conçue pour fonctionner efficacement sur des appareils mobiles et des environnements à ressources limitées, cette version préliminaire prend actuellement en charge six langues européennes : français, allemand, anglais, espagnol, italien et portugais. Le laboratoire prévoit de le publier dans les mois à venir.

Hibiki, un modèle de traduction vocale simultanée

Seulement six mois après la sortie de Moshi, Kyutai dévoile Hibiki (écho, en japonais). Le modèle, qui a été entraîné sur des données publiques pour traduire du français vers l’anglais, dépasse selon lui sur cette tâche l’état de l’art actuel, en termes de qualité de traduction, de fidélité vocale du locuteur et de naturel.

De plus, la simplicité de son processus d’inférence lui permet la traduction groupée pour un déploiement efficace dans le cloud, ainsi que pour une utilisation en temps réel sur mobile.

Fidèle à son engagement envers l’open source, le laboratoire met à disposition les codes d’inférence, les poids du modèle français-anglais et un rapport technique détaillé, concluant :

“Les chercheurs et la communauté de l’IA pourront ainsi reprendre Hibiki dans leurs projets, et l’étendre à d’autres langues. Il s’agit d’une nouvelle étape pour les technologies de la voix : elle ouvre des opportunités extraordinaires en matière de communication et d’accessibilité.”

Kyutai dévoile Hibiki : une avancée majeure dans la traduction vocale simultanée

ActuIA
DeepL lance sa première solution de traduction vocale en temps réel, DeepL Voice
DeepL, l’un des leaders mondiaux de l’IA linguistique, a dévoilé hier lors de sa conférence DeepL Dialogues à Berlin, sa première solution de traduction vocale en temps réel : DeepL Voice. Disponible en deux déclinaisons, DeepL Voice pour réunions et DeepL Voice pour conversations, elle vise à rendre les échanges professionnels plus fluides, en réduisant les barrières linguistiques pour des entreprises évoluant dans un contexte globalisé. Fondée en 2017 par Jaroslaw (Jarek) Kutylowski, son direc

DeepL lance sa première solution de traduction vocale en temps réel, DeepL Voice

ActuIA

Par : Thomas Calvi

14 novembre 2024 à 12:00

DeepL, l’un des leaders mondiaux de l’IA linguistique, a dévoilé hier lors de sa conférence DeepL Dialogues à Berlin, sa première solution de traduction vocale en temps réel : DeepL Voice. Disponible en deux déclinaisons, DeepL Voice pour réunions et DeepL Voice pour conversations, elle vise à rendre les échanges professionnels plus fluides, en réduisant les barrières linguistiques pour des entreprises évoluant dans un contexte globalisé.

Fondée en 2017 par Jaroslaw (Jarek) Kutylowski, son directeur général, la licorne allemande DeepL, s’est donnée la mission d’affranchir de la barrière de la langue les entreprises du monde entier. Plus de 100 000 entreprises et gouvernements et des millions de particuliers sur 228 marchés internationaux font déjà confiance aux traductions, aussi bien de contenus écrits que de conversations orales, de la plateforme d’IA linguistique de DeepL et à son assistant de rédaction, DeepL Write.

En mai dernier, DeepL a levé 300 millions de dollars, valorisant à 2 milliards l’entreprise qui a intégré la liste Cloud 100 de Forbes.

Conçues pour répondre aux besoins de sécurité des entreprises, les solutions basées sur cette IA permettent à celles-ci de changer leur façon de communiquer, de se lancer sur de nouveaux marchés et d’optimiser leur productivité.

Jarek Kutylowski explique :

“En tant qu’entreprise, la traduction vocale en temps réel avec la qualité et la sécurité éprouvées de DeepL était notre prochain défi. Nous sommes heureux de pouvoir enfin dévoiler aujourd’hui nos premiers produits. Pour y parvenir, nous nous sommes appuyés sur l’expertise et les modèles que nous avons développés depuis notre création en 2017, et avons travaillé en étroite collaboration avec des clients dans le cadre d’un programme bêta afin de proposer une solution adaptée aux défis quotidiens des entreprise”.

Soulignant :

“DeepL est déjà leader dans la traduction de contenus écrits, mais la traduction de la parole en temps réel pose de tout autres défis : informations incomplètes, problèmes de prononciation et latence sont quelques-uns des facteurs qui peuvent entraîner des traductions inexactes et une mauvaise expérience utilisateur. Ces mêmes éléments peuvent conduire à des malentendus dans les interactions personnelles. Nous avons donc conçu une solution qui en tient compte dès le départ et qui permet aux entreprises de dépasser la barrière de la langue en leur donnant la possibilité de communiquer dans plusieurs langues, selon leurs besoins”.

Une réponse aux défis de la communication multilingue en entreprise

Avec DeepL Voice, l’entreprise fait sa première incursion dans le secteur de la traduction vocale. La sécurité et la qualité de traduction de pointe qui ont fait sa réputation sont également au cœur de ses deux nouveaux produits.

DeepL Voice pour réunions

Cette solution permet à tous les participants de s’exprimer dans la langue de leur choix, tandis que leurs contributions sont traduites en temps réel et affichées sous forme de sous-titres aux autres. Les membres d’une même équipe peuvent ainsi échanger dans leur langue maternelle, pour une communication plus claire et dynamique que jamais.

DeepL Voice pour conversations

Disponible sur appareils mobiles, la solution facilite les échanges multilingues avec les clients, entre employés, en face-à-face, grâce à des sous-titres. L’outil propose deux modes de visualisation pratiques pour que chaque personne puisse suivre les traductions facilement sur un seul appareil.

DeepL Voice prend d’ores et déjà en charge les langues parlées suivantes (d’autres seront ajoutées par la suite) : anglais, allemand, japonais, coréen, suédois, néerlandais, français, turc, polonais, portugais, russe, espagnol et italien, avec des sous-titres traduits disponibles dans les 33 langues prises en charge par DeepL Translator.