Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Adieu les AirPods ? Le projet secret d’OpenAI et Jony Ive se dévoile

Selon un message publié sur X le 12 janvier 2026 par l'insider zhihuipikachu, OpenAI et Jony Ive travailleraient en priorité sur un appareil audio « inédit », visant à concurrencer les AirPods. Voici ce que l'on sait.

Gemini arrive sur les enceintes Google Home : toutes les infos sur la fin de Google Assistant

Dans les prochains jours, Google commencera à remplacer Google Assistant par Gemini sur ses enceintes connectées. Le passage à une intelligence artificielle générative s'annonce révolutionnaire pour la maison connectée : les enceintes pourront réaliser des actions sophistiquées ou discuter avec leurs utilisateurs pendant plusieurs minutes. L'analyse des flux vidéo, pour les caméras de surveillance, va aussi s'améliorer.

ChatGPT peut enfin transcrire un audio en texte pour résumer une réunion

OpenAI a annoncé l'arrivée d'un mode enregistrement dans ChatGPT. Disponible sur l'application macOS, ce mode est accessible aux utilisateurs payant un abonnement, depuis le 16 juillet 2025.

  • ✇Opinions Libres
  • Decode Quantum with Wilhelm Kaenders from Toptica
    Welcome to the 83rd episode of Decode Quantum, the quantum podcast where we like to get in depth in quantum science and technology. I was this time with Wilhelm Kaenders, the president and CTO of Toptica. Fanny is not there, again, she’s so busy, she’s like a minister, sometimes she has meetings that she can’t […]

Decode Quantum with Wilhelm Kaenders from Toptica

28 avril 2025 à 11:18
Welcome to the 83rd episode of Decode Quantum, the quantum podcast where we like to get in depth in quantum science and technology. I was this time with Wilhelm Kaenders, the president and CTO of Toptica. Fanny is not there, again, she’s so busy, she’s like a minister, sometimes she has meetings that she can’t […]

Il faut absolument essayer le nouveau mode gratuit de ChatGPT

ChatGPT OpenAI

Le mode « Voice Advanced », initialement réservé aux abonnés payants, peut désormais être utilisé par tous les utilisateurs de ChatGPT. Son raisonnement est moins poussé dans la version gratuite, mais la synthèse vocale est identique.

Amazon pourrait dévoiler un nouvel Alexa le 26 février

Amazon a envoyé ce mercredi de mystérieuses invitations pour un événement ce 26 février à New-York. Rien d'officiel, mais tout porte à croire qu'elle présenterait un nouvel Alexa, fonctionnant avec la même technologie que ChatGPT, le LLM.

  • ✇ActuIA
  • Fugatto, l’IA générative audio de NVIDIA
    Les modèles text-to-audio ont fait parler d’eux avant que les modèles text-to-image ne leur volent la vedette. Les recherches pour améliorer les premiers se poursuivent, NVIDIA vient ainsi de dévoiler son “couteau suisse du son” : Fugatto (Foundational Generative Audio Transformer Opus 1). Ce modèle d’IA génère ou transforme des combinaisons de musique, de voix et de sons à partir de texte et d’audio. Entraîné sur des millions d’échantillons audio, Fugatto est un modèle de fondation qui s’appuie

Fugatto, l’IA générative audio de NVIDIA

27 novembre 2024 à 13:10

Les modèles text-to-audio ont fait parler d’eux avant que les modèles text-to-image ne leur volent la vedette. Les recherches pour améliorer les premiers se poursuivent, NVIDIA vient ainsi de dévoiler son “couteau suisse du son” : Fugatto (Foundational Generative Audio Transformer Opus 1). Ce modèle d’IA génère ou transforme des combinaisons de musique, de voix et de sons à partir de texte et d’audio.

Entraîné sur des millions d’échantillons audio, Fugatto est un modèle de fondation qui s’appuie sur les travaux antérieurs de ses créateurs dans des domaines tels que la modélisation de la parole, le vocodage audio et la compréhension audio. Il est le fruit d’un an de travail de cette équipe de chercheurs internationaux, ce qui a d’ailleurs permis de renforcer ses capacités multilingues. La version complète utilise 2,5 milliards de paramètres et a été entraînée sur une banque de systèmes NVIDIA DGX contenant 32 GPU NVIDIA H100 Tensor Core.

Fugatto peut non seulement générer des sons à partir de descriptions textuelles, mais aussi transformer des pistes existantes en ajoutant ou supprimant des éléments, ou encore en modifiant des caractéristiques vocales comme l’accent ou l’émotion. Il peut même permettre aux gens de produire des sons jamais entendus auparavant, comme une trompette qui aboie ou un saxophone qui miaule…

En effet, Fugatto ne se limite pas aux usages conventionnels de l’audio. Grâce à des fonctionnalités comme l’interpolation temporelle, le modèle peut générer des paysages sonores évolutifs. Par exemple, il peut créer un orage se transformant en une aube lumineuse, avec des chants d’oiseaux qui prennent progressivement le relais du tonnerre.

Le modèle utilise une technique appelée ComposableART pour combiner plusieurs instructions vues séparément pendant l’entraînement. Un utilisateur pourrait ainsi demander une voix triste avec un accent français, tout en ajustant précisément l’intensité de ces attributs. Cette capacité donne aux créateurs un contrôle artistique sans précédent, selon Rohan Badlani, chercheur en IA chez NVIDIA : ” Les résultats me donnaient l’impression d’être un artiste, même si je suis informaticien”.

Une palette d’applications potentielles

Fugatto se distingue par sa capacité à répondre à des besoins variés, dans des secteurs aussi divers que la musique, le marketing, l’éducation ou encore le jeu vidéo. Les producteurs pourront expérimenter rapidement différents styles, ajouter ou supprimer des instruments, et même générer des effets sonores inédits. Comme le souligne Ido Zmishlany, producteur multi-platine :

“L’histoire de la musique est aussi une histoire de la technologie. La guitare électrique a donné au monde le rock and roll. Quand le sampler est arrivé, le hip-hop est né. Avec l’IA, nous écrivons le prochain chapitre de la musique. Nous avons un nouvel instrument, un nouvel outil pour faire de la musique – et c’est super excitant”.

Les agences de publicité auront la possibilité d’adapter leurs campagnes en appliquant divers accents et émotions aux voix off, les développeurs de jeux vidéo de créer des ressources audio dynamiques qui s’adaptent à l’action en temps réel. Les outils d’apprentissage des langues pourraient, quant à eux, être enrichis par des voix spécifiques, comme celle d’un ami ou d’un parent.

fugatto-nvidia

Le nouveau ChatGPT, avec sa voix humaine, est disponible en France

Lancé en septembre 2024 en dehors de l'Union européenne, le nouveau mode « Avancé » de ChatGPT Voice permet de discuter avec un assistant vocal futuriste qui comprend les émotions, peut les imiter, accepte qu'on lui coupe la parole et peut même faire des accents ou se lancer dans un jeu de rôle. La France y a accès depuis le 22 octobre 2024.

Le nouveau ChatGPT est bloqué en Europe

Plusieurs mois après l'annonce polémique d'OpenAI, le nouveau ChatGPT Voice, capable de parler, de rire et de blaguer comme un humain, est disponible pour les abonnés ChatGPT Plus. Problème : OpenAI a décidé de bloquer sa sortie dans l'Union européenne, le Royaume-Uni, la Suisse et d'autres pays européens.

Apple Intelligence et ChatGPT dans Siri : le réveil d’Apple dans l’IA

Apple ne proposera pas de l'intelligence artificielle, mais de l'intelligence Apple. Derrière un nom pensé pour le marketing, et pour se distinguer des autres, se trouve un net coup d'accélérateur de l'entreprise sur l'IA. Deux éléments le montrent : l'intégration de ChatGPT et la transformation de Siri.

  • ✇Intelligence artificielle
  • Le son des images #IA
    Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ». Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le

Le son des images #IA

Par : Korben
28 mai 2024 à 15:33

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles « débruitent » des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il « suffit » d’aller sur le Github du projet et de suivre les instructions techniques.

Source

  • ✇Intelligence artificielle
  • Vibe – Une app de transcription audio compatible macOS, Windows et Linux
    Vibe est un nouvel outil open source de transcription audio multilingue qui va vous faire vibrer ! Terminé le temps où vous deviez vous contenter de sous-titres approximatifs ou attendre des plombes pour obtenir une transcription potable. Pour cela, il utilise l’IA Whisper, développé par les génies d’OpenAI et dont je vous ai parlé à maintes reprises. Ce modèle de reconnaissance vocale dernier cri est capable de transcrire un nombre ahurissant de langues avec une précision bluffante, ce qui

Vibe – Une app de transcription audio compatible macOS, Windows et Linux

Par : Korben
21 mai 2024 à 09:31

Vibe est un nouvel outil open source de transcription audio multilingue qui va vous faire vibrer ! Terminé le temps où vous deviez vous contenter de sous-titres approximatifs ou attendre des plombes pour obtenir une transcription potable.

Pour cela, il utilise l’IA Whisper, développé par les génies d’OpenAI et dont je vous ai parlé à maintes reprises. Ce modèle de reconnaissance vocale dernier cri est capable de transcrire un nombre ahurissant de langues avec une précision bluffante, ce qui permet de faire de Vibe une véritable solution audio polyvalente bourrée de fonctionnalités.

Vous pouvez par exemple transcrire des fichiers audio et vidéo par lots, prévisualiser le résultat en temps réel, exporter dans une flopée de formats (SRT, VTT, TXT…), et même personnaliser les modèles selon vos besoins. Il fonctionne entièrement hors ligne, donc pas de risque que vos données sensibles se retrouvent dans les griffes des GAFAM et ça tourne sous macOS, Windows et Linux. Pour cela, il vous suffit de vous rendre sur la page des releases GitHub et de télécharger la version qui correspond à votre OS.

Le support pour Apple Silicon est optimisé ce qui offre une performance accrue et pour Windows, la version 8 ou plus sera nécessaire, mais bon, je pense que vous êtes tous ou presque déjà sous Windows 10/11. Les utilisateurs Linux, quand à eux, peuvent installer Vibe via un fichier .deb, et les utilisateurs d’Arch Linux peuvent utiliser debtap pour convertir le paquet en fonction de leurs besoins.

Côté performance, c’est du gâteau puisque comme vous vous en doutiez, les ordinateurs Mac ont droit à une petite optimisation GPU qui booste les résultats. Mais même sur un vieux coucou Windows, Vibe est capable de s’adapter à vos ressources sans broncher via à ses réglages avancés. Et pour les Linuxiens, sachez que le support de l’audio système et du micro est prévu pour bientôt.

Bref, c’est à tester si vous êtes dans le business du sous-titre ou de la transcription.

Source

Scarlett Johansson n’est pas la voix de l’assistant vocal d’OpenAI

L'entreprise a dévoilé un assistant vocal, au comportement très humain, qui a immédiatement fait penser au film Her. L'une des voix féminines proposées par OpenAI a été retirée, a annoncé l'entreprise, car elle ressemblait trop à celle de l'actrice Scarlett Johansson.

❌
❌