Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Adieu les AirPods ? Le projet secret d’OpenAI et Jony Ive se dévoile
Selon un message publié sur X le 12 janvier 2026 par l'insider zhihuipikachu, OpenAI et Jony Ive travailleraient en priorité sur un appareil audio « inédit », visant à concurrencer les AirPods. Voici ce que l'on sait.

Adieu les AirPods ? Le projet secret d’OpenAI et Jony Ive se dévoile

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Lisa Imperatrice

13 janvier 2026 à 15:35

Selon un message publié sur X le 12 janvier 2026 par l'insider zhihuipikachu, OpenAI et Jony Ive travailleraient en priorité sur un appareil audio « inédit », visant à concurrencer les AirPods. Voici ce que l'on sait.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Votre enceinte Google Home est-elle compatible avec Gemini ? Voici la liste de la mise à jour
À partir d'octobre 2025, les enceintes et écrans connectés Google Home et Google Nest recevront progressivement une mise à jour majeure, qui remplacera Google Assistant par l'assistant Gemini. Tous les anciens modèles sont éligibles, mais il y a des différences.

Votre enceinte Google Home est-elle compatible avec Gemini ? Voici la liste de la mise à jour

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Nicolas Lellouche

1 octobre 2025 à 17:19

À partir d'octobre 2025, les enceintes et écrans connectés Google Home et Google Nest recevront progressivement une mise à jour majeure, qui remplacera Google Assistant par l'assistant Gemini. Tous les anciens modèles sont éligibles, mais il y a des différences.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Gemini arrive sur les enceintes Google Home : toutes les infos sur la fin de Google Assistant
Dans les prochains jours, Google commencera à remplacer Google Assistant par Gemini sur ses enceintes connectées. Le passage à une intelligence artificielle générative s'annonce révolutionnaire pour la maison connectée : les enceintes pourront réaliser des actions sophistiquées ou discuter avec leurs utilisateurs pendant plusieurs minutes. L'analyse des flux vidéo, pour les caméras de surveillance, va aussi s'améliorer.

Gemini arrive sur les enceintes Google Home : toutes les infos sur la fin de Google Assistant

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Nicolas Lellouche

1 octobre 2025 à 15:00

Dans les prochains jours, Google commencera à remplacer Google Assistant par Gemini sur ses enceintes connectées. Le passage à une intelligence artificielle générative s'annonce révolutionnaire pour la maison connectée : les enceintes pourront réaliser des actions sophistiquées ou discuter avec leurs utilisateurs pendant plusieurs minutes. L'analyse des flux vidéo, pour les caméras de surveillance, va aussi s'améliorer.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Vous avez une enceinte Google Home ? L’assistant vocal va changer
Google avait gardé une surprise pour sa conférence d'annonce des Pixel 10 : Gemini, son intelligence artificielle générative, va remplacer Google Assistant. Les enceintes et les téléviseurs connectés vont enfin se moderniser.

Vous avez une enceinte Google Home ? L’assistant vocal va changer

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Nicolas Lellouche

21 août 2025 à 09:48

Google avait gardé une surprise pour sa conférence d'annonce des Pixel 10 : Gemini, son intelligence artificielle générative, va remplacer Google Assistant. Les enceintes et les téléviseurs connectés vont enfin se moderniser.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
ChatGPT peut enfin transcrire un audio en texte pour résumer une réunion
OpenAI a annoncé l'arrivée d'un mode enregistrement dans ChatGPT. Disponible sur l'application macOS, ce mode est accessible aux utilisateurs payant un abonnement, depuis le 16 juillet 2025.

ChatGPT peut enfin transcrire un audio en texte pour résumer une réunion

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Nelly Lesage

17 juillet 2025 à 10:18

OpenAI a annoncé l'arrivée d'un mode enregistrement dans ChatGPT. Disponible sur l'application macOS, ce mode est accessible aux utilisateurs payant un abonnement, depuis le 16 juillet 2025.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Fin du règne de Siri ? Apple risque gros s’il ne se ressaisit pas
Apple rame avec son nouveau Siri. La réglementation européenne pourrait causer un problème supplémentaire à l'entreprise américaine et à ses ambitions dans l'IA générative si la nouvelle version de son assistant vocal n'est pas au niveau.

Fin du règne de Siri ? Apple risque gros s’il ne se ressaisit pas

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Julien Lausson

19 mai 2025 à 11:59

Apple rame avec son nouveau Siri. La réglementation européenne pourrait causer un problème supplémentaire à l'entreprise américaine et à ses ambitions dans l'IA générative si la nouvelle version de son assistant vocal n'est pas au niveau.

Opinions Libres
Decode Quantum with Wilhelm Kaenders from Toptica
Welcome to the 83rd episode of Decode Quantum, the quantum podcast where we like to get in depth in quantum science and technology. I was this time with Wilhelm Kaenders, the president and CTO of Toptica. Fanny is not there, again, she’s so busy, she’s like a minister, sometimes she has meetings that she can’t […]

Decode Quantum with Wilhelm Kaenders from Toptica

Opinions Libres

Par : Olivier Ezratty

28 avril 2025 à 11:18

Welcome to the 83rd episode of Decode Quantum, the quantum podcast where we like to get in depth in quantum science and technology. I was this time with Wilhelm Kaenders, the president and CTO of Toptica. Fanny is not there, again, she’s so busy, she’s like a minister, sometimes she has meetings that she can’t […]

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Il faut absolument essayer le nouveau mode gratuit de ChatGPT
Le mode « Voice Advanced », initialement réservé aux abonnés payants, peut désormais être utilisé par tous les utilisateurs de ChatGPT. Son raisonnement est moins poussé dans la version gratuite, mais la synthèse vocale est identique.

Il faut absolument essayer le nouveau mode gratuit de ChatGPT

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Nicolas Lellouche

26 février 2025 à 10:12

ChatGPT OpenAI

Le mode « Voice Advanced », initialement réservé aux abonnés payants, peut désormais être utilisé par tous les utilisateurs de ChatGPT. Son raisonnement est moins poussé dans la version gratuite, mais la synthèse vocale est identique.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Amazon pourrait dévoiler un nouvel Alexa le 26 février
Amazon a envoyé ce mercredi de mystérieuses invitations pour un événement ce 26 février à New-York. Rien d'officiel, mais tout porte à croire qu'elle présenterait un nouvel Alexa, fonctionnant avec la même technologie que ChatGPT, le LLM.

Amazon pourrait dévoiler un nouvel Alexa le 26 février

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Hugo Bernard

6 février 2025 à 11:26

Amazon a envoyé ce mercredi de mystérieuses invitations pour un événement ce 26 février à New-York. Rien d'officiel, mais tout porte à croire qu'elle présenterait un nouvel Alexa, fonctionnant avec la même technologie que ChatGPT, le LLM.

ActuIA
Fugatto, l’IA générative audio de NVIDIA
Les modèles text-to-audio ont fait parler d’eux avant que les modèles text-to-image ne leur volent la vedette. Les recherches pour améliorer les premiers se poursuivent, NVIDIA vient ainsi de dévoiler son “couteau suisse du son” : Fugatto (Foundational Generative Audio Transformer Opus 1). Ce modèle d’IA génère ou transforme des combinaisons de musique, de voix et de sons à partir de texte et d’audio. Entraîné sur des millions d’échantillons audio, Fugatto est un modèle de fondation qui s’appuie

Fugatto, l’IA générative audio de NVIDIA

ActuIA

Par : Pierre-yves Gerlat

27 novembre 2024 à 13:10

Les modèles text-to-audio ont fait parler d’eux avant que les modèles text-to-image ne leur volent la vedette. Les recherches pour améliorer les premiers se poursuivent, NVIDIA vient ainsi de dévoiler son “couteau suisse du son” : Fugatto (Foundational Generative Audio Transformer Opus 1). Ce modèle d’IA génère ou transforme des combinaisons de musique, de voix et de sons à partir de texte et d’audio.

Entraîné sur des millions d’échantillons audio, Fugatto est un modèle de fondation qui s’appuie sur les travaux antérieurs de ses créateurs dans des domaines tels que la modélisation de la parole, le vocodage audio et la compréhension audio. Il est le fruit d’un an de travail de cette équipe de chercheurs internationaux, ce qui a d’ailleurs permis de renforcer ses capacités multilingues. La version complète utilise 2,5 milliards de paramètres et a été entraînée sur une banque de systèmes NVIDIA DGX contenant 32 GPU NVIDIA H100 Tensor Core.

Fugatto peut non seulement générer des sons à partir de descriptions textuelles, mais aussi transformer des pistes existantes en ajoutant ou supprimant des éléments, ou encore en modifiant des caractéristiques vocales comme l’accent ou l’émotion. Il peut même permettre aux gens de produire des sons jamais entendus auparavant, comme une trompette qui aboie ou un saxophone qui miaule…

En effet, Fugatto ne se limite pas aux usages conventionnels de l’audio. Grâce à des fonctionnalités comme l’interpolation temporelle, le modèle peut générer des paysages sonores évolutifs. Par exemple, il peut créer un orage se transformant en une aube lumineuse, avec des chants d’oiseaux qui prennent progressivement le relais du tonnerre.

Le modèle utilise une technique appelée ComposableART pour combiner plusieurs instructions vues séparément pendant l’entraînement. Un utilisateur pourrait ainsi demander une voix triste avec un accent français, tout en ajustant précisément l’intensité de ces attributs. Cette capacité donne aux créateurs un contrôle artistique sans précédent, selon Rohan Badlani, chercheur en IA chez NVIDIA : ” Les résultats me donnaient l’impression d’être un artiste, même si je suis informaticien”.

Une palette d’applications potentielles

Fugatto se distingue par sa capacité à répondre à des besoins variés, dans des secteurs aussi divers que la musique, le marketing, l’éducation ou encore le jeu vidéo. Les producteurs pourront expérimenter rapidement différents styles, ajouter ou supprimer des instruments, et même générer des effets sonores inédits. Comme le souligne Ido Zmishlany, producteur multi-platine :

“L’histoire de la musique est aussi une histoire de la technologie. La guitare électrique a donné au monde le rock and roll. Quand le sampler est arrivé, le hip-hop est né. Avec l’IA, nous écrivons le prochain chapitre de la musique. Nous avons un nouvel instrument, un nouvel outil pour faire de la musique – et c’est super excitant”.

Les agences de publicité auront la possibilité d’adapter leurs campagnes en appliquant divers accents et émotions aux voix off, les développeurs de jeux vidéo de créer des ressources audio dynamiques qui s’adaptent à l’action en temps réel. Les outils d’apprentissage des langues pourraient, quant à eux, être enrichis par des voix spécifiques, comme celle d’un ami ou d’un parent.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Le nouveau ChatGPT, avec sa voix humaine, est disponible en France
Lancé en septembre 2024 en dehors de l'Union européenne, le nouveau mode « Avancé » de ChatGPT Voice permet de discuter avec un assistant vocal futuriste qui comprend les émotions, peut les imiter, accepte qu'on lui coupe la parole et peut même faire des accents ou se lancer dans un jeu de rôle. La France y a accès depuis le 22 octobre 2024.

Le nouveau ChatGPT, avec sa voix humaine, est disponible en France

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Nicolas Lellouche

22 octobre 2024 à 09:29

Lancé en septembre 2024 en dehors de l'Union européenne, le nouveau mode « Avancé » de ChatGPT Voice permet de discuter avec un assistant vocal futuriste qui comprend les émotions, peut les imiter, accepte qu'on lui coupe la parole et peut même faire des accents ou se lancer dans un jeu de rôle. La France y a accès depuis le 22 octobre 2024.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Le nouveau ChatGPT est bloqué en Europe
Plusieurs mois après l'annonce polémique d'OpenAI, le nouveau ChatGPT Voice, capable de parler, de rire et de blaguer comme un humain, est disponible pour les abonnés ChatGPT Plus. Problème : OpenAI a décidé de bloquer sa sortie dans l'Union européenne, le Royaume-Uni, la Suisse et d'autres pays européens.

Le nouveau ChatGPT est bloqué en Europe

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Nicolas Lellouche

25 septembre 2024 à 10:07

Plusieurs mois après l'annonce polémique d'OpenAI, le nouveau ChatGPT Voice, capable de parler, de rire et de blaguer comme un humain, est disponible pour les abonnés ChatGPT Plus. Problème : OpenAI a décidé de bloquer sa sortie dans l'Union européenne, le Royaume-Uni, la Suisse et d'autres pays européens.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Apple Intelligence et ChatGPT dans Siri : le réveil d’Apple dans l’IA
Apple ne proposera pas de l'intelligence artificielle, mais de l'intelligence Apple. Derrière un nom pensé pour le marketing, et pour se distinguer des autres, se trouve un net coup d'accélérateur de l'entreprise sur l'IA. Deux éléments le montrent : l'intégration de ChatGPT et la transformation de Siri.

Apple Intelligence et ChatGPT dans Siri : le réveil d’Apple dans l’IA

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Julien Lausson

10 juin 2024 à 22:54

Apple ne proposera pas de l'intelligence artificielle, mais de l'intelligence Apple. Derrière un nom pensé pour le marketing, et pour se distinguer des autres, se trouve un net coup d'accélérateur de l'entreprise sur l'IA. Deux éléments le montrent : l'intégration de ChatGPT et la transformation de Siri.

Intelligence artificielle
Le son des images #IA
Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ». Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le

Le son des images #IA

Intelligence artificielle

Par : Korben

28 mai 2024 à 15:33

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles « débruitent » des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il « suffit » d’aller sur le Github du projet et de suivre les instructions techniques.

Source

Intelligence artificielle
Vibe – Une app de transcription audio compatible macOS, Windows et Linux
Vibe est un nouvel outil open source de transcription audio multilingue qui va vous faire vibrer ! Terminé le temps où vous deviez vous contenter de sous-titres approximatifs ou attendre des plombes pour obtenir une transcription potable. Pour cela, il utilise l’IA Whisper, développé par les génies d’OpenAI et dont je vous ai parlé à maintes reprises. Ce modèle de reconnaissance vocale dernier cri est capable de transcrire un nombre ahurissant de langues avec une précision bluffante, ce qui

Vibe – Une app de transcription audio compatible macOS, Windows et Linux

Intelligence artificielle

Par : Korben

21 mai 2024 à 09:31

Vibe est un nouvel outil open source de transcription audio multilingue qui va vous faire vibrer ! Terminé le temps où vous deviez vous contenter de sous-titres approximatifs ou attendre des plombes pour obtenir une transcription potable.

Pour cela, il utilise l’IA Whisper, développé par les génies d’OpenAI et dont je vous ai parlé à maintes reprises. Ce modèle de reconnaissance vocale dernier cri est capable de transcrire un nombre ahurissant de langues avec une précision bluffante, ce qui permet de faire de Vibe une véritable solution audio polyvalente bourrée de fonctionnalités.

Vous pouvez par exemple transcrire des fichiers audio et vidéo par lots, prévisualiser le résultat en temps réel, exporter dans une flopée de formats (SRT, VTT, TXT…), et même personnaliser les modèles selon vos besoins. Il fonctionne entièrement hors ligne, donc pas de risque que vos données sensibles se retrouvent dans les griffes des GAFAM et ça tourne sous macOS, Windows et Linux. Pour cela, il vous suffit de vous rendre sur la page des releases GitHub et de télécharger la version qui correspond à votre OS.

Le support pour Apple Silicon est optimisé ce qui offre une performance accrue et pour Windows, la version 8 ou plus sera nécessaire, mais bon, je pense que vous êtes tous ou presque déjà sous Windows 10/11. Les utilisateurs Linux, quand à eux, peuvent installer Vibe via un fichier .deb, et les utilisateurs d’Arch Linux peuvent utiliser debtap pour convertir le paquet en fonction de leurs besoins.

Côté performance, c’est du gâteau puisque comme vous vous en doutiez, les ordinateurs Mac ont droit à une petite optimisation GPU qui booste les résultats. Mais même sur un vieux coucou Windows, Vibe est capable de s’adapter à vos ressources sans broncher via à ses réglages avancés. Et pour les Linuxiens, sachez que le support de l’audio système et du micro est prévu pour bientôt.

Bref, c’est à tester si vous êtes dans le business du sous-titre ou de la transcription.

Source

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Scarlett Johansson n’est pas la voix de l’assistant vocal d’OpenAI
L'entreprise a dévoilé un assistant vocal, au comportement très humain, qui a immédiatement fait penser au film Her. L'une des voix féminines proposées par OpenAI a été retirée, a annoncé l'entreprise, car elle ressemblait trop à celle de l'actrice Scarlett Johansson.

Scarlett Johansson n’est pas la voix de l’assistant vocal d’OpenAI

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Aurore Gayte

20 mai 2024 à 16:32

L'entreprise a dévoilé un assistant vocal, au comportement très humain, qui a immédiatement fait penser au film Her. L'une des voix féminines proposées par OpenAI a été retirée, a annoncé l'entreprise, car elle ressemblait trop à celle de l'actrice Scarlett Johansson.

son > texte : texte > son

Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc

7 janvier 2024 à 20:07

Vue normale

Une palette d’applications potentielles