Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierson

Deezer indique que le nombre de chansons entièrement générées par l'IA livrées à la plateforme chaque jour a doublé depuis janvier 2025, pour atteindre 20 000 titres, soit 18 % des téléchargements quotidiens

Deezer indique que le nombre de chansons entièrement générées par l'IA livrées à la plateforme chaque jour a doublé depuis janvier 2025, pour atteindre 20 000 titres, soit 18 % des téléchargements quotidiens

Le service de streaming français Deezer a indiqué dans un récent billet de blog qu'il recevait désormais quotidiennement plus de 20 000 titres entièrement générés par l'intelligence artificielle (IA), ce qui représente 18 % de son contenu téléchargé quotidiennement, soit près du double de ce...

  • ✇Intelligence artificielle
  • Podgenai – Générez des podcasts de A à Z avec l’IA
    Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ? Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil. Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script comple

Podgenai – Générez des podcasts de A à Z avec l’IA

Par : Korben
17 septembre 2024 à 09:00

Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ?

Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil.

Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script complet et structuré pour votre émission. Et pas besoin d’être un expert, puisque l’application vulgarise les concepts techniques tout en rendant ça captivant pour votre audience.

L’outil transforme donc directement le texte en audio grâce à une synthèse vocale de bonne qualité qui vous permet de choisir parmi plusieurs voix. Le son produit est clair, naturel et dynamique et vous avez également un contrôle total sur le contenu généré puisqu’il est possible d’affiner les contenus, d’ajuster la longueur de l’épisode ou encore d’insérer vos propres commentaires et anecdotes. Bref, tout ce qu’il faut pour créer un podcast unique en anglais par contre… A voir ce que ça rend sur un texte en français… y’aura peut-être un petit effet Jane Birkin.

Économie de matos, de temps et surtout c’est accessible à tous. Alors bien sûr, je pense que (pour le moment), ça ne peut pas arriver au niveau d’un vrai podcast fait par un vrai humain… mais pour produire vos propres podcast thématiques rapidement afin de défricher un sujet qui vous tient à cœur et écouter tout ça en voiture lors de votre prochain déplacement, je trouve ça plutôt cool.

Vous l’aurez compris, pour moi c’est plutôt à réserver à des fins personnelles que pour une diffusion grand publique. Mais ça n’a pas arrêté les créateurs de l’outil qui ont mis en ligne leur podcast 100% généré par IA à des fins de démo. Ça vous permettra de vous faire un avis.

Toutes les infos sont ici.

La nouvelle IA de SoftBank est capable de modifier les voix en colère des clients pour qu'ils semblent calmes au téléphone, "emotion canceling" modère les émotions des clients en temps réel

La nouvelle IA de SoftBank est capable de modifier les voix en colère des clients pour qu'ils semblent calmes au téléphone,
Cependant, si un opérateur ne peut pas savoir si un client est en colère, il risque de ne pas pouvoir réagir correctement

SoftBank Corp. a développé une technologie d'intelligence artificielle qui promet de changer la donne pour les opérateurs de centres d'appels. Cette nouvelle IA est capable de modifier les voix en colère des clients pour les rendre calmes, offrant ainsi...

Stability AI vient de dévoiler un nouveau modèle IA ouvert, Stable Audio Open, conçu pour générer de courts échantillons audio, des effets sonores et d'autres éléments audio à partir d'invites textuelles

Stability AI vient de dévoiler un nouveau modèle à poids ouvert, Stable Audio Open, conçu pour générer de courts échantillons audio, des effets sonores et d'autres éléments audio à partir d'invites textuelles.

Stability AI présente Stable Audio Open. Stable Audio Open est un modèle texte-audio open source permettant de générer jusqu'à 47 secondes d'échantillons et d'effets sonores. Les utilisateurs peuvent créer des rythmes de batterie, des riffs d'instruments, des sons ambiants, des bruitages et...

  • ✇Intelligence artificielle
  • Le son des images #IA
    Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ». Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le

Le son des images #IA

Par : Korben
28 mai 2024 à 15:33

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles « débruitent » des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il « suffit » d’aller sur le Github du projet et de suivre les instructions techniques.

Source

Le filigrane invisible SynthID de Google permettra désormais d'identifier les textes et les vidéos générés par l'IA, mais il est moins détectable lorsque le texte a été entièrement réécrit ou traduit

Le filigrane invisible SynthID de Google permettra désormais d'identifier les textes et les vidéos générés par l'IA
mais il est moins détectable lorsque le texte a été entièrement réécrit ou traduit

Google étend sa technologie de détection et de filigrane des contenus à deux nouveaux supports. La nouvelle version du système d'impression de filigrane SynthID peut désormais marquer les vidéos et les textes générés numériquement par les programmes d'IA Gemini de Google dans l'application Gemini ou...

Avec GPT-4o, OpenAI veut défier toute concurrence sur les modèles multimodaux

14 mai 2024 à 13:52
Les modèles multimodaux montent en puissance. La preuve avec OpenAI et son tout dernier modèle baptisé GPT-4o ("o" pour "omni") et capable de...

40 000 livres audio narrés par l'IA inondent Audible, la plateforme d'Amazon, divisant les auteurs et les auditeurs et suscitant des inquiétudes quant aux pertes d'emplois face à l'avancée de la technologie

40 000 livres audio narrés par l'IA inondent Audible, la plateforme d'Amazon, divisant les auteurs et les auditeurs
et suscitant des inquiétudes quant aux pertes d'emplois face à l'avancée de la technologie

L'essor des livres audio narrés par l'IA a provoqué une division entre auteurs et narrateurs, avec plus de 40 000 titres inondant Audible, la plateforme d'Amazon. Pour les auteurs indépendants, l'outil de narration virtuelle représente une opportunité lucrative sans les frais élevés des voix-off...

Une voix féminine générée par un système d'IA interprète avec un air triste le texte de la licence MIT, l'IA peut désormais produire de la musique de qualité radiophonique proche de la réalité

Une voix féminine générée par un système d'IA interprète avec un air triste le texte de la licence MIT
l'IA peut désormais produire de la musique de qualité radiophonique proche de la réalité

Suno AI est un modèle d'IA qui fait de plus en plus parler de lui grâce à ses capacités remarquables à générer des mélodies ou à créer des chansons. L'un des récents exemples qui ont interpelé la communauté est une voix féminine générée par Suno AI qui interprète avec un air triste le texte de la licence MIT....

Tutoriel Applio pour cloner une voix grâce à l'IA

Par : Korben
29 mars 2024 à 10:09

💾

Dans cette vidéo, je vous explique comment installer et utiliser l'application Applio (Sous Windows et Linux) afin de transformer une voix en une autre (clonage de voix par IA).

Merci aux Patreons pour le soutien.

★ POUR SOUTENIR LA CHAINE ★

Venez voir ce que je vous propose ici : https://patreon.com/korben

★ RETROUVEZ-MOI SUR TWITCH EN LIVE ★

Je fais également du live stream sur : https://twitch.tv/korbenfr

⚑ S'ABONNER A LA CHAINE ⚑
Si vous ne voulez pas rater les prochaines vidéos, n'hésitez pas à vous abonner, à cocher la cloche et tout le reste via http://www.youtube.com/subscription_center?add_user=Korben00

★★★ RETROUVEZ-MOI AILLEURS ★★★
Laissez un commentaire sur cette vidéo et j'essayerai d'y répondre. Ou vous pouvez également vous me retrouver sur différentes plateformes sociales :
Mon site : https://korben.info
Pour s'abonner au podcast : https://paralleles.org
Twitter : https://twitter.com/Korben
Instagram : https://www.instagram.com/korben00/
TikTok : https://www.tiktok.com/@korbeninfo
Facebook : https://www.facebook.com/ManuelDorne
La chaine YouTube Webosaures : https://www.youtube.com/channel/UCu34Tq5qMR-FiTYwLyy9U6w

✔ Liens mentionnés dans la vidéo ✔
https://docs.applio.org/

Merci d'avoir regardé, liké et/ou partagé - j'apprécie vraiment :)
Faites attention à vous

#Korben
  • ✇Intelligence artificielle
  • LocalAI – L’alternative open source puissante à OpenAI
    Aujourd’hui, j’aimerais vous présenter LocalAI, une alternative open source à OpenAI. En tout cas, c’est comme ça que le créateur du projet le présente. Il s’agit d’une solution idéale pour tous ceux qui cherchent une API REST compatible avec les spécifications de l’API OpenAI pour l’inférence locale. Grâce à LocalAI, vous pouvez exécuter des modèles linguistiques, générer des images, de l’audio et bien d’autres choses encore, localement ou sur site avec du matériel grand public, et ce, sa

LocalAI – L’alternative open source puissante à OpenAI

Par : Korben
19 mars 2024 à 09:00

Aujourd’hui, j’aimerais vous présenter LocalAI, une alternative open source à OpenAI. En tout cas, c’est comme ça que le créateur du projet le présente. Il s’agit d’une solution idéale pour tous ceux qui cherchent une API REST compatible avec les spécifications de l’API OpenAI pour l’inférence locale.

Grâce à LocalAI, vous pouvez exécuter des modèles linguistiques, générer des images, de l’audio et bien d’autres choses encore, localement ou sur site avec du matériel grand public, et ce, sans avoir besoin d’un GPU ! Le projet a pour principal objectif de rendre l’IA accessible à tous.

Pour résumer, voici les principales caractéristiques de LocalAI :

  • Une API REST locale, alternative à OpenAI. Comme ça, vous gardez bien au chaud vos propres données.
  • Pas besoin de GPU. Pas besoin d’accès internet non plus. Toutefois, l’accélération GPU est possible en option.
  • Prise en charge de plusieurs modèles.
  • Dès qu’ils sont chargés une première fois, les modèles restent en mémoire pour une inférence plus rapide.
  • N’utilise pas de shell, mais des liaisons directes pour une inférence plus rapide et de meilleures performances.

En termes de fonctionnalités, LocalAI offre une large gamme d’options, parmi lesquelles :

  • La génération de texte avec les modèles GPT (comme llama.cpp ou gpt4all.cpp).
  • La conversion de texte en audio.
  • La transcription audio en texte avec whisper.cpp.
  • La génération d’images avec Stable Diffusion.
  • Les dernières fonctionnalités d’OpenAI récemment ajoutées comme l’API Vision par exemple.
  • La génération d’embeddings pour les bases de données vectorielles.
  • Les grammaires contraintes.
  • Le téléchargement de modèles directement à partir de Huggingface.

LocalAI est bien sûr un projet communautaire donc n’hésitez pas si vous souhaitez vous impliquer !

Pour commencer rapidement avec LocalAI, vous pouvez consulter leur guide Getting Started qui décrit les différentes méthodes d’installation et les exigences matérielles ou aller consulter les guides de la communauté. Je vous ferais aussi probablement un tutoriel prochainement si mon emploi du temps me le permet.

LocalAI est disponible sous forme d’image conteneur et de binaire, compatible avec divers moteurs de conteneurs tels que Docker, Podman et Kubernetes. Les images de conteneurs sont publiées sur quay.io et Docker Hub, et les binaires peuvent être téléchargés à partir de GitHub.

Concernant les exigences matérielles, ça varie en fonction de la taille du modèle et de la méthode de quantification utilisée mais pour choper quelques repères de performance avec différents backends, comme llama.cpp, vous pouvez consulter ce lien.

Maintenant pour en savoir plus, vous pouvez explorer le site localai.io. Vous y trouverez de nombreuses informations et des exemples d’utilisation pour vous aider à tirer le meilleur parti de LocalAI.

Merci à Lorenper

Le président Joe Biden demande l'interdiction des imitations vocales par l'IA après des incidents préoccupants. Une mesure de sécurité ou une entrave à l'innovation ?

Le président Joe Biden demande l'interdiction des imitations vocales par l'IA après des incidents préoccupants.
Une mesure de sécurité ou une entrave à l'innovation ?

Dans un monde de plus en plus numérisé, la question de l'authenticité et de la sécurité des voix synthétisées par intelligence artificielle (IA) prend une importance capitale. Récemment, le président Joe Biden a abordé cette problématique lors de son discours sur l'état de l'Union, appelant à une interdiction des imitations vocales...

La terrifiante escroquerie à l'IA qui utilise la voix de votre proche pour simuler des situations de rançon, comment les cybercriminels se servent des avancées dans le clonage vocal

La terrifiante escroquerie à l'IA qui utilise la voix de votre proche pour simuler des situations de rançon,
comment les cybercriminels se servent des avancées dans le clonage vocal

Récemment, un couple de Brooklyn a vécu une expérience terrifiante lorsque des escrocs ont utilisé l'intelligence artificielle pour cloner la voix de leurs proches et simuler une situation de rançon. En pleine nuit, Robin, une femme dans la trentaine, a été réveillée par un appel de sa belle-mère, Mona, qui semblait...

BASE TTS, le plus grand modèle d'IA pour la synthèse vocale montre des capacités émergentes, conçu par les chercheurs d'Amazon, entraîné sur 100 000 heures de données vocales du domaine public

BASE TTS, le plus grand modèle d'IA pour la synthèse vocale montre des capacités émergentes, conçu par les chercheurs d'Amazon,
entraîné sur 100 000 heures de données vocales du domaine public

Les chercheurs d'Amazon ont formé le plus grand modèle d'IA de synthèse vocale jamais conçu, appelé BASE TTS, qui présente des capacités émergentes à prononcer des phrases complexes de manière naturelle. Le modèle est le plus grand de sa catégorie avec 980 millions de paramètres et utilise 100 000 heures de...

Voix du Futur: L' odyssée de Coqui AI TTS

Par : Easy AI
1 décembre 2023 à 10:22

💾

🚀 Bienvenue sur Easy Ai - L'Univers Coqui-AI ! 🌟

Salut à tous les cyber-explorateurs ! Vous êtes prêts à plonger dans le monde fascinant de l'intelligence artificielle ? Ici, sur Easy Ai, nous embarquons pour une aventure incroyable au cœur de Coqui-AI, où chaque vidéo est une nouvelle découverte !

👾 Qu'est-ce que Coqui-AI ? 🤖
Imaginez un monde où les machines peuvent parler et même raconter des histoires comme des humains. C'est exactement ce que Coqui-AI rend possible ! Ici, on explore comment cette technologie révolutionnaire transforme le monde de l'IA.

🔍 Nos Aventures Numériques

Mystères de l'IA : Suivez-nous dans nos quêtes pour dévoiler les secrets de l'IA.
Défis de Code : Des challenges et tutoriels pour vous apprendre à maîtriser Coqui-AI.
Révolutions Technologiques : Découvrez comment Coqui-AI change le jeu dans le monde de la tech.
🌍 Rejoignez la Communauté !
Vous êtes passionnés par la technologie ? Vous êtes au bon endroit ! Ici, on parle de tout ce qui est geek, cool, et IA. Posez vos questions, partagez vos idées, et devenez un champion du code avec Coqui-AI.

👍 N'oubliez pas de vous abonner !
Pour ne rien rater de nos aventures technologiques, cliquez sur le bouton "S'abonner" ! Activez la cloche 🔔 pour les notifications et plongez dans l'épopée de l'IA avec nous.

🌟 Votre Aventure Commence Maintenant !
Chaque vidéo est un pas de plus dans l'univers de Coqui-AI. Soyez curieux, soyez brillants, et surtout, amusez-vous bien !

🔥 Rejoignez-nous dans cette aventure technologique inoubliable. C'est parti pour l'aventure Coqui-AI !

Pinokio.computer: https://pinokio.computer/

GIthub : https://github.com/coqui-ai/TTS

Demo : https://huggingface.co/spaces/coqui/xtts

#ai #voise #tutorial
  • ✇ActuIA
  • BASE TTS : le modèle de synthèse vocale d’Amazon d’un milliard de paramètres
    Amazon a récemment introduit BASE TTS (Big Adaptive Streamable TTS with Emergent capabilities), le plus grand modèle de synthèse vocale à ce jour, tant en termes de paramètres que de données d’entraînement. Entraîné sur 100 000 heures de données vocales du domaine public, il produit une parole naturelle et expressive à partir de textes bruts, en s’adaptant à la voix et au style du locuteur cible. La synthèse vocale (TTS), qui consiste à produire de la parole à partir de textes, est une technolog

BASE TTS : le modèle de synthèse vocale d’Amazon d’un milliard de paramètres

16 février 2024 à 11:30

Amazon a récemment introduit BASE TTS (Big Adaptive Streamable TTS with Emergent capabilities), le plus grand modèle de synthèse vocale à ce jour, tant en termes de paramètres que de données d’entraînement. Entraîné sur 100 000 heures de données vocales du domaine public, il produit une parole naturelle et expressive à partir de textes bruts, en s’adaptant à la voix et au style du locuteur cible.

La synthèse vocale (TTS), qui consiste à produire de la parole à partir de textes, est une technologie clé pour de nombreuses applications, telles que les assistants virtuels, les livres audio, les systèmes de navigation… La qualité de la parole synthétique dépend de plusieurs facteurs, tels que la naturalité, l’expressivité, la fidélité au texte et à la voix cible, et la capacité à gérer plusieurs langues et domaines.

L’objectif des chercheurs d’Amazon était non seulement d’améliorer la qualité générale de la synthèse vocale mais également d’étudier comment la mise à l’échelle affecte la capacité du modèle à produire une prosodie (variations de ton, de rythme, d’accentuation et d’intonation) et une expression appropriées pour les entrées de texte difficiles, de la même manière que les LLM acquièrent de nouvelles capacités grâce à la mise à l’échelle des données et des paramètres, un phénomène connu sous le nom d'”émergence” ou de “capacités émergentes”.

BASE TTS repose sur un gigantesque transformateur autorégressif d’un milliard de paramètres, entraîné sur un ensemble de données vocales publiques totalisant 100 000 heures. Cette ampleur de données et de paramètres permet à BASE TTS d’atteindre un nouvel état de l’art en termes de naturalité de la parole, dépassant de loin les performances des modèles précédents.

Le transformateur permet de convertir les textes bruts en codes discrets appelés “speechcodes”, puis à les décoder de manière incrémentielle et diffusable en formes d’onde vocales. Ces speechcodes sont construits à l’aide d’une technique de tokenisation novatrice, qui comprend le désenchevêtrement et la compression de l’identifiant du locuteur avec un codage par paires d’octets. Cette approche permet à BASE TTS de capturer la richesse et la complexité de la parole humaine de manière efficace et précise.

Vue d’ensemble de BASE TTS. Le générateur de jetons vocaux (1) apprend une représentation discrète, qui est modélisée par un modèle autorégressif (2) conditionné par le texte et la parole de référence. Le décodeur speechcode (3) convertit les représentations vocales prédites en forme d’onde.

Jeu de données

Pour tester leur hypothèse selon laquelle les capacités émergent avec l’ampleur des données, ils ont constitué un ensemble de données de 100 000 heures de données vocales non étiquetées, principalement en anglais (plus de 90%), avec également des données en allemand, néerlandais et espagnol. Ces données, téléchargées depuis le Web, ont été reformatées en fichiers LPCM mono 24 kHz, sans traitement de signal supplémentaire pour tester la capacité du modèle à générer une parole claire à partir de données bruitées.

Ils ont construit plusieurs variantes de BASE TTS : La plus petite, avec 1 000 heures de données et 150 millions de paramètres, une seconde avec 10 000 hrs de données et 150 millions de paramètres et enfin la plus grande avec 100 000 heures de données et 980 millions de paramètres.

Evaluations et performances

Les chercheurs ont évalué BASE TTS sur plusieurs critères, tels que la qualité subjective de la parole, la fidélité au texte et à la voix cible, la robustesse aux textes longs et complexes, et la capacité à gérer plusieurs langues et domaines.

Ils ont construit un “test de capacités émergentes” en anglais avec 7 catégories de textes : Questions, Émotions, Noms composés, Complexités syntaxiques, Mots étrangers, Paralinguistique et Ponctuations. BASE-Medium a démontré des capacités émergentes que BASE-Large a confirmée.

Évaluations d’experts linguistes par système : BASE TTS – petit/moyen/grand. Les résultats sont présentés pour les sept tâches proposées, en calculant la moyenne des notes d’experts sur 20 phrases dans chaque catégorie.

Ils ont également comparé BASE TTS à des systèmes de synthèse vocale de grande échelle déjà accessibles au public, notamment YourTTS Casanova, Bark et TortoiseTTS. Les résultats ont démontré la supériorité de BASE TTS en termes de naturalité et d’expressivité de la parole. Cependant, en raison de l’utilisation abusive potentielle de leur modèle, ils ont décidé de ne pas l’ouvrir par mesure de précaution.

Les audios générées par le modèle peuvent être retrouvées sur https://amazon-ltts-paper.com/.

Références de l’article :

“BASE TTS: Lessons from building a billion-parameter Text-to-Speech model on 100K hours of data” arXiv :2402.08093v1 [cs. LG] 12 févr. 2024

Auteurs :

Mateusz Łajszczak, Guillermo Cámbara, Yang Li, Fatih Beyhan, Arent van Korlaar, Fan Yang, Arnaud Joly, Álvaro Martín-Cortinas, Ammar Abbas, Adam Michalski, Alexis Moinet, Sri Karlapati, Ewa Muszyńska, Haohan Guo, Bartosz Putrycz, Soledad López Gambino, Kayeon Yoo, Elena Sokolova et Thomas Drugman.

BASE TTS le modèle de synthèse vocale d'Amazon d'un milliard de paramètres

La FCC va déclarer illégales les voix générées par l'IA dans les appels automatisés, cette décision intervient après qu'un faux appel de Joe Biden a été envoyé à certains électeurs du New Hampshire

La FCC va déclarer illégales les voix générées par l'IA dans les appels automatisés, cette décision intervient après qu'un faux appel de Joe Biden a été envoyé à certains électeurs du New Hampshire.

La FCC criminalise la plupart des appels automatisés (robocalls) générés par l'IA en vertu des législations en vigueur. Cette décision intervient après qu'un faux appel téléphonique de Biden a été envoyé à certains électeurs du New Hampshire.

La Commission fédérale des communications des États-Unis (FCC)...

  • ✇Intelligence artificielle
  • Distil-Whisper – Pour faire de la reconnaissance vocale rapide
    Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français. Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, D

Distil-Whisper – Pour faire de la reconnaissance vocale rapide

Par : Korben
7 décembre 2023 à 09:00

Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français.

Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, Distil-Whisper n’a qu’un taux d’erreur de 1%, ce qui est plutôt impressionnant.

Cela est possible grâce à son algorithme fractionné, qui permet de transcrire des fichiers audio longs 9 fois plus rapidement que l’algorithme séquentiel d’OpenAI. N’ayons pas peur des mots, c’est une véritable révolution pour ceux qui ont besoin de traiter de grands volumes de données audio.

Voici l’architecture du modèle Distil-Whisper :

Actuellement, Distil-Whisper est disponible uniquement pour la reconnaissance vocale en anglais, mais avec l’évolution rapide de ce domaine, on peut s’attendre à ce que d’autres langues soient prises en charge bientôt.

Distil-Whisper est donc conçu pour remplacer Whisper en matière de reconnaissance vocale en anglais, avec cinq avantages clés : une inférence plus rapide, une meilleure robustesse au bruit, une réduction des hallucinations, une utilisation en décodage spéculatif et une licence permissive pour les applications commerciales. Ce bijou de technologie a été entraîné sur 22 000 heures de données audio pseudo-étiquetées dans 10 domaines différents et en provenance de plus de 18 000 intervenants.

Toute la doc et les exemples d’utilisation son ici.

Le futur de la reconnaissance vocale semble prometteur !

  • ✇Intelligence artificielle
  • Replay – Remixez vos MP3 en utilisant la voix d’une star grâce à l’IA
    Voilà enfin un outil accessible qui permet à partir d’un modèle IA, de changer une voix pour refaire une conversation ou une chanson par exemple. Ca s’appelle Replay, c’est gratuit, dispo sous macOS et Windows, et c’est hyper facile à utiliser. Vous enregistrez votre voix ou vous importez un MP3, puis vous choisissez un modèle parmi ceux qui sont proposé comme Freddy Mercury, Kanye West, Ariana Grande, Barack Obama ou si tout ça ne vous convient pas, vous pouvez également, vous rendrez sur

Replay – Remixez vos MP3 en utilisant la voix d’une star grâce à l’IA

Par : Korben
14 novembre 2023 à 15:59

Voilà enfin un outil accessible qui permet à partir d’un modèle IA, de changer une voix pour refaire une conversation ou une chanson par exemple.

Ca s’appelle Replay, c’est gratuit, dispo sous macOS et Windows, et c’est hyper facile à utiliser. Vous enregistrez votre voix ou vous importez un MP3, puis vous choisissez un modèle parmi ceux qui sont proposé comme Freddy Mercury, Kanye West, Ariana Grande, Barack Obama ou si tout ça ne vous convient pas, vous pouvez également, vous rendrez sur le site Weights pour y télécharger les modèles IA de la communauté.

Vous y retrouverez des truc comme la voix française de Margot Robbie, Bob l’éponge ou encore Macron et d’autres politiciens de seconde zone.

En fonction de votre machine, ça prendra plus ou moins de temps à générer. N’oubliez de régler le Pitch à -12 pour changer une voix aiguë en grave et inversement.

D’ailleurs, pour le fun, voici un petit « Pour que tu m’aimes encore » par notre Président chéri.

Amusez-vous bien !!!

  • ✇LEBIGDATA.FR
  • PodCastle : comment l’IA change la face des podcasts
    Transformer ses textes en podcasts, par l’intermédiaire de l’IA. Oui, cette approche est possible avec PodCastle. Et ce n’est pas le seul atout de cet outil révolutionnaire. Découvrez sans tarder les avantages de cette innovation importante pour les internautes. Les podcasts font désormais partie du monde d’internet. Ces contenus sont des incontournables pour partager des formations, des faits divers, ou autres. Toutefois, la conception d’un podcast est une tâche assez difficile. C’est ici qu

PodCastle : comment l’IA change la face des podcasts

Par : Rina R.
24 janvier 2024 à 09:49

Transformer ses textes en podcasts, par l’intermédiaire de l’IA. Oui, cette approche est possible avec PodCastle. Et ce n’est pas le seul atout de cet outil révolutionnaire. Découvrez sans tarder les avantages de cette innovation importante pour les internautes.

Les podcasts font désormais partie du monde d’internet. Ces contenus sont des incontournables pour partager des formations, des faits divers, ou autres. Toutefois, la conception d’un podcast est une tâche assez difficile. C’est ici que PodCastle intervient. Cet outil de traitement et d’édition est capable de transformer vos textes en podcasts professionnels. Une avancée considérable dans ce secteur très populaire.

PodCastle : qu’est-ce que c’est ?

Un outil complet, destiné à tous les utilisateurs. PodCastle est la référence pour répondre à toutes les attentes, peu importe la qualification de l’usager. Débutants, ou professionnels du podcasting, cet outil dispose de plusieurs options, destinées à tous les profils.

La conversion des textes en paroles est la première fonctionnalité de Podcastle. L’IA analyse en premier votre voix pour l’imiter dans les étapes de transformations. Ainsi, vous pourrez créer des podcasts en quelques minutes. Il n’est pas nécessaire de passer par la case micro dans certaines situations. Et n’oubliez pas qu’il est tout à fait possible d’enregistrer vos épisodes sous plusieurs langues. Une opportunité pour élargir votre audience à travers la planète.

Et ce n’est pas tout. L’outil est capable d’analyser le rendu et l’améliorer si besoin. Il sera plus facile de supprimer les bruits nuisibles, les silences, et les autres imperfections. PodCastle peut aussi rehausser la qualité audio pour développer l’immersion des auditeurs.

L’outil est accessible en ligne. Vous aurez un espace de stockage pour enregistrer tous vos contenus. Il suffit de les télécharger, et les exporter vers d’autres plateformes (Spotify, Apple Podcasts, etc.). Et comme toujours, la qualité sera au rendez-vous.

Les principales fonctionnalités de PodCastle

Importation de fichiers audio

Il est possible d’importer un fichier audio pour commencer votre familiarisation avec PodCastle. C’est l’étape la plus recommandée pour apprendre à utiliser l’outil. La plateforme prend en charge plusieurs formats (fichiers. wav. MP3. m4e, et. aiff). Vous pourrez vous baser sur vos propres enregistrements audio, ou sur d’autres types de supports sonores.

Enregistrements audio

Cette fonctionnalité nécessite un micro de bonne qualité. Ici, vous pourrez mémoriser vos propres podcasts sur PodCastle. L’IA intervient alors dans les modifications sonores, et dans l’amélioration du rendu. Le traitement se fait en quelques minutes.

Par contre, privilégiez toujours une pièce sans écho pour enregistrer votre voix. De ce fait, l’algorithme pourra perfectionner davantage la qualité de votre podcast.

Text-to-speech

C’est la fonctionnalité phare de PodCastle. C’est d’ailleurs son atout majeur sur le marché du podcasting. Grâce à une IA performante, l’outil est capable de convertir les textes en paroles. Commencez par saisir vos écrits sur un document docx ou pdf. Importez ensuite les textes sur l’interface correspondante. L’IA traitera votre requête en quelques minutes. Après cette étape, vous pourrez choisir différentes tonalités de voix pour améliorer la fluidité de la lecture.

Éditeur

Cette fonctionnalité concerne tous les types de rendus. Après les traitements, vous pourrez modifier la majorité des paramètres sur PodCastle. Volume, longueur des pistes audio, bruits de fond, ou autres. Vous pourrez aussi ajouter quelques effets sonores avec la bibliothèque de musique de PodCastle.

Ensuite, vous pourrez télécharger le résultat final et l’exporter sur votre propre ordinateur en format wav.

Cette étape ne durera que quelques instants. Par exemple, un clip de 5 minutes sera exporté en 20 secondes. Toutefois, il existe des variations en fonction de la taille du fichier, et des différentes modifications.

Focus sur les avantages de PodCastle

PodCastle

Conversion des textes en fichiers audio de qualité professionnelle

C’est la principale fonctionnalité de PodCastle. L’utilisateur peut transformer des écrits en paroles, tout en ajoutant quelques modifications. Il est possible d’ajouter des musiques, des variations de l’intonation, et même des pauses entre les lignes. L’objectif est de transporter les auditeurs vers une tout autre atmosphère. Et c’est aussi le but fondamental de tous les podcasteurs. L’IA intervient alors pour accomplir ces missions. Il peut, par exemple, proposer plusieurs variétés de voix, d’effets sonores, ou de tonalité pour répondre aux attentes de l’utilisateur.

Une conception de qualité professionnelle

Auparavant, les podcasteurs devaient utiliser un studio spécialisé pour enregistrer leurs épisodes. Certains ont même acheté des matériels sophistiqués pour respecter la qualité des contenus. Mais avec PodCastle, tous les usagers peuvent créer des podcasts de qualité professionnelle.

L’algorithme de l’outil analyse les rendus en quelques minutes. L’IA recommande ensuite des modifications pour avoir une bonne qualité sonore. L’utilisateur pourra alors supprimer les bruits de fond, ajuster les pistes audio, et même enlever quelques lignes inutiles. Bien sûr, tous ces processus n’ont aucun impact sur la qualité du podcast. Et le tout se fait en quelques clics.

Plusieurs propositions de voix pour améliorer l’expérience des auditeurs

L’utilisateur peut utiliser sa propre voix pour illustrer ses podcasts. Mais il existe aussi plusieurs alternatives, selon le contenu. En effet, PodCastle propose différents types de voix en fonction de vos besoins. Par exemple, si vous voulez lire un livre audio qui relate les contes fantastiques, vous pourrez choisir une voix douce pour l’animer. Il sera alors plus facile d’ajouter une dose d’émotion, et de réalisme avec l’IA.

Concernant les paysages sonores 

Avec l’avancée de la haute technologie, les musiques de fond ne suffisent plus pour attirer l’attention des auditeurs. Il faut des paysages sonores adaptés au contexte. Les bruissements de feuilles, les échos, les sonorités du vent, les gouttes d’eau, etc. Ces environnements immersifs font partie de PodCastle. Ainsi, l’auditeur ne se contentera pas d’une simple lecture. Il sera transporté dans une autre ambiance avec votre podcast.

La communauté PodCastle, un atout pour les débutants

La création de podcasts est la principale mission de l’outil. Mais vous pourrez aussi rejoindre une communauté de passionnés pour améliorer votre expérience. En effet, la majorité des utilisateurs publient leurs contenus sur le site. Les professionnels avec l’IA de la plateforme peuvent ainsi perfectionner leurs podcasts. Les débutants peuvent s’en inspirer pour faciliter leur familiarisation avec PodCastle.

Cette communauté est un atout majeur pour les internautes. Ces derniers peuvent écouter les créations des podcasteurs les plus célèbres. C’est un peu la même fonctionnalité qu’Apple Podcasts, ou la plateforme de Chrome. Toutefois, PodCastle propose des contenus immersifs pour améliorer l’expérience des lecteurs.

Et les inconvénients ?

PodCastle est un outil révolutionnaire pour tous les utilisateurs. Cependant, il nécessite toujours quelques ajustements pour répondre aux moindres attentes des usagers. La plateforme requiert une connexion internet dans la majorité des cas. Cette situation est assez préoccupante en cas de coupure. Néanmoins, il est encore possible de profiter de quelques fonctionnalités de base, même sans accès à internet.

Par ailleurs, l’IA de synthèse vocale a peu de variétés, surtout dans certaines langues. La fluidité de la lecture, ainsi que l’immersion seront impactées par cette situation. Les utilisateurs attendent une amélioration d’ici quelques semaines.

Les tarifications de PodCastle

Les utilisateurs auront accès à une offre gratuite sur le site de PodCastle. Vous pourrez profiter de la fonctionnalité d’enregistrement audio. Après la conception, vous pourrez modifier le rendu à votre guise. Par ailleurs, vous pourrez collaborer avec la communauté de PodCastle.

Cette offre vous donne accès à 3 heures d’enregistrement vidéo. Si cette option ne vous suffit pas, vous pourrez souscrire aux différentes offres d’abonnements payants.

PodCastle

Storyteller

C’est la première offre d’abonnement payant de PodCastle. Ici, vous profiterez d’un rendu digne des studios d’enregistrement. De plus, l’IA peut intervenir durant les montages et l’amélioration de la qualité audio. Vous bénéficierez aussi de 8 heures d’enregistrement vidéo, ainsi que d’un accès illimité à la bibliothèque d’effets sonores du site.

10 heures de transcription, ainsi que 8 heures de synthèse vocale seront à votre portée. Et les téléchargements n’impactent pas la qualité des rendus.

Cet abonnement coûte 10,90 euros mensuels (11,90 dollars) ou 131,84 euros annuels (143,90 dollars).

Pro

L’offre est destinée aux professionnels. En effet, l’abonnement Pro couvre les attentes des entreprises. Il est possible de cloner une voix avec l’IA Revoice. Cette fonctionnalité ouvre la porte à plusieurs éventualités, surtout pour les firmes qui œuvrent dans le digital.

L’IA peut aussi détecter et supprimer les mots de remplissage. Elle sera alors un atout pour améliorer la qualité des écrits, et du podcast tout entier. Et si vous voulez ajouter un résumé à la fin de votre épisode, vous pourrez compter sur l’IA. L’algorithme va analyser le contenu pour en tirer les parties les plus importantes.

En plus de ces avantages, vous aurez :

  • 20 heures d’enregistrement vidéo
  • 25 heures de transcription, avec l’aide de l’IA
  • 20 heures d’accès à AI Voices
  • Un accès prioritaire aux services clients

Le prix est fixé à 21,90 euros par mois (23,90 dollars) ou 263,77 euros annuels (287,90 dollars). À noter que ces tarifs sont destinés à un seul créateur.

Entreprise

C’est le plan de référence pour les grandes entreprises. L’offre prend en compte tous les avantages de l’abonnement Pro. Toutefois, vous aurez accès à des privilèges supplémentaires :

Cet article PodCastle : comment l’IA change la face des podcasts a été publié sur LEBIGDATA.FR.

  • ✇ActuIA
  • Volkswagen intègre ChatGPT à son assistant vocal IDA
    Depuis des années, les grands groupes automobiles ont recours à l’IA pour équiper leurs véhicules de systèmes avancés d’aide à la conduite (ADAS). Plus récemment, ils ont introduit des assistants vocaux pour optimiser l’expérience des conducteurs. Dans le cadre d’un partenariat technologique avec Cerence, Volkswagen s’apprête à intégrer ChatGPT à IDA, ce qui permettra d’apporter des réponses précises et pertinentes à pratiquement toutes les questions des conducteurs et des passagers, renforçant

Volkswagen intègre ChatGPT à son assistant vocal IDA

24 janvier 2024 à 13:30

Depuis des années, les grands groupes automobiles ont recours à l’IA pour équiper leurs véhicules de systèmes avancés d’aide à la conduite (ADAS). Plus récemment, ils ont introduit des assistants vocaux pour optimiser l’expérience des conducteurs. Dans le cadre d’un partenariat technologique avec Cerence, Volkswagen s’apprête à intégrer ChatGPT à IDA, ce qui permettra d’apporter des réponses précises et pertinentes à pratiquement toutes les questions des conducteurs et des passagers, renforçant ainsi l’interaction intelligente au sein de ses véhicules.

Les assistants vocaux sont conçus pour offrir une expérience mains libres, améliorer la sécurité au volant et faciliter l’accès aux informations et aux fonctionnalités du véhicule. Ils peuvent régler la température des sièges chauffants, le volume de la radio, ou dégivrer les vitres, permettre de passer des appels téléphoniques mais manquent de compétences conversationnelles.

Ce partenariat avec Cerence, un fournisseur de solutions de mobilité basées sur l’IA, va permettre à Volkswagen d’exploiter “Cerence Chat Pro” afin d’augmenter son assistant vocal IDA. Le système, utilisant une multitude de sources, y compris ChatGPT, représente, selon Cerence, le moyen le plus rapide et le plus simple pour les constructeurs automobiles d’intégrer ChatGPT dans leurs plateformes d’assistant embarqué, offrant une flexibilité totale, une personnalisation étendue et un effort d’intégration minimal. Volkswagen sera le premier constructeur automobile à le déployer via des mises à jour cloud sur les véhicules existants, et ceci dès le prochain trimestre.

Il sera disponible dans les modèles Tiguan, Passat et la prochaine Golf, ainsi que dans la famille de véhicules électriques ID du constructeur. Grâce à sa compréhension du langage naturel et à la reconnaissance vocale, le système lorsque le conducteur ou l’un des ses passagers dira “j’ai froid”, augmentera la température dans la zone où il se trouve.

Volkswagen et Cerence prévoient de poursuivre leur collaboration pour concevoir une nouvelle expérience utilisateur alimentée par un LLM servant de base à l’assistant embarqué de nouvelle génération. Cette expérience utilisateur unique combinera la voix et le toucher, permettant aux utilisateurs d’effectuer des tâches dans différentes applications dans un seul fil de conversation pour une expérience de conduite plus sûre et plus agréable. Le système s’appuiera sur le LLM de Cerence, destiné à l’automobile, affiné avec le vaste ensemble de données automobiles de Volkswagen.

Si Volkswagen est le premier à exploiter Cerence Chat Pro, d’autres constructeurs intègrent déjà ChatGPT dans leur système d’infodivertissement, notamment la marque française DS Automobile.

Volkswagen intègre ChatGPT à son assistant vocal IDA

Un syndicat de musiciens de Hollywood menace de déclencher une grève générale si ses membres n'obtiennent pas des protections contre l'IA et des droits résiduels pour le streaming

Un syndicat de musiciens de Hollywood menace de déclencher une grève générale si ses membres n'obtiennent pas des protections contre l'IA
et des droits résiduels pour le streaming

Hollywood a connu une année 2023 tumultueuse sanctionnée par des grèves à grande échelle des acteurs et des scénaristes qui protestaient contre la manière dont l'IA est utilisée dans leur secteur d'activité. Alors que le calme semblait revenir progressivement, une nouvelle grève pourrait se profiler à l'horizon. L'American...

Suno AI (service de génération de musique en ligne)

et son GPT https://chat.openai.com/g/g-Lz3N6FlSV-sunorizotor
Tuto de la  chaine Johan : https://www.youtube.com/watch?v=oMjODwIMQCU

# Et aussi (via YT defekator)
Beatoven : https://www.beatoven.ai/ ( son, musique )
AlVA : https://aiva.ai/ (musique)

--> Il est trop tard pour sauver l’industrie musicale.
https://www.youtube.com/watch?v=wo8diBNPKog

# Et aussi
https://mikrotakt.app/ : Séparer la voix, l'acapelle, l'accompagnement, la basse, la batterie ou divers instruments de n'importe quel fichier de chansons ou de vidéos.
https://korben.info/remixez-vos-mp3-avec-voix-star-grace-ia.html   permet à partir d’un modèle IA, de changer une voix pour refaire une conversation ou une chanson par exemple.


Voir aussi les actus IA son
Actu RSS IA Son : https://actu.azqs.com/geeknik/p/i/?a=normal&get=t_11
Play list : https://www.youtube.com/playlist?list=PLdGGI4cYr7lyaF06TpwNZr1C94frFBA0H
https://www.youtube.com/playlist?list=PLdGGI4cYr7lxqh2DmXkCYLFC13J7Bupal
Vieux Truc : https://www.pearltrees.com/t/tmp-travail-collectif/tts-text-to-speech/id32740981
(Permalink)
❌
❌