Intelligence artificielle
Podgenai – Générez des podcasts de A à Z avec l’IA
Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ? Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil. Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script comple

Podgenai – Générez des podcasts de A à Z avec l’IA

Par : Korben

17 septembre 2024 à 09:00

Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ?

Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil.

Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script complet et structuré pour votre émission. Et pas besoin d’être un expert, puisque l’application vulgarise les concepts techniques tout en rendant ça captivant pour votre audience.

L’outil transforme donc directement le texte en audio grâce à une synthèse vocale de bonne qualité qui vous permet de choisir parmi plusieurs voix. Le son produit est clair, naturel et dynamique et vous avez également un contrôle total sur le contenu généré puisqu’il est possible d’affiner les contenus, d’ajuster la longueur de l’épisode ou encore d’insérer vos propres commentaires et anecdotes. Bref, tout ce qu’il faut pour créer un podcast unique en anglais par contre… A voir ce que ça rend sur un texte en français… y’aura peut-être un petit effet Jane Birkin.

Économie de matos, de temps et surtout c’est accessible à tous. Alors bien sûr, je pense que (pour le moment), ça ne peut pas arriver au niveau d’un vrai podcast fait par un vrai humain… mais pour produire vos propres podcast thématiques rapidement afin de défricher un sujet qui vous tient à cœur et écouter tout ça en voiture lors de votre prochain déplacement, je trouve ça plutôt cool.

Vous l’aurez compris, pour moi c’est plutôt à réserver à des fins personnelles que pour une diffusion grand publique. Mais ça n’a pas arrêté les créateurs de l’outil qui ont mis en ligne leur podcast 100% généré par IA à des fins de démo. Ça vous permettra de vous faire un avis.

Toutes les infos sont ici.

Intelligence artificielle
Le son des images #IA
Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ». Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le

Le son des images #IA

Intelligence artificielle

Par : Korben

28 mai 2024 à 15:33

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles « débruitent » des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il « suffit » d’aller sur le Github du projet et de suivre les instructions techniques.

Source

Tutoriel Applio pour cloner une voix grâce à l'IA

Korben

Par : Korben

29 mars 2024 à 10:09

Tutoriel Applio pour cloner une voix grâce à l'IA — Dans cette vidéo, je vous explique comment installer et utiliser l'application Applio (Sous Windows et Linux) afin de transformer une voix en une autre (clonage de voix par IA).

Merci aux Patreons pour le soutien.

★ POUR SOUTENIR LA CHAINE ★

Venez voir ce que je vous propose ici : https://patreon.com/korben

★ RETROUVEZ-MOI SUR TWITCH EN LIVE ★

Je fais également du live stream sur : https://twitch.tv/korbenfr

⚑ S'ABONNER A LA CHAINE ⚑
Si vous ne voulez pas rater les prochaines vidéos, n'hésitez pas à vous abonner, à cocher la cloche et tout le reste via http://www.youtube.com/subscription_center?add_user=Korben00

★★★ RETROUVEZ-MOI AILLEURS ★★★
Laissez un commentaire sur cette vidéo et j'essayerai d'y répondre. Ou vous pouvez également vous me retrouver sur différentes plateformes sociales :
Mon site : https://korben.info
Pour s'abonner au podcast : https://paralleles.org
Twitter : https://twitter.com/Korben
Instagram : https://www.instagram.com/korben00/
TikTok : https://www.tiktok.com/@korbeninfo
Facebook : https://www.facebook.com/ManuelDorne
La chaine YouTube Webosaures : https://www.youtube.com/channel/UCu34Tq5qMR-FiTYwLyy9U6w

✔ Liens mentionnés dans la vidéo ✔
https://docs.applio.org/

Merci d'avoir regardé, liké et/ou partagé - j'apprécie vraiment :)
Faites attention à vous

#Korben

Intelligence artificielle
LocalAI – L’alternative open source puissante à OpenAI
Aujourd’hui, j’aimerais vous présenter LocalAI, une alternative open source à OpenAI. En tout cas, c’est comme ça que le créateur du projet le présente. Il s’agit d’une solution idéale pour tous ceux qui cherchent une API REST compatible avec les spécifications de l’API OpenAI pour l’inférence locale. Grâce à LocalAI, vous pouvez exécuter des modèles linguistiques, générer des images, de l’audio et bien d’autres choses encore, localement ou sur site avec du matériel grand public, et ce, sa

LocalAI – L’alternative open source puissante à OpenAI

Intelligence artificielle

Par : Korben

19 mars 2024 à 09:00

Aujourd’hui, j’aimerais vous présenter LocalAI, une alternative open source à OpenAI. En tout cas, c’est comme ça que le créateur du projet le présente. Il s’agit d’une solution idéale pour tous ceux qui cherchent une API REST compatible avec les spécifications de l’API OpenAI pour l’inférence locale.

Grâce à LocalAI, vous pouvez exécuter des modèles linguistiques, générer des images, de l’audio et bien d’autres choses encore, localement ou sur site avec du matériel grand public, et ce, sans avoir besoin d’un GPU ! Le projet a pour principal objectif de rendre l’IA accessible à tous.

Pour résumer, voici les principales caractéristiques de LocalAI :

Une API REST locale, alternative à OpenAI. Comme ça, vous gardez bien au chaud vos propres données.
Pas besoin de GPU. Pas besoin d’accès internet non plus. Toutefois, l’accélération GPU est possible en option.
Prise en charge de plusieurs modèles.
Dès qu’ils sont chargés une première fois, les modèles restent en mémoire pour une inférence plus rapide.
N’utilise pas de shell, mais des liaisons directes pour une inférence plus rapide et de meilleures performances.

En termes de fonctionnalités, LocalAI offre une large gamme d’options, parmi lesquelles :

La génération de texte avec les modèles GPT (comme llama.cpp ou gpt4all.cpp).
La conversion de texte en audio.
La transcription audio en texte avec whisper.cpp.
La génération d’images avec Stable Diffusion.
Les dernières fonctionnalités d’OpenAI récemment ajoutées comme l’API Vision par exemple.
La génération d’embeddings pour les bases de données vectorielles.
Les grammaires contraintes.
Le téléchargement de modèles directement à partir de Huggingface.

LocalAI est bien sûr un projet communautaire donc n’hésitez pas si vous souhaitez vous impliquer !

Pour commencer rapidement avec LocalAI, vous pouvez consulter leur guide Getting Started qui décrit les différentes méthodes d’installation et les exigences matérielles ou aller consulter les guides de la communauté. Je vous ferais aussi probablement un tutoriel prochainement si mon emploi du temps me le permet.

LocalAI est disponible sous forme d’image conteneur et de binaire, compatible avec divers moteurs de conteneurs tels que Docker, Podman et Kubernetes. Les images de conteneurs sont publiées sur quay.io et Docker Hub, et les binaires peuvent être téléchargés à partir de GitHub.

Concernant les exigences matérielles, ça varie en fonction de la taille du modèle et de la méthode de quantification utilisée mais pour choper quelques repères de performance avec différents backends, comme llama.cpp, vous pouvez consulter ce lien.

Maintenant pour en savoir plus, vous pouvez explorer le site localai.io. Vous y trouverez de nombreuses informations et des exemples d’utilisation pour vous aider à tirer le meilleur parti de LocalAI.

Merci à Lorenper

Intelligence artificielle
Distil-Whisper – Pour faire de la reconnaissance vocale rapide
Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français. Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, D

Distil-Whisper – Pour faire de la reconnaissance vocale rapide

Intelligence artificielle

Par : Korben

7 décembre 2023 à 09:00

Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français.

Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, Distil-Whisper n’a qu’un taux d’erreur de 1%, ce qui est plutôt impressionnant.

Cela est possible grâce à son algorithme fractionné, qui permet de transcrire des fichiers audio longs 9 fois plus rapidement que l’algorithme séquentiel d’OpenAI. N’ayons pas peur des mots, c’est une véritable révolution pour ceux qui ont besoin de traiter de grands volumes de données audio.

Voici l’architecture du modèle Distil-Whisper :

Actuellement, Distil-Whisper est disponible uniquement pour la reconnaissance vocale en anglais, mais avec l’évolution rapide de ce domaine, on peut s’attendre à ce que d’autres langues soient prises en charge bientôt.

Distil-Whisper est donc conçu pour remplacer Whisper en matière de reconnaissance vocale en anglais, avec cinq avantages clés : une inférence plus rapide, une meilleure robustesse au bruit, une réduction des hallucinations, une utilisation en décodage spéculatif et une licence permissive pour les applications commerciales. Ce bijou de technologie a été entraîné sur 22 000 heures de données audio pseudo-étiquetées dans 10 domaines différents et en provenance de plus de 18 000 intervenants.

Toute la doc et les exemples d’utilisation son ici.

Le futur de la reconnaissance vocale semble prometteur !

Intelligence artificielle
Replay – Remixez vos MP3 en utilisant la voix d’une star grâce à l’IA
Voilà enfin un outil accessible qui permet à partir d’un modèle IA, de changer une voix pour refaire une conversation ou une chanson par exemple. Ca s’appelle Replay, c’est gratuit, dispo sous macOS et Windows, et c’est hyper facile à utiliser. Vous enregistrez votre voix ou vous importez un MP3, puis vous choisissez un modèle parmi ceux qui sont proposé comme Freddy Mercury, Kanye West, Ariana Grande, Barack Obama ou si tout ça ne vous convient pas, vous pouvez également, vous rendrez sur

Replay – Remixez vos MP3 en utilisant la voix d’une star grâce à l’IA

Intelligence artificielle

Par : Korben

14 novembre 2023 à 15:59

Voilà enfin un outil accessible qui permet à partir d’un modèle IA, de changer une voix pour refaire une conversation ou une chanson par exemple.

Ca s’appelle Replay, c’est gratuit, dispo sous macOS et Windows, et c’est hyper facile à utiliser. Vous enregistrez votre voix ou vous importez un MP3, puis vous choisissez un modèle parmi ceux qui sont proposé comme Freddy Mercury, Kanye West, Ariana Grande, Barack Obama ou si tout ça ne vous convient pas, vous pouvez également, vous rendrez sur le site Weights pour y télécharger les modèles IA de la communauté.

Vous y retrouverez des truc comme la voix française de Margot Robbie, Bob l’éponge ou encore Macron et d’autres politiciens de seconde zone.

En fonction de votre machine, ça prendra plus ou moins de temps à générer. N’oubliez de régler le Pitch à -12 pour changer une voix aiguë en grave et inversement.

D’ailleurs, pour le fun, voici un petit « Pour que tu m’aimes encore » par notre Président chéri.

Amusez-vous bien !!!

Vue normale