Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hieroutil
  • ✇Intelligence artificielle
  • Podgenai – Générez des podcasts de A à Z avec l’IA
    Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ? Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil. Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script comple

Podgenai – Générez des podcasts de A à Z avec l’IA

Par : Korben
17 septembre 2024 à 09:00

Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ?

Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil.

Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script complet et structuré pour votre émission. Et pas besoin d’être un expert, puisque l’application vulgarise les concepts techniques tout en rendant ça captivant pour votre audience.

L’outil transforme donc directement le texte en audio grâce à une synthèse vocale de bonne qualité qui vous permet de choisir parmi plusieurs voix. Le son produit est clair, naturel et dynamique et vous avez également un contrôle total sur le contenu généré puisqu’il est possible d’affiner les contenus, d’ajuster la longueur de l’épisode ou encore d’insérer vos propres commentaires et anecdotes. Bref, tout ce qu’il faut pour créer un podcast unique en anglais par contre… A voir ce que ça rend sur un texte en français… y’aura peut-être un petit effet Jane Birkin.

Économie de matos, de temps et surtout c’est accessible à tous. Alors bien sûr, je pense que (pour le moment), ça ne peut pas arriver au niveau d’un vrai podcast fait par un vrai humain… mais pour produire vos propres podcast thématiques rapidement afin de défricher un sujet qui vous tient à cœur et écouter tout ça en voiture lors de votre prochain déplacement, je trouve ça plutôt cool.

Vous l’aurez compris, pour moi c’est plutôt à réserver à des fins personnelles que pour une diffusion grand publique. Mais ça n’a pas arrêté les créateurs de l’outil qui ont mis en ligne leur podcast 100% généré par IA à des fins de démo. Ça vous permettra de vous faire un avis.

Toutes les infos sont ici.

  • ✇Intelligence artificielle
  • Auto-News – L’agrégateur de news automatisé par IA
    Ce serait cool si on pouvait avoir accès directement aux informations les plus pertinentes pour nous, sans être submergé par le bruit constant des trucs sans intérêt. Et bien c’est exactement ce que propose Auto-News, un agrégateur d’actu personnel qui exploite la puissance de l’intelligence artificielle pour vous aider à vous informer de manière plus efficace. Notre temps étant précieux, il est crucial de bien l’utiliser et malheureusement, tout ces moments qu’on passe à chercher, filtrer

Auto-News – L’agrégateur de news automatisé par IA

Par : Korben
24 août 2024 à 09:00

Ce serait cool si on pouvait avoir accès directement aux informations les plus pertinentes pour nous, sans être submergé par le bruit constant des trucs sans intérêt. Et bien c’est exactement ce que propose Auto-News, un agrégateur d’actu personnel qui exploite la puissance de l’intelligence artificielle pour vous aider à vous informer de manière plus efficace.

Notre temps étant précieux, il est crucial de bien l’utiliser et malheureusement, tout ces moments qu’on passe à chercher, filtrer et organiser le contenu provenant de différentes sources, c’est un peu du gâchis.

Cet outil est donc capable d’agrèger les flux de diverses sources telles que Twitter, RSS, YouTube, des articles web, Reddit et même vos notes personnelles et grâce à l’utilisation de modèles de langage comme ChatGPT, il est capable de résumer et de filtrer le contenu, éliminant ainsi plus de 80% du bruit.

Comme ça, vous pouvez rester concentré sur la lecture des actus qui vous intéressent vraiment, en fonction de vos centres d’intérêt, tout en restant aligné sur vos objectifs. N’oubliez pas quand même de mettre Korben.info dans vos sources :))

Mais Auto-News va encore plus loin puisqu’il est capable de générer des listes de tâches à partir de vos notes. Il peut également les organiser en les résumant avec les informations clés et y’a même une fonctionnalité expérimentale appelée « Deepdive » qui grâce à un agent de recherche web et à l’outil Autogen de Microsoft, vous permet d’explorer en profondeur des sujets qui vous passionnent.

Côté technique, Auto-News prend en charge plusieurs backends d’IA, dont OpenAI ChatGPT et Google Gemini. L’interface utilisateur est basée sur Notion, ce qui signifie que vous pouvez y accéder de n’importe où, que ce soit via un navigateur web ou une application mobile. Son déploiement est plutôt flexible, avec une prise en charge de Docker Compose et de Kubernetes donc ça peut s’intégrer facilement dans votre flux de travail.

A découvrir ici.

  • ✇Intelligence artificielle
  • Perplexica – Le moteur de recherche open source propulsé à l’IA
    Perplexica est un moteur de recherche gratuit et transparent, qui comprend ce que vous lui demandez et qui vous trouve pile poil ce que vous cherchez, le tout boosté à l’intelligence artificielle dernière génération. Ça vous parle, non ? Ah bah oui c’est comme Perplexity.ai sauf que c’est gratuit, open source et que ça vous permet de fouiller le web en profondeur pour dénicher les réponses à toutes vos questions. Pour cela, l’outil utilise des algorithmes d’apprentissage automatique basés n

Perplexica – Le moteur de recherche open source propulsé à l’IA

Par : Korben
1 août 2024 à 13:00

Perplexica est un moteur de recherche gratuit et transparent, qui comprend ce que vous lui demandez et qui vous trouve pile poil ce que vous cherchez, le tout boosté à l’intelligence artificielle dernière génération. Ça vous parle, non ?

Ah bah oui c’est comme Perplexity.ai sauf que c’est gratuit, open source et que ça vous permet de fouiller le web en profondeur pour dénicher les réponses à toutes vos questions. Pour cela, l’outil utilise des algorithmes d’apprentissage automatique basés notamment sur la recherche par similarité sémantique. En gros, il est capable de piger le sens de votre question et de trouver les sources les plus pertinentes.

Comme ça, vous obtenez des réponses claires et sourcées, servies sur un plateau d’argent sans avoir besoin de passer des heures à éplucher les pages de résultats pour trouver l’info qui vous intéresse.

Pas de cookies qui vous espionnent ni de revente de données personnelles en douce et vos recherches restent confidentielles. Côté fonctionnalités, Perplexica propose plusieurs modes de recherche bien pratiques :

  • Le mode Copilot (encore en développement) : il génère des requêtes pour trouver les sources Internet les plus pertinentes. Plutôt que d’utiliser uniquement le contexte fourni par SearXNG, il visite directement les meilleurs résultats pour trouver les sources les plus adaptées à votre question.
  • Le mode Normal : il traite votre requête et effectue une recherche web classique.
  • Les Focus Modes : des modes spécialisés pour répondre à des besoins spécifiques, comme la recherche académique, la recherche YouTube, les calculs via Wolfram Alpha ou encore la recherche Reddit pour les discussions et avis.

Et niveau technique, il utilise un meta-moteur de recherche bien fichu qui s’appelle SearXNG. C’est lui qui récupère les résultats, les trie, les recoupe, pour ne garder que la crème de la crème. L’avantage, c’est que vous avez toujours des infos à jour, sans latence. Et comme je le disais en intro, il s’appuie aussi sur des modèles de langage locaux comme Llama3 et Mixtral, via l’API Ollama ce qui lui permet d’affiner encore plus les résultats.

Et pour l’installer, c’est super simple :

  1. Clonez le dépôt GitHub de Perplexica : git clone https://github.com/ItzCrazyKns/Perplexica.git
  2. Renommez le fichier sample.config.toml en config.toml et remplissez les champs nécessaires (clé API, etc.)
  3. Lancez la commande docker compose up -d
  4. Attendez quelques minutes que l’installation se termine
  5. Accédez à Perplexica via http://localhost:31337 depuis votre navigateur

Une fois que c’est en place, vous pouvez même utiliser Perplexica comme moteur de recherche par défaut dans votre navigateur. Il suffit d’aller dans les paramètres, d’ajouter un nouveau moteur de recherche avec l’URL http://localhost:31337/?q=%s et le tour est joué !

Après, forcément, c’est encore un jeune projet, donc il y a des petits trucs à peaufiner et les devs planchent notamment sur la finalisation du mode Copilot, l’ajout d’une page de paramètres, de fonctionnalités comme l’historique de recherche, et le support des modèles de langage locaux.

Mais même en l’état, je trouve que ça vaut grave le coup de tester Perplexica, ne serait-ce que pour voir à quoi peut ressembler un moteur de recherche IA à la fois éthique et transparent ^^.

Remerciement spécial à Lorenper pour l’info !

  • ✇Intelligence artificielle
  • Auto-News – L’agrégateur de news qui vous permet d’éviter le « bruit »
    Auto-News est un agrégateur de news automatisé boosté à l’IA qui rassemble vos sources favorites – tweets, RSS, YouTube, articles web, Reddit, même vos petites notes perso. Puis c’est la magie de l’IA qui analyse tout ça en deux temps trois mouvements, résume le contenu à vitesse grand V, et vous sert sur un plateau les pépites qui matchent avec vos centres d’intérêt. Le reste, poubelle ! Comme ça, fini le tri bien pénible. Vous créez simplement une page sur Notion comme point d’entrée, vou

Auto-News – L’agrégateur de news qui vous permet d’éviter le « bruit »

Par : Korben
20 juin 2024 à 09:00

Auto-News est un agrégateur de news automatisé boosté à l’IA qui rassemble vos sources favorites – tweets, RSS, YouTube, articles web, Reddit, même vos petites notes perso. Puis c’est la magie de l’IA qui analyse tout ça en deux temps trois mouvements, résume le contenu à vitesse grand V, et vous sert sur un plateau les pépites qui matchent avec vos centres d’intérêt. Le reste, poubelle ! Comme ça, fini le tri bien pénible.

Vous créez simplement une page sur Notion comme point d’entrée, vous renseignez vos petits tokens chéris, et voilà le travail ! Auto-News va gentiment créer tout un joli système de dossiers et de bases de données pour ranger vos contenus. Il vous suffira alors d’indiquer vos flux RSS favoris, vos comptes Twitter et Reddit à suivre, et hop, la machine est lancée !

L’outil est également capable de générer des transcriptions pour les vidéos YouTube et les articles web, histoire que vous puissiez les parcourir en diagonale, et grâce à ses supers pouvoirs d’IA, il vous concocte même des listes de tâches à partir de vos notes et réflexions.

Côté technique, c’est du solide puisque ça tourne sous Linux ou MacOS, avec Docker pour faciliter le déploiement et le top du top, c’est son interface façon Notion utilisable depuis votre iPhone, votre Android ou n’importe quel navigateur.

Parfait pour dire adieu à l’infobésité et découvrir le plaisir d’une lecture personnalisée. Pour plus d’infos, c’est par ici.

  • ✇Intelligence artificielle
  • APISR – Upscaling d’animes en temps réel
    Comme beaucoup d’entre vous, j’ai été élévé au Club Dorothée et malheureusement, en 2024, tous ces animés de notre enfance, de Goldorak aux Chevaliers du Zodiaque, en passant par Nicky Larson, ont quand même mal vieilli. Ah si seulement, on pouvait les améliorer pour les remettre graphiquement au goût du jour… Et bien bonne nouvelle, c’est possible grâce au projet APISR. Cet outil utilise différentes techniques directement inspirées du processus de production des animes afin de proposer un

APISR – Upscaling d’animes en temps réel

Par : Korben
31 mai 2024 à 09:00

Comme beaucoup d’entre vous, j’ai été élévé au Club Dorothée et malheureusement, en 2024, tous ces animés de notre enfance, de Goldorak aux Chevaliers du Zodiaque, en passant par Nicky Larson, ont quand même mal vieilli. Ah si seulement, on pouvait les améliorer pour les remettre graphiquement au goût du jour… Et bien bonne nouvelle, c’est possible grâce au projet APISR.

Cet outil utilise différentes techniques directement inspirées du processus de production des animes afin de proposer un upscaling vraiment spécialisé pour ce type de vidéos. APISR sélectionne ainsi les frames les moins compressées et les plus riches en informations pour en faire un dataset qui servira alors à améliorer les images, en éliminant les artéfacts de dégradation et en retravaillant les lignes déformées ou estompées des dessins.

Et le résultat est bluffant comme vous pouvez le voir ici sur la démo. C’est génial puisque les fans d’animes vont pouvoir revoir les classiques de leur jeunesse avec une qualité digne des meilleures productions actuelles, le tout en temps réel.

En attendant de voir ces versions remasterisées grâce à des players ou des outils qui n’existent pas encore, vous pouvez déjà tester APISR grâce au code source disponible sur GitHub ou via Huggingface.

  • ✇Intelligence artificielle
  • Le son des images #IA
    Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ». Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le

Le son des images #IA

Par : Korben
28 mai 2024 à 15:33

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles « débruitent » des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il « suffit » d’aller sur le Github du projet et de suivre les instructions techniques.

Source

  • ✇Intelligence artificielle
  • LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts
    Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous ! Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’

LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts

Par : Korben
20 mai 2024 à 09:00

Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous !

Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’identification et de suppression des tokens non essentiels, il peut réduire jusqu’à 20 fois la taille des prompts, tout en préservant les performances des modèles.

Que vous soyez un développeur cherchant à optimiser ses coûts d’API ou un utilisateur souhaitant dépasser les limites de contexte, LLMLingua vous offre de nombreux avantages :

  • 💰 Réduction des coûts : En compressant à la fois les prompts et les réponses générées, LLMLingua permet de réaliser des économies significatives sur votre facture d’API.
  • 📝 Support de contextes étendus : Fini le casse-tête du « perdu au milieu » ! LLMLingua gère efficacement les longs contextes et booste les performances globales.
  • ⚖️ Robustesse : Pas besoin d’entraînement supplémentaire pour les LLM. LLMLingua fonctionne de manière transparente.
  • 🕵️ Préservation des connaissances : Toutes les informations clés des prompts originaux, comme l’apprentissage en contexte et le raisonnement, sont conservées.
  • 📜 Compression du cache KV : Le processus d’inférence est accéléré grâce à l’optimisation du cache clé-valeur.
  • 🪃 Récupération complète : GPT-4 est capable de reconstituer l’intégralité des informations à partir des prompts compressés. Bluffant !

Prenons un exemple simple et imaginons que vous vouliez compresser le prompt suivant avec LLMLingua :

python from llmlingua import PromptCompressor

llm_lingua = PromptCompressor()

prompt = "Sam a acheté une douzaine de boîtes contenant chacune 30 surligneurs, pour 10 $ chacune..."

compressed_prompt = llm_lingua.compress_prompt(prompt)

print(compressed_prompt)

Et voilà le travail ! En quelques lignes de code, vous obtenez un prompt compressé prêt à être envoyé à votre modèle favori :

Sam acheté boîtes contenant chacune 30 surligneurs, 10 $ chacune.

Avec un taux de compression de 11,2x, le nombre de tokens passe de 2365 à seulement 211 ! Et ce n’est qu’un début. Sur des exemples plus complexes comme les prompts Chain-of-Thought, LLMLingua maintient des performances similaires avec un taux de compression allant jusqu’à 20x.

Alors bien sûr, pour l’avoir bien testé, faut quand même comprendre que vous n’obtiendrez pas forcement un résultat identique entre le prompte compressé et celui non compressé mais pour un gain de 60 / 70 voire 80%, le résultat généré à partir du prompt compressé reste précis à hauteur de 70 / 80 %, ce qui est très bien.

Pour démarrer avec LLMLingua, rien de plus simple. Installez le package avec pip :

pip install llmlingua

Puis laissez libre cours à votre créativité ! Que vous soyez un adepte du Retrieval Augmented Generation (RAG), des réunions en ligne, du Chain-of-Thought ou même du code, LLMLingua saura répondre à vos besoins. De nombreux exemples et une documentation complète sont à votre disposition pour vous guider.

Perso, je l’ai testé sur de longs prompts que j’avais dans mes scripts, avec Claude3 d’ailleurs et pas ChatGPT et le résultat est top !

A tester ici !

  • ✇Intelligence artificielle
  • Discord LLMCord – Quand les chatbots s’invitent dans Discord
    Vous êtes fan de Discord et vous aimez bidouiller des trucs ?? Alors préparez-vous à découvrir Discord LLMCord. C’est un petit bout de code qui va vous permettre de causer avec des IA directement dans vos canaux, comme si c’étaient vos potes. Et ça marche avec à peu près tous les modèles de langage, qu’ils soient hébergés à distance ou en local sur votre bécane. Pour lancer une conversation, il suffit de tagger le bot et hop, c’est parti mon kiki. Vous pouvez continuer la discussion en répo

Discord LLMCord – Quand les chatbots s’invitent dans Discord

Par : Korben
18 mai 2024 à 18:48

Vous êtes fan de Discord et vous aimez bidouiller des trucs ?? Alors préparez-vous à découvrir Discord LLMCord. C’est un petit bout de code qui va vous permettre de causer avec des IA directement dans vos canaux, comme si c’étaient vos potes. Et ça marche avec à peu près tous les modèles de langage, qu’ils soient hébergés à distance ou en local sur votre bécane.

Pour lancer une conversation, il suffit de tagger le bot et hop, c’est parti mon kiki. Vous pouvez continuer la discussion en répondant aux messages et ainsi construire des fils de discussion complets. Vous pouvez par exemple :

  • Poursuivre votre propre conversation ou celle de quelqu’un d’autre.
  • « Rembobiner » une discussion en répondant à un vieux message.
  • Poser une question sur n’importe quel message de votre serveur en taguant le bot.

En plus, si vous envoyez plusieurs messages à la suite, ils seront automatiquement mis bout à bout et si vous répondez juste au dernier, le bot verra tous les précédents. Vous pouvez aussi déplacer une conversation dans un fil sans perdre le fil (lol). Il vous suffit de créer un thread à partir d’un message et de tagger le bot dedans pour continuer à papoter.

Côté compatibilité, ça supporte les modèles distants d’OpenAI, Mistral, Anthropic et plein d’autres grâce à LiteLLM. Si vous voulez faire tourner un modèle en local, pas de souci non plus puisque ça marche avec OLLaMa, OobaBooga, Jan, LM Studio ou n’importe quel serveur d’API compatible OpenAI.

Le bot gère même les images si vous utilisez un modèle de vision comme GPT-4, Claude-3 ou LLaVA. Il a un prompt système personnalisable et vous pouvez lui parler en DM pour plus d’intimité (pas besoin de le tagger).

Si vous utilisez l’API OpenAI, LLMCord est également capable de reconnaître l’identité des utilisateurs. De plus, les réponses s’affichent en temps réel, avec un joli dégradé de vert quand c’est fini et s’il cause trop, il coupe automatiquement ses messages en plusieurs morceaux. Pratique pour éviter de se faire ban par Discord ! Il affiche aussi des avertissements utiles si besoin, genre « J’utilise seulement les 20 derniers messages » quand vous dépassez la limite. Bref, c’est un bot bien élevé.

Sous le capot, il utilise un dico global avec des mutex pour mettre en cache les données des messages de manière efficace et thread-safe, comma ça, ça réduit les appels à l’API Discord et ça évite les fuites de mémoire. Le tout totalement en asynchrone.

Pour l’installer, c’est fastoche. Vous clonez le repo GitHub, vous installez les dépendances Python avec pip et vous créez un fichier .env avec vos clés d’API et les paramètres du bot. Lancez le script et tada, l’URL d’invitation de votre bot s’affiche dans la console. Pour plus de détails, suivez ce guide :

  1. Installer Python : Téléchargez et installez Python à partir de python.org.
  2. Cloner le dépôt git : Ouvrez un terminal et clonez le dépôt : bash git clone https://github.com/jakobdylanc/discord-llm-chatbot.git cd discord-llm-chatbot
  3. Installer les packages nécessaires : bash pip install -r requirements.txt
  4. Créer un fichier .env : bash cp .env.example .env
  5. Configurer les variables d’environnement : Ouvrez .env et remplissez les champs nécessaires : plaintext DISCORD_BOT_TOKEN=YOUR_DISCORD_BOT_TOKEN OPENAI_API_KEY=your-openai-api-key MODEL_NAME=local/openai/YOUR_MODEL_NAME
  6. Exécuter le script : Dans le terminal, lancez : bash python llmcord.py

Ah et j’oubliais, LLMCord est open source (vive le libre !), donc si vous voulez contribuer ou l’adapter à vos besoins, forkez et PR sans modération.

Avec ça, votre Discord ne sera plus jamais pareil et je sens que vous allez bien vous marrer ! Alors merci à Lorenper pour l’info car c’est une chouette découverte !

Source

  • ✇Intelligence artificielle
  • L’IA qui raisonne comme un humain
    Les scientifiques du MIT boostent les capacités de raisonnement de l’IA avec une architecture hybride révolutionnaire ! Hé oui, les petits génies du MIT ont développé 3 frameworks qui vont donner aux IA le pouvoir de raisonner comme des humains. Imaginez que vous ayez un pote un peu limité niveau jugeote (on a tous un [insère ici le prénom de ton collègue le plus proche] dans notre entourage 😅). Il comprend ce que vous lui dites, il peut même vous répondre, mais dès qu’il faut réfléchir un

L’IA qui raisonne comme un humain

Par : Korben
18 mai 2024 à 00:18

Les scientifiques du MIT boostent les capacités de raisonnement de l’IA avec une architecture hybride révolutionnaire ! Hé oui, les petits génies du MIT ont développé 3 frameworks qui vont donner aux IA le pouvoir de raisonner comme des humains.

Imaginez que vous ayez un pote un peu limité niveau jugeote (on a tous un [insère ici le prénom de ton collègue le plus proche] dans notre entourage 😅). Il comprend ce que vous lui dites, il peut même vous répondre, mais dès qu’il faut réfléchir un peu, ça rame et parfois ça plante. Eh bien, les IA actuelles, c’est un peu pareil !

Elles sont super balèzes pour ingurgiter des tonnes de données et cracher du texte, mais niveau compréhension du contexte et raisonnement complexe, ce n’est pas encore tout à fait ça. Et c’est là que nos amis du MIT entrent en scène avec leur trésor d’abstractions en langage naturel. En gros, ils ont créé des lib qui vont aider les IA à mieux piger leur environnement et résoudre des problèmes de manière plus humaine. On parle donc de 3 frameworks aux petits noms mignons : LILO, Ada et LGA.

LILO, c’est l’atout du développeur. Il va aider les IA à synthétiser, compresser et documenter du code comme un pro. Fini les IA qui créent des pavés de code illisibles, place à des programmes bien structurés et commentés !

Ada, c’est la stratège du groupe. Elle va permettre aux IA de planifier des actions de manière flexible. Au lieu de suivre bêtement une recette, l’IA va pouvoir s’adapter et improviser en fonction de ce qu’elle trouve dans son frigo. Ada a même montré une amélioration de 59% pour des tâches de simulation de cuisine et de 89% pour des tâches de construction de lit.

Enfin, LGA, c’est l’as de la perception. Elle va filer un gros coup de pouce aux robots pour qu’ils comprennent mieux leur environnement, un peu comme si on leur refilait une bonne paire de lunettes. Terminé les robots qui se prennent les pieds dans le tapis, ils vont pouvoir naviguer dans votre appart’ comme un poisson dans l’eau (ou presque 😅).

Avec ces 3 frameworks qui mixent réseaux de neurones et approches logiques classiques, les chercheurs espèrent bien faire passer les IA au niveau supérieur. Ainsi, on aura enfin des chatbots qui comprennent vos blagues pourries, des robots qui vous apportent une bière sans renverser la moitié au passage, et pourquoi pas des IA qui vous aident à coder votre prochain jeu vidéo pendant que vous glandouillez sur le canapé !

Pour ceux qui veulent aller plus loin, voici les publications sur arXiv des avancées réalisées :
Library Induction from Language Observations
Action Domain Acquisition
Language-Guided Abstraction

J’ai hâte de voir tout ça fonctionner pour en vrai !

Source

  • ✇Intelligence artificielle
  • FaceFusion – Du swaps de visages vite fait mais surtout bien fait
    Dernièrement, j’ai testé FaceFusion et j’ai adoré, donc je voulais vous en parler rapidement. Il s’agit d’un outil open source qui permet de faire des échanges de visages (swap) d’une excellente qualité aussi bien avec des photos que des vidéos. Vous vous en doutez, le tout est boosté par de l’intelligence artificielle comme un peu tout ce qui sort en ce moment. En gros, vous prenez votre visage, vous la collez sur une autre, et bim, ça donne un truc hyper réaliste en quelques clics !

FaceFusion – Du swaps de visages vite fait mais surtout bien fait

Par : Korben
14 mai 2024 à 09:00

Dernièrement, j’ai testé FaceFusion et j’ai adoré, donc je voulais vous en parler rapidement. Il s’agit d’un outil open source qui permet de faire des échanges de visages (swap) d’une excellente qualité aussi bien avec des photos que des vidéos. Vous vous en doutez, le tout est boosté par de l’intelligence artificielle comme un peu tout ce qui sort en ce moment.

En gros, vous prenez votre visage, vous la collez sur une autre, et bim, ça donne un truc hyper réaliste en quelques clics !

Sous le capot, FaceFusion utilise des techniques de pointe en deep learning pour détecter et aligner les visages avec une précision chirurgicale. Ça passe par des modèles comme YOLOFace ou RetinaFace pour repérer les faciès, puis des algos transforment et mixent tout ça façon Picasso du futur.

Le résultat est assez bluffant puisque vous pouvez littéralement mettre votre tronche de cake à la place de Leonardo DiCaprio et devenir la star de Titanic en deux temps trois mouvements (de brasse coulée).

FaceFusion est optimisé pour le GPU mais fonctionnera également sur votre bon vieux CPU et cela même sur des vidéos en grosses résolutions. D’ailleurs, y’a ‘tout un tas de réglages pour gérer la qualité, que ce soit pour du swap d’image ou de vidéo.

Et histoire de vous simplifier la vie, une jolie interface graphique est même fournie pour piloter l’outil sans mettre les mains dans le cambouis.

Franchement, FaceFusion c’est un outil vraiment cool mais faudra quand même pas déconner et en faire n’importe quoi hein, genre swapper des têtes de politiques pour faire des deep fakes SURTOUT AVEC BURNO LE MAIRE, ça peut vite partir en vrille. 😅

Bref que ce soit pour faire des blagues à vos potes, créer des effets spéciaux délirants, ou juste explorer le champ des possibles de l’IA appliquée à l’image, FaceFusion risque de vite devenir votre nouveau meilleur ami. Et vu que c’est open source, vous pouvez mettre les mains dans le code si ça vous éclate.

Bref, foncez sur le GitHub et en cadeau, je vous ai même fait une vidéo tuto !

Merci les Patreons pour le soutien !

Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)

Par : Korben
7 mai 2024 à 09:00

Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?

C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.

Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.

Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.

Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.

Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :

Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.

Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.

Vous devrez donc avoir Python 3.11, puis installez poetry :

brew install poetry

Ensuite, clonez le dépôt git et aller dans le dossier :

git clone https://github.com/Skyvern-AI/skyvern.git

cd skyvern

Puis lancez le script d’install :

./setup.sh

Une fois que c’est fini, démarrez le serveur :

./run_skyvern.sh

Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :

./run_ui.sh

Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.

En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :

curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
    "url": "https://www.geico.com",
    "webhook_callback_url": "",
    "navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
    "data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
    "navigation_payload": "{Vos données ici}",
    "proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks

Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.

Bref, pour en savoir plus, c’est sur le Github. Et sur leur site officiel.

  • ✇Intelligence artificielle
  • VASA-1 – Des visages parlants ultra-réalistes et en temps réel
    VASA-1 est un nouveau framework qui permet de générer des visages parlants ultra-réalistes en temps réel ! En gros, vous balancez une simple photo à cette IA, ainsi qu’un petit clip audio, et bim ! Elle vous pond une vidéo d’un visage qui parle, avec une synchronisation de la bouche nickel chrome, des expressions faciales hyper naturelles et des mouvements de tête très fluides. C’est hyper bluffant ! Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs techniq

VASA-1 – Des visages parlants ultra-réalistes et en temps réel

Par : Korben
18 avril 2024 à 01:49

VASA-1 est un nouveau framework qui permet de générer des visages parlants ultra-réalistes en temps réel ! En gros, vous balancez une simple photo à cette IA, ainsi qu’un petit clip audio, et bim ! Elle vous pond une vidéo d’un visage qui parle, avec une synchronisation de la bouche nickel chrome, des expressions faciales hyper naturelles et des mouvements de tête très fluides. C’est hyper bluffant !

Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs techniques de pointe en deep learning. Ils ont d’abord créé un espace latent expressif et bien organisé pour représenter les visages humains. Ça permet de générer de nouveaux visages variés, qui restent cohérents avec les données existantes. Ensuite, ils ont entraîné un modèle de génération de dynamiques faciales et de mouvements de tête, appelé le Diffusion Transformer, pour générer les mouvements à partir de l’audio et d’autres signaux de contrôle.

Et le résultat est juste époustouflant. On a l’impression de voir de vraies personnes qui parlent, avec toutes les nuances et les subtilités des expressions faciales. Les lèvres bougent parfaitement en rythme avec les paroles, les yeux clignent et regardent naturellement, les sourcils se lèvent et se froncent…

En plus de ça, VASA-1 peut générer des vidéos en haute résolution (512×512) à une cadence élevée, jusqu’à 40 images par seconde, avec une latence de démarrage négligeable. Autant dire que c’est le graal pour toutes les applications qui nécessitent des avatars parlants réalistes. On peut imaginer des assistants virtuels avec lesquels on pourrait interagir de manière super naturelle, des personnages de jeux vidéo encore plus crédibles et attachants, des outils pédagogiques révolutionnaires pour apprendre les langues ou d’autres matières, des thérapies innovantes utilisant des avatars pour aider les patients… etc etc..

En plus de pouvoir contrôler la direction du regard, la distance de la tête et même les émotions du visage généré, VASA-1 est capable de gérer des entrées qui sortent complètement de son domaine d’entraînement comme des photos artistiques, du chant, d’autres langues…etc.

Bon, évidemment, il reste encore quelques limitations. Par exemple, le modèle ne gère que le haut du corps et ne prend pas en compte les éléments non rigides comme les cheveux ou les vêtements. De plus, même si les visages générés semblent très réalistes, ils ne peuvent pas encore imiter parfaitement l’apparence et les mouvements d’une vraie personne mais les chercheurs comptent bien continuer à l’améliorer pour qu’il soit encore plus versatile et expressif.

En attendant, je vous invite à checker leur page de démo pour voir cette merveille en action. C’est juste hallucinant ! Par contre, vu les problèmes éthiques que ça pourrait poser du style usurpation d’identité, fake news et compagnie, et connaissans Microsoft, je pense que VASA-1 ne sera pas testable par tous bientôt malheureusement. Mais je peux me tromper…

  • ✇Intelligence artificielle
  • AiFormat – Un outil en ligne de commande pour formater vos fichiers pour Claude
    Si vous vous intéressez un peu aux outils IA, vous connaissez sûrement Claude, l’assistant IA dernière génération d’Anthropic. Depuis la sortie de sa version 3, c’est d’ailleurs devenu mon meilleur pote pour coder à la vitesse de l’éclair. j’ai même pris un abonnement payant en rusant un peu. Toutefois, le seul truc qui me ralentissait dans mes grandes ambitions, c’était de devoir copier-coller à la main tous mes fichiers de code dans la fenêtre de contexte de Claude pour ensuite lui demand

AiFormat – Un outil en ligne de commande pour formater vos fichiers pour Claude

Par : Korben
17 avril 2024 à 09:00

Si vous vous intéressez un peu aux outils IA, vous connaissez sûrement Claude, l’assistant IA dernière génération d’Anthropic. Depuis la sortie de sa version 3, c’est d’ailleurs devenu mon meilleur pote pour coder à la vitesse de l’éclair. j’ai même pris un abonnement payant en rusant un peu.

Toutefois, le seul truc qui me ralentissait dans mes grandes ambitions, c’était de devoir copier-coller à la main tous mes fichiers de code dans la fenêtre de contexte de Claude pour ensuite lui demander d’analyser ça, et me proposer des corrections ou une nouvelle fonction. Mais ça, c’était avant car je suis tombé sur un petit bijou opensource qui va vous changer la vie : AiFormat.

Ce petit outil en ligne de commande vous permet de sélectionner des fichiers et dossiers, et de les convertir automatiquement dans un format optimisé pour Claude. En deux clics, tout est dans le presse-papier, prêt à être envoyé à votre IA préférée.

Sous le capot, AiFormat utilise Ink, une chouette librairie pour créer des CLI avec une belle interface utilisateur. Ça vous permet de filtrer et naviguer dans vos fichiers, de les sélectionner avec les flèches, et tout ça de façon super intuitive.

Pour l’installer et le prendre en main, c’est hyper simple, tout est expliqué sur la page Github du projet. Ça commence par un simple :

npm install --global aiformat

Ensuite, pour utiliser aiformat, accédez au répertoire contenant les fichiers et dossiers que vous souhaitez partager avec Claude puis lancez la commande suivante :

aiformat

Le créateur a eu la bonne idée de mettre le projet en opensource (MIT license), du coup n’hésitez pas à y jeter un œil et même contribuer si le cœur vous en dit. La communauté vous dira merci !

Franchement, si vous utilisez souvent Claude pour coder ou analyser des projets, c’est un indispensable à avoir dans sa boîte à outils. Ça vous fera gagner un temps fou au quotidien.

  • ✇Intelligence artificielle
  • Un petit outil IA pour rechercher la bonne photo en un clin d’oeil
    Vous avez enfin trouvé un peu de temps pour vous occuper de vos photos de vacances. Des milliers de clichés s’accumulent année après année sur votre disque dur. Quel bazar ! Rechercher une photo précise là-dedans risque de vous prendre des plombes. Pas cool… Heureusement, un petit outil bien pratique débarque à la rescousse : rclip, un outil en ligne de commande boosté à l’IA capable de rechercher vos photos par leur contenu visuel. Développé à l’aide du réseau de neurones CLIP d’OpenAI, r

Un petit outil IA pour rechercher la bonne photo en un clin d’oeil

Par : Korben
8 avril 2024 à 09:00

Vous avez enfin trouvé un peu de temps pour vous occuper de vos photos de vacances. Des milliers de clichés s’accumulent année après année sur votre disque dur. Quel bazar ! Rechercher une photo précise là-dedans risque de vous prendre des plombes. Pas cool… Heureusement, un petit outil bien pratique débarque à la rescousse : rclip, un outil en ligne de commande boosté à l’IA capable de rechercher vos photos par leur contenu visuel.

Développé à l’aide du réseau de neurones CLIP d’OpenAI, rclip permet de rechercher des images avec n’importe quelle requête texte. L’idée est simple mais diablement efficace : extraire des vecteurs caractéristiques de chaque image, stocker ces vecteurs, puis les comparer avec le vecteur de la requête pour trouver les photos les plus similaires. Et le tout en un clin d’oeil !

Pour l’installer, rien de plus simple. Sur Linux, un petit snap et c’est réglé.

sudo snap install rclip

Pour les autres OS, des options alternatives existent, comme une AppImage, une version Homebrew pour macOS ou un installeur .msi pour Windows. Si vous préférez passer par pip, c’est possible aussi. Pas d’excuse pour ne pas l’essayer !

Une fois installé, placez vous dans le répertoire contenant vos photos et lancez une recherche avec

rclip "ma requête"

Par exemple rclip "striped cat" pour dénicher les photos de votre félin préféré. À la première exécution, rclip va indexer vos images, ce qui peut prendre un certain temps selon la taille de votre photothèque (comptez environ 3h pour 1 million de photos sur un MacBook M1 Max). Mais ce n’est qu’un mauvais moment à passer, les recherches suivantes seront quasi-instantanées.

Au lieu d’une requête textuelle, vous pouvez aussi utiliser une image comme référence, en passant son chemin en paramètre :

rclip ./mon_image.jpg

Rclip trouvera alors les photos visuellement les plus proches de celle-ci. Puissant pour retrouver des clichés sur un même thème !

Cerise sur le gâteau, il est possible de combiner des requêtes texte et image avec des opérateurs + et -. Par exemple

rclip horse + strips

rclip apple - fruit

Vous pouvez même enchaîner les requêtes, du genre

rclip "./ma_voiture.jpg" - "sport car" + "snow"

pour trouver les photos de votre véhicule sous la neige, mais en excluant les bolides. Les possibilités sont quasi-illimitées.

L’affichage des résultats est également bien pensé. Si vous utilisez un terminal compatible comme iTerm2 ou Konsole, un simple rclip -p suffit pour prévisualiser les images directement dans la console. Avec d’autres terminaux, vous pouvez rediriger la sortie de rclip vers votre visionneuse préférée, par exemple

rclip -f -t 5 | feh -f - -t

pour afficher les 5 meilleurs résultats dans une jolie grille sous Linux.

En résumé, rclip est un outil à la fois pragmatique et fun qui révolutionne la façon dont on peut fouiller dans sa bibliothèque de photos. Fini les heures perdues à scroller frénétiquement à la recherche d’une image précise !

Si vous voulez tester rclip par vous-même, foncez sur son dépôt GitHub qui regorge d’infos. Son créateur y propose même des démos sur des jeux de données massifs, comme 1,28 million d’images ! De quoi vous convaincre de l’essayer sur vos propres photos.

Allez, c’est parti pour faire du tri dans votre bazar de photos !

Source

Tutoriel Applio pour cloner une voix grâce à l'IA

Par : Korben
29 mars 2024 à 10:09

💾

Dans cette vidéo, je vous explique comment installer et utiliser l'application Applio (Sous Windows et Linux) afin de transformer une voix en une autre (clonage de voix par IA).

Merci aux Patreons pour le soutien.

★ POUR SOUTENIR LA CHAINE ★

Venez voir ce que je vous propose ici : https://patreon.com/korben

★ RETROUVEZ-MOI SUR TWITCH EN LIVE ★

Je fais également du live stream sur : https://twitch.tv/korbenfr

⚑ S'ABONNER A LA CHAINE ⚑
Si vous ne voulez pas rater les prochaines vidéos, n'hésitez pas à vous abonner, à cocher la cloche et tout le reste via http://www.youtube.com/subscription_center?add_user=Korben00

★★★ RETROUVEZ-MOI AILLEURS ★★★
Laissez un commentaire sur cette vidéo et j'essayerai d'y répondre. Ou vous pouvez également vous me retrouver sur différentes plateformes sociales :
Mon site : https://korben.info
Pour s'abonner au podcast : https://paralleles.org
Twitter : https://twitter.com/Korben
Instagram : https://www.instagram.com/korben00/
TikTok : https://www.tiktok.com/@korbeninfo
Facebook : https://www.facebook.com/ManuelDorne
La chaine YouTube Webosaures : https://www.youtube.com/channel/UCu34Tq5qMR-FiTYwLyy9U6w

✔ Liens mentionnés dans la vidéo ✔
https://docs.applio.org/

Merci d'avoir regardé, liké et/ou partagé - j'apprécie vraiment :)
Faites attention à vous

#Korben
  • ✇Intelligence artificielle
  • FeatUp – L’algo qui permet à l’IA de passer à la haute résolution
    FeatUp, c’est le nom de ce nouvel algorithme révolutionnaire développé par une équipe de chercheurs du MIT dont le but consiste à faire passer la vision par ordinateur à la vitesse supérieure en lui offrant une résolution digne d’un œil de lynx. Comment ça marche ? En gros, FeatUp s’attaque au problème de la perte d’information qui se produit quand les algorithmes d’IA analysent une image. Normalement, ils la découpent en une grille de petits carrés de pixels qu’ils traitent par groupe. Rés

FeatUp – L’algo qui permet à l’IA de passer à la haute résolution

Par : Korben
20 mars 2024 à 07:32

FeatUp, c’est le nom de ce nouvel algorithme révolutionnaire développé par une équipe de chercheurs du MIT dont le but consiste à faire passer la vision par ordinateur à la vitesse supérieure en lui offrant une résolution digne d’un œil de lynx.

Comment ça marche ? En gros, FeatUp s’attaque au problème de la perte d’information qui se produit quand les algorithmes d’IA analysent une image. Normalement, ils la découpent en une grille de petits carrés de pixels qu’ils traitent par groupe. Résultat, la résolution finale est bien plus faible que l’image de départ. Avec FeatUp, fini la myopie ! L’algo est capable de capter tous les détails, des plus évidents aux plus subtils.

La clé, c’est de faire légèrement bouger et pivoter les images pour voir comment l’IA réagit à ces micro-variations. En combinant des centaines de « cartes de caractéristiques » ainsi générées, on obtient un ensemble de données haute définition super précis. Un peu comme quand on crée un modèle 3D à partir de plusieurs images 2D sous différents angles.

Mais pour que ça turbine, il a fallu créer une nouvelle couche de réseau de neurones ultra-efficace, baptisée « suréchantillonnage bilatéral conjoint« . Grâce à elle, FeatUp améliore les performances d’un tas d’algos différents, de la segmentation sémantique à l’estimation de profondeur.

Les applications potentielles sont dingues : imaginez pouvoir repérer un minuscule panneau sur une autoroute encombrée pour une voiture autonome, ou localiser précisément une tumeur sur une radio des poumons. Avec sa capacité à transformer des suppositions vagues en détails précis, FeatUp pourrait rendre tous ces systèmes bien plus fiables et sûrs.

L’objectif des chercheurs, c’est que FeatUp devienne un outil fondamental du deep learning, pour enrichir les modèles sans sacrifier l’efficacité. Comme le résume Mark Hamilton, co-auteur de l’étude, l’enjeu est d’obtenir « le meilleur des deux mondes : des représentations très intelligentes avec la résolution de l’image d’origine« .

Bref, si FeatUp tient ses promesses, on n’a pas fini d’entendre parler de cette prouesse technologique qui pourrait donner un sacré coup de boost à l’IA visuelle puisqu’elle fournit des versions haute résolution d’analyses d’images qu’on pensait jusque-là limitées à la basse résolution. »

Pour en savoir plus, direction l’article du MIT !

  • ✇Intelligence artificielle
  • LocalAI – L’alternative open source puissante à OpenAI
    Aujourd’hui, j’aimerais vous présenter LocalAI, une alternative open source à OpenAI. En tout cas, c’est comme ça que le créateur du projet le présente. Il s’agit d’une solution idéale pour tous ceux qui cherchent une API REST compatible avec les spécifications de l’API OpenAI pour l’inférence locale. Grâce à LocalAI, vous pouvez exécuter des modèles linguistiques, générer des images, de l’audio et bien d’autres choses encore, localement ou sur site avec du matériel grand public, et ce, sa

LocalAI – L’alternative open source puissante à OpenAI

Par : Korben
19 mars 2024 à 09:00

Aujourd’hui, j’aimerais vous présenter LocalAI, une alternative open source à OpenAI. En tout cas, c’est comme ça que le créateur du projet le présente. Il s’agit d’une solution idéale pour tous ceux qui cherchent une API REST compatible avec les spécifications de l’API OpenAI pour l’inférence locale.

Grâce à LocalAI, vous pouvez exécuter des modèles linguistiques, générer des images, de l’audio et bien d’autres choses encore, localement ou sur site avec du matériel grand public, et ce, sans avoir besoin d’un GPU ! Le projet a pour principal objectif de rendre l’IA accessible à tous.

Pour résumer, voici les principales caractéristiques de LocalAI :

  • Une API REST locale, alternative à OpenAI. Comme ça, vous gardez bien au chaud vos propres données.
  • Pas besoin de GPU. Pas besoin d’accès internet non plus. Toutefois, l’accélération GPU est possible en option.
  • Prise en charge de plusieurs modèles.
  • Dès qu’ils sont chargés une première fois, les modèles restent en mémoire pour une inférence plus rapide.
  • N’utilise pas de shell, mais des liaisons directes pour une inférence plus rapide et de meilleures performances.

En termes de fonctionnalités, LocalAI offre une large gamme d’options, parmi lesquelles :

  • La génération de texte avec les modèles GPT (comme llama.cpp ou gpt4all.cpp).
  • La conversion de texte en audio.
  • La transcription audio en texte avec whisper.cpp.
  • La génération d’images avec Stable Diffusion.
  • Les dernières fonctionnalités d’OpenAI récemment ajoutées comme l’API Vision par exemple.
  • La génération d’embeddings pour les bases de données vectorielles.
  • Les grammaires contraintes.
  • Le téléchargement de modèles directement à partir de Huggingface.

LocalAI est bien sûr un projet communautaire donc n’hésitez pas si vous souhaitez vous impliquer !

Pour commencer rapidement avec LocalAI, vous pouvez consulter leur guide Getting Started qui décrit les différentes méthodes d’installation et les exigences matérielles ou aller consulter les guides de la communauté. Je vous ferais aussi probablement un tutoriel prochainement si mon emploi du temps me le permet.

LocalAI est disponible sous forme d’image conteneur et de binaire, compatible avec divers moteurs de conteneurs tels que Docker, Podman et Kubernetes. Les images de conteneurs sont publiées sur quay.io et Docker Hub, et les binaires peuvent être téléchargés à partir de GitHub.

Concernant les exigences matérielles, ça varie en fonction de la taille du modèle et de la méthode de quantification utilisée mais pour choper quelques repères de performance avec différents backends, comme llama.cpp, vous pouvez consulter ce lien.

Maintenant pour en savoir plus, vous pouvez explorer le site localai.io. Vous y trouverez de nombreuses informations et des exemples d’utilisation pour vous aider à tirer le meilleur parti de LocalAI.

Merci à Lorenper

  • ✇Intelligence artificielle
  • Top 50 des IA génératives à découvrir absolument en 2024
    Depuis que ChatGPT a catapulté l’IA générative sur le devant de la scène il y a plus d’un an, des milliers de nouvelles apps IA grand public ont vu le jour. Ça va des générateurs de vidéos délirants aux assistants de productivité boostés à l’IA, en passant par des outils créatifs et même des compagnes virtuelles ! Andreesen Horowitz a épluché pour vous les data de trafic web d’un tas de services IA pour identifier le top 50 des apps IA les plus populaires du moment, histoire de faire le tri

Top 50 des IA génératives à découvrir absolument en 2024

Par : Korben
16 mars 2024 à 08:00

Depuis que ChatGPT a catapulté l’IA générative sur le devant de la scène il y a plus d’un an, des milliers de nouvelles apps IA grand public ont vu le jour. Ça va des générateurs de vidéos délirants aux assistants de productivité boostés à l’IA, en passant par des outils créatifs et même des compagnes virtuelles !

Andreesen Horowitz a épluché pour vous les data de trafic web d’un tas de services IA pour identifier le top 50 des apps IA les plus populaires du moment, histoire de faire le tri dans cette jungle.

Et devinez quoi ?

En à peine 6 mois, plus de 40% des boîtes dans le classement sont des petits nouveaux ! Ça bouge à une de ces vitesses dans le monde de l’IA…

Alors ok, les poids lourds comme ChatGPT, Midjourney ou Character.AI trustent toujours le haut du panier côté fréquentation. Mais de nouvelles catégories émergent, comme les outils de productivité (recherche, prise de notes, résumé de docs…) et même la musique ! Vous avez déjà essayé Suno ? Cette app permet de générer des chansons complètes à partir d’un simple texte. Bluffant !

Côté apps mobiles, c’est un peu la foire aux assistants façon ChatGPT et aux créateurs d’avatars. Forcément, avec toutes les photos qu’on a dans nos smartphones, y a de quoi alimenter les IA. Mais là où ça devient intéressant, c’est quand on creuse les usages spécifiques au mobile : les claviers IA pour écrire ses textos, les scanners de devoirs pour les étudiants flemmards, les profs de langues virtuels…

Plein de ces apps à succès viennent de studios basés à Istanbul ou Milan ! Les gars maîtrisent l’art de pondre des apps IA addictives et qui rapportent beaucoup pognon. Du genre Remini, l’outil d’amélioration de photos, qui a levé 155 millions de dollars ! 🤑

Bref, une chose est sûre, cette nouvelle génération d’apps IA est en train de bouleverser nos usages à vitesse grand V. Elles nous rendent plus créatifs, plus productifs… et parfois un peu accros aussi, faut bien l’avouer ! 😅 Mais honnêtement, quand je vois tout ce qui est possible aujourd’hui grâce à l’IA générative, j’ai hâte de découvrir la suite.

  • ✇Intelligence artificielle
  • PDFtoChat – Faites vous aider dans la lecture de PDF grâce à l’IA
    Il existe une foultitude d’outils de ce genre, plus ou moins gratuits, plus ou moins efficaces donc en général, je passe mon chemin, mais celui-ci étant vraiment cool, je tiens à la partager avec vous. Il s’agit de PDFtoChat qui comme son nom l’indique, permet de discuter avec un document PDF. En gros l’idée est simple : Vous uploadez sur le site votre PDF, celui-ci sera alors « absorbé » par une IA (Mixtral) et vous pourrez alors poser des questions sur le document. Comme ça, si c’est e

PDFtoChat – Faites vous aider dans la lecture de PDF grâce à l’IA

Par : Korben
3 mars 2024 à 09:00

Il existe une foultitude d’outils de ce genre, plus ou moins gratuits, plus ou moins efficaces donc en général, je passe mon chemin, mais celui-ci étant vraiment cool, je tiens à la partager avec vous.

Il s’agit de PDFtoChat qui comme son nom l’indique, permet de discuter avec un document PDF. En gros l’idée est simple : Vous uploadez sur le site votre PDF, celui-ci sera alors « absorbé » par une IA (Mixtral) et vous pourrez alors poser des questions sur le document.

Comme ça, si c’est en anglais, vous avez les explications en français. Si c’est trop long à lire, vous avez le résumé, si c’est trop complexe pour votre petit cerveau, l’IA vous l’expliquera. Et si vous cherchez une aiguille dans une botte de foin, l’IA la trouvera pour vous.

L’avantage de PDFtoChat, je trouve c’est son interface minimaliste qui permet de se concentrer sur les réponses et surtout des liens directs vers les pages qui ont servi de base pour vous répondre. Ça permet de vérifier que l’IA ne dit pas de conneries.

Pour utiliser PDFtoChat, il suffit d’aller sur le site et de vous connecter avec un compte Google. Ensuite vous pourrez uploader un PDF. Évitez quand même de mettre des choses confidentielles, car on ne sait pas trop où ça atterri. Mais pour lire des conditions générales d’utilisation ou se faire expliquer des études scientifiques afin de moins passer pour un con sur Twitter, c’est vachement pratique !

  • ✇Korben
  • Microsoft Designer – Pour retoucher ou créer vos images à l’aide de l’IA
    Ça fait un petit moment que ça existe et je n’avais pas encore pris le temps de vous en parler. En plus, ça a bien évolué, donc je pense qu’il est temps ! Il s’agit de Microsoft Designer, un outil qui va vous permettre de « bosser » sur vos meilleures idées d’images sans avoir de compétence en graphisme. Et pour cela, Microsoft nous offre différents outils à base d’IA qui permettront de faire tout un tas de trucs rigolos. Bon, déjà, il y a le Image Creator qui permet de générer des imag

Microsoft Designer – Pour retoucher ou créer vos images à l’aide de l’IA

Par : Korben
15 février 2024 à 09:00

Ça fait un petit moment que ça existe et je n’avais pas encore pris le temps de vous en parler. En plus, ça a bien évolué, donc je pense qu’il est temps !

Il s’agit de Microsoft Designer, un outil qui va vous permettre de « bosser » sur vos meilleures idées d’images sans avoir de compétence en graphisme. Et pour cela, Microsoft nous offre différents outils à base d’IA qui permettront de faire tout un tas de trucs rigolos.

Bon, déjà, il y a le Image Creator qui permet de générer des images à partir d’un prompt de votre choix. Toutefois, pour ceux qui ont l’imagination d’un parpaing, il y a surtout des tonnes d’exemples de prompts très cools permettant de faire des tas d’illustrations aux styles dont « toute ressemblance existante ou ayant existé avec le style d’un artiste, ne serait que fortuite, évidemment« .

Vous pouvez par exemple avoir un template pour faire votre propre image de figurine Funko.

Voici ce que ça donne avec moi :

Rigolo non ?

Mais Designer va encore plus loin, puisqu’il permet de concevoir à l’aide d’un prompt, un design complet comme vous le feriez sur Canva. Mais également supprimer des éléments sur une images, étendre votre image (outpainting), virer le fond d’une image…

Sans oublier un générateur de kit pour votre marque ou d’album photo, ou encore de stickers. Et c’est gratuit, c’est ça qui est fou !

Voici ce que donnerait mon kit de marque Korben. Bon je suis pas convaincu mais c’est sympa quand même.

Voilà, vous l’aurez compris, Microsoft vient totalement d’éradiquer une profession à l’aide d’un simple site web.

Pour tester c’est par ici que ça se passe.

  • ✇Korben
  • LiteLLM – Pour discuter avec toutes les API LLM en utilisant la syntaxe OpenAI
    Si vous codez en Python autour d’API de LLM comme celle d’OpenAI, d’Anthropic ou encore de Huggingface…etc., je vous présente LiteLLM qui risque de vous faire gagner pas mal de temps. Il s’agit d’une lib Python capable d’interagir avec tout un tas d’API en utilisant le format de celle d’OpenAI. Elle fournit une interface simple et uniformisée pour appeler ces modèles , ce qui va vous faciliter leur utilisation pour des choses comme de la génération de texte, de la traduction ou encore du ch

LiteLLM – Pour discuter avec toutes les API LLM en utilisant la syntaxe OpenAI

Par : Korben
14 février 2024 à 09:00

Si vous codez en Python autour d’API de LLM comme celle d’OpenAI, d’Anthropic ou encore de Huggingface…etc., je vous présente LiteLLM qui risque de vous faire gagner pas mal de temps.

Il s’agit d’une lib Python capable d’interagir avec tout un tas d’API en utilisant le format de celle d’OpenAI. Elle fournit une interface simple et uniformisée pour appeler ces modèles , ce qui va vous faciliter leur utilisation pour des choses comme de la génération de texte, de la traduction ou encore du chat…

Pour l’installer, rien de plus simple :

pip install litellm

Ensuite, y’a plus qu’à créer un objet LiteLLM dans votre code, en lui fournissant l’ID et le nom du modèle à utiliser. Par exemple pour vous connecter à OpenAI, le code sera le suivant :

from litellm import completion
import os

## set ENV variables
os.environ["OPENAI_API_KEY"] = "your-api-key"

response = completion(
  model="gpt-3.5-turbo", 
  messages=[{ "content": "Hello, how are you?","role": "user"}]
)

Pour Claude 2, ça sera ça :

from litellm import completion
import os

## set ENV variables
os.environ["ANTHROPIC_API_KEY"] = "your-api-key"

response = completion(
  model="claude-2", 
  messages=[{ "content": "Hello, how are you?","role": "user"}]
)

Pour utiliser Ollama, ça donnerait également ça :

from litellm import completion

response = completion(
            model="ollama/llama2", 
            messages = [{ "content": "Hello, how are you?","role": "user"}], 
            api_base="http://localhost:11434"
)

Donc pas grand-chose qui change.

Vous l’aurez donc compris, LiteLLM permet de pondre un seul et unique code, mais pour discuter avec tous les fournisseurs d’IA du moment (et les logiciels libres existants)

Y’a la possibilité d’avoir du stream sur les réponses (c’est à dire, le texte qui s’affiche au fur et à mesure), de la gestion des exceptions, du log, sans oublier du calcul de coût et l’usage que vous pouvez avoir de ces API afin de ne pas éclater votre compte en banque.

LiteLLM intègre également un proxy OpenAI pour rediriger vos requêtes vers le modèle de votre choix. Pour l’installer :

pip install 'litellm[proxy]'

Lancez ensuite le proxy avec le modèle de votre choix :

litellm --model huggingface/bigcode/starcoder

Et lui passer vos requêtes dans le code python directement :

import openai # openai v1.0.0+
client = openai.OpenAI(api_key="anything",base_url="http://0.0.0.0:8000") # set proxy to base_url
# request sent to model set on litellm proxy, `litellm --model`
response = client.chat.completions.create(model="gpt-3.5-turbo", messages = [
    {
        "role": "user",
        "content": "this is a test request, write a short poem"
    }
])

print(response)

Si LiteLLM vous intéresse, vous trouverez toutes les infos sur la page Github ainsi que les endpoints ici.

Open Interpreter - Déchainez la puissance de l'IA dans votre Terminal

Par : Korben
5 février 2024 à 13:21

💾

Dans cette vidéo, j'explore avec vous l'outil IA Open Interpreter qui vous permet d'avoir ChatGPT ou tout autre LLM dans votre terminal afin d'exécuter du code, agir sur votre OS, ou tout simplement vous accompagner dans l'écriture de lignes de commandes. C'est indispensable comme outil !

★ POUR SOUTENIR LA CHAINE ★

Venez voir ce que je vous propose ici : https://patreon.com/korben

★ RETROUVEZ-MOI SUR TWITCH EN LIVE ★

Je fais également du live stream sur : https://twitch.tv/korbenfr

⚑ S'ABONNER A LA CHAINE ⚑
Si vous ne voulez pas rater les prochaines vidéos, n'hésitez pas à vous abonner, à cocher la cloche et tout le reste via http://www.youtube.com/subscription_center?add_user=Korben00

★★★ RETROUVEZ-MOI AILLEURS ★★★
Laissez un commentaire sur cette vidéo et j'essayerai d'y répondre. Ou vous pouvez également vous me retrouver sur différentes plateformes sociales :
Mon site : https://korben.info
Pour s'abonner au podcast : https://paralleles.org
Twitter : https://twitter.com/Korben
Instagram : https://www.instagram.com/korben00/
TikTok : https://www.tiktok.com/@korbeninfo
Facebook : https://www.facebook.com/ManuelDorne
La chaine YouTube Webosaures : https://www.youtube.com/channel/UCu34Tq5qMR-FiTYwLyy9U6w

✔ Liens mentionnés dans la vidéo ✔
https://github.com/KillianLucas/open-interpreter/

Merci d'avoir regardé, liké et/ou partagé - j'apprécie vraiment :)
Faites attention à vous

#Korben

Comment extraire les données d'un site web pour en faire un Assistant IA

Par : Korben
15 janvier 2024 à 11:10

💾

Dans cette vidéo, je vous explique comment installer GPT Crawler afin de récupérer l'ensemble du contenu d'un site web pour ensuite l'utiliser comme base de connaissance dans un Assistant ChatGPT.

★ POUR SOUTENIR LA CHAINE ★

Venez voir ce que je vous propose ici : https://patreon.com/korben

★ RETROUVEZ-MOI SUR TWITCH EN LIVE ★

Je fais également du live stream sur : https://twitch.tv/korbenfr

⚑ S'ABONNER A LA CHAINE ⚑
Si vous ne voulez pas rater les prochaines vidéos, n'hésitez pas à vous abonner, à cocher la cloche et tout le reste via http://www.youtube.com/subscription_center?add_user=Korben00

★★★ RETROUVEZ-MOI AILLEURS ★★★
Laissez un commentaire sur cette vidéo et j'essayerai d'y répondre. Ou vous pouvez également vous me retrouver sur différentes plateformes sociales :
Mon site : https://korben.info
Pour s'abonner au podcast : https://paralleles.org
Twitter : https://twitter.com/Korben
Instagram : https://www.instagram.com/korben00/
TikTok : https://www.tiktok.com/@korbeninfo
Facebook : https://www.facebook.com/ManuelDorne
La chaine YouTube Webosaures : https://www.youtube.com/channel/UCu34Tq5qMR-FiTYwLyy9U6w

✔ Liens mentionnés dans la vidéo ✔
https://github.com/BuilderIO/gpt-crawler
https://chat.openai.com

Merci d'avoir regardé, liké et/ou partagé - j'apprécie vraiment :)
Faites attention à vous

#Korben

Les bots personnalisé ChatGPT

Par : Korben
21 décembre 2023 à 14:33

💾

Dans cette vidéo, on fait le tour des bots personnalisables de ChatGPT. Je vous montre comment ça fonctionne et ce qu'on peut faire avec, notamment avec l'utilisation des actions.

★ POUR SOUTENIR LA CHAINE ★

Venez voir ce que je vous propose ici : https://patreon.com/korben

★ RETROUVEZ-MOI SUR TWITCH EN LIVE ★

Je fais également du live stream sur : https://twitch.tv/korbenfr

⚑ S'ABONNER A LA CHAINE ⚑
Si vous ne voulez pas rater les prochaines vidéos, n'hésitez pas à vous abonner, à cocher la cloche et tout le reste via http://www.youtube.com/subscription_center?add_user=Korben00

★★★ RETROUVEZ-MOI AILLEURS ★★★
Laissez un commentaire sur cette vidéo et j'essayerai d'y répondre. Ou vous pouvez également vous me retrouver sur différentes plateformes sociales :
Mon site : https://korben.info
Pour s'abonner au podcast : https://paralleles.org
Twitter : https://twitter.com/Korben
Instagram : https://www.instagram.com/korben00/
TikTok : https://www.tiktok.com/@korbeninfo
Facebook : https://www.facebook.com/ManuelDorne
La chaine YouTube Webosaures : https://www.youtube.com/channel/UCu34Tq5qMR-FiTYwLyy9U6w

✔ Liens mentionnés dans la vidéo ✔
Pas de liens pour cette vidéo.

Merci d'avoir regardé, liké et/ou partagé - j'apprécie vraiment :)
Faites attention à vous

#Korben
  • ✇Intelligence artificielle
  • Transformez un site web en Bot ChatGPT
    Je me tape régulièrement de la documentation technique assez dense, et parfois, faut le reconnaitre, y’a des trucs qui m’échappent, que je ne comprends pas ou que j’ai du mal à trouver tellement le contenu est riche. Heureusement avec les assistants IA de ChatGPT, tout ceci va pouvoir changer. En effet, avec l’outil GPT Crawler, il est possible de récupérer toutes les données d’un site web, pour en faire ensuite un JSON assimilable et utilisable par les Assistants GPTs de ChatGPT. Ensuit

Transformez un site web en Bot ChatGPT

Par : Korben
28 décembre 2023 à 09:00

Je me tape régulièrement de la documentation technique assez dense, et parfois, faut le reconnaitre, y’a des trucs qui m’échappent, que je ne comprends pas ou que j’ai du mal à trouver tellement le contenu est riche.

Heureusement avec les assistants IA de ChatGPT, tout ceci va pouvoir changer. En effet, avec l’outil GPT Crawler, il est possible de récupérer toutes les données d’un site web, pour en faire ensuite un JSON assimilable et utilisable par les Assistants GPTs de ChatGPT.

Ensuite, vous pourrez discuter avec votre bot personnalisé ChatGPT qui répondra à toutes vos questions en se basant sur la fameuse documentation. Même chose si vous avez un site web sur une thématique précise. Il est possible de donner à manger votre site à l’IA pour ensuite en faire un Bot ChatGPT que vous pourrez proposer à vos clients / collègues et qui pourra répondre à toutes leurs questions. Génial non ?

Si vous ne connaissez pas encore ces fameux assistants, j’ai fait une vidéo là dessus pour mes Patreons d’amour qui me soutiennent financièrement pour que je puisse continuer à alimenter ce site avec de jolies pépites.

Maintenant pour GPT Crawler, son utilisation est assez simple. Je vous détaille tout dans la vidéo ci-dessous. Vous verrez, c’est super simple à utiliser :

Allez, je vous attends sur mon Patreon !

  • ✇Intelligence artificielle
  • Interagir avec PostgreSQL en langage naturel grâce à l’IA
    On fait quand même de belles choses avec l’IA. J’en veux pour preuve ce projet open source encore au stade expérimental qui utilise un système d’IA multi agents vous permettant de poster des questions à une base PostgreSQL en langage naturel. Propulsé par OpenAI, AutoGen, Postgres, Guidance, Aider, Poetry et Python, c’est l’un des premiers de son genre capable d’utiliser des LLMs (Large Language Modèles) pour faire de la prise de décision avec des consignes réduites ou peu explicites. Po

Interagir avec PostgreSQL en langage naturel grâce à l’IA

Par : Korben
14 décembre 2023 à 09:00

On fait quand même de belles choses avec l’IA. J’en veux pour preuve ce projet open source encore au stade expérimental qui utilise un système d’IA multi agents vous permettant de poster des questions à une base PostgreSQL en langage naturel.

Propulsé par OpenAI, AutoGen, Postgres, Guidance, Aider, Poetry et Python, c’est l’un des premiers de son genre capable d’utiliser des LLMs (Large Language Modèles) pour faire de la prise de décision avec des consignes réduites ou peu explicites.

Pour vous former à cet outil nommé pompeusement « Multi-Agent Postgres Data Analytics« , son créateur a réalisé une série de vidéos que voici (c’est une playlist)…

Vous pourrez ensuite vous positionner sur une branche du projet qui correspond à une vidéo.

Pour ce faire, clonez le dépôt :

git clone https://github.com/disler/multi-agent-postgres-data-analytics.git

Puis lancez

git branch -a 

pour voir toutes les branches correspondant chacune à une vidéo de la playlist.

Faites alors un :

git checkout <nom de la branche>

pour vous positionner sur la branche de votre choix.

Puis lancez la commande :

poetry install
cp .env.sample .env 

Editez le fichier .env en y mettant l’URL de Postgres et votre clé OpenAI

Vous pourrez alors lancer un prompt sur votre base de données comme ceci :

poetry run start --prompt "<posez la question de votre choix à l'agent IA>"

Commencez par des questions simples pour prendre la température, puis montez progressivement en complexité.

Il s’agit là de construire des systèmes qui prennent des décisions comme nous le ferions, mais évidemment, tout n’est pas rose au royaume des systèmes multi-agents IA. C’est un art de bien définir les rôles et la fonction de vos agents et ça peut vite coûter cher, surtout en phase de test… donc allez y molo mais vous ne serez pas déçu.

  • ✇Intelligence artificielle
  • Distil-Whisper – Pour faire de la reconnaissance vocale rapide
    Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français. Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, D

Distil-Whisper – Pour faire de la reconnaissance vocale rapide

Par : Korben
7 décembre 2023 à 09:00

Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français.

Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, Distil-Whisper n’a qu’un taux d’erreur de 1%, ce qui est plutôt impressionnant.

Cela est possible grâce à son algorithme fractionné, qui permet de transcrire des fichiers audio longs 9 fois plus rapidement que l’algorithme séquentiel d’OpenAI. N’ayons pas peur des mots, c’est une véritable révolution pour ceux qui ont besoin de traiter de grands volumes de données audio.

Voici l’architecture du modèle Distil-Whisper :

Actuellement, Distil-Whisper est disponible uniquement pour la reconnaissance vocale en anglais, mais avec l’évolution rapide de ce domaine, on peut s’attendre à ce que d’autres langues soient prises en charge bientôt.

Distil-Whisper est donc conçu pour remplacer Whisper en matière de reconnaissance vocale en anglais, avec cinq avantages clés : une inférence plus rapide, une meilleure robustesse au bruit, une réduction des hallucinations, une utilisation en décodage spéculatif et une licence permissive pour les applications commerciales. Ce bijou de technologie a été entraîné sur 22 000 heures de données audio pseudo-étiquetées dans 10 domaines différents et en provenance de plus de 18 000 intervenants.

Toute la doc et les exemples d’utilisation son ici.

Le futur de la reconnaissance vocale semble prometteur !

  • ✇Intelligence artificielle
  • Flowframes – Redonnez de la fluidité aux vidéos et Gifs animés saccadés grâce à l’IA
    Flowframes est une application pour Windows qui fait appel à des modèles d’IA avancés pour « interpoler » les vidéos et ainsi augmenter leur fréquence d’images. Le programme est compatible avec plusieurs formats vidéo (et GIFs animés), et offre la possibilité d’exporter vos créations en vidéo, en GIF ou même en images. Pour profiter de cette merveille, il vous faut juste une carte graphique compatible Vulkan, et un ordinateur sous Windows 10/11. Flowframes s’appuie sur des projets comme

Flowframes – Redonnez de la fluidité aux vidéos et Gifs animés saccadés grâce à l’IA

Par : Korben
27 novembre 2023 à 09:00

Flowframes est une application pour Windows qui fait appel à des modèles d’IA avancés pour « interpoler » les vidéos et ainsi augmenter leur fréquence d’images. Le programme est compatible avec plusieurs formats vidéo (et GIFs animés), et offre la possibilité d’exporter vos créations en vidéo, en GIF ou même en images.

Pour profiter de cette merveille, il vous faut juste une carte graphique compatible Vulkan, et un ordinateur sous Windows 10/11.

Flowframes s’appuie sur des projets comme nihui/rife-ncnn-vulkan, DAIN-NCNN, FLAVR et XVFI. Pour vous donner une idée de ce que le logiciel peut réaliser, voici quelques exemples qui montrent les améliorations impressionnantes apportées à ces images :

Une fois que vous avez installé le logiciel, ouvrez-le et importez la vidéo que vous souhaitez améliorer. Flowframes vous proposera plusieurs options pour ajuster la qualité et le rendu de la vidéo. Vous pouvez par exemple augmenter la fréquence d’images, ce qui donnera à votre vidéo une sensation de fluidité supplémentaire.

Le mieux dans tout ça, c’est que vous pouvez télécharger Flowframes et l’essayer dès maintenant ! Alors malheureusement, c’est pas open source mais c’est freeware.

Avec Flowframes, c’est donc plus facile que jamais de donner une seconde vie à de vieilles vidéos oubliées ou de remettre au goût du jour des Gifs animés un peu saccadés.

Son potentiel est énorme, et les résultats sont stupéfiants.

  • ✇Intelligence artificielle
  • LM Studio – Pour faire tourner des LLMs en local et les utiliser directement dans votre code
    Avec tout ce qui se passe côté OpenAI en ce moment, je suis en train de chercher des alternatives libres pour re-brancher sur mes scripts existants qui ne demandent pas trop de réécriture. C’est simplement un principe de précaution pour ne pas être pris au dépourvu si la qualité de service baisse côté ChatGPT. Et pour ça, j’ai besoin d’un modèle de langage et d’un outil qui permette de transformer ce modèle en API que je peux appeler dans mon code. Pour l’instant, tout ceci est en phase

LM Studio – Pour faire tourner des LLMs en local et les utiliser directement dans votre code

Par : Korben
22 novembre 2023 à 10:21

Avec tout ce qui se passe côté OpenAI en ce moment, je suis en train de chercher des alternatives libres pour re-brancher sur mes scripts existants qui ne demandent pas trop de réécriture. C’est simplement un principe de précaution pour ne pas être pris au dépourvu si la qualité de service baisse côté ChatGPT.

Et pour ça, j’ai besoin d’un modèle de langage et d’un outil qui permette de transformer ce modèle en API que je peux appeler dans mon code.

Pour l’instant, tout ceci est en phase de R&D mais je me suis dit qu’un petit retour, ça vous ferait plaisir. Je suis donc parti sur un modèle OpenChat censé être aussi performant qu’un ChatGPT 3.5. Jusque là rien de compliqué.

J’ai donc fait tourner ce modèle dans llamacpp sans souci en mode discussion. Puis je suis parti en quête d’un bridge pour avoir des API. Je suis donc tombé sur Llama-cpp-python avec son option Server qui malheureusement n’a jamais voulu correctement fonctionner chez moi pour de sombres incompatibilités x64 / ARM64 même dans pyenv. Bref…

N’ayant pas le temps d’y passer des semaines, on m’a ensuite gentiment rappelé durant mon live Twitch, que je pouvais faire ça avec Ollama, ce que j’avais complètement zappé alors que j’ai fait une vidéo pour les Patreons à ce sujet (arf).

Puis Thoxy et LePopeye, lecteurs de Korben.info, m’ont recommandé un outil baptisé LM Studio dont je vais vous parler dans cet article.

LM Studio est un outil fonctionnant sous macOS, Windows et Linux qui permet très simplement de télécharger des LLMs (Large Language Models) et de les faire tourner en local. Ainsi vous pouvez discuter avec ces modèles via un chat comme vous le feriez avec ChatGPT.

Mais ce n’est pas tout puisque l’outil offre des tas de possibilités de réglages (y compris du support pour les Mac Silicon) pour optimiser le modèle. Et bien sûr, la fonctionnalité qui m’a le plus intéressé, c’est la possibilité de faire tourner un serveur local qui sert une API identique à celle de ChatGPT.

Cela permet, sans énormément de modifs dans votre code, de basculer des services d’OpenAI à une IA locale de manière transparente ou presque pour peut que vous utilisiez la lib OpenAI 0.28.1

pip install openai==0.28.1

Voici un code d’exemple qui montre comment l’appeler en Python :

import os
import openai

openai.api_base = "http://localhost:1234/v1" 
openai.api_key = "" 

completion = openai.ChatCompletion.create(
  model="local-model",
  messages=[
    {"role": "system", "content": "Always answer in rhymes."},
    {"role": "user", "content": "Introduce yourself."}
  ]
)

print(completion.choices[0].message)

Pas besoin de clé API donc. Et pas besoin de casser tout votre code. Suffit de migrer vers LM Studio. Puis c’est gratuit 🙂

Bref, j’ai fait mes tests comme ça et malheureusement pour le moment, c’est pas super concluant. L’outil répond correctement en version « chat » mais son paramétrage un peu différent en version serveur. Donc faut encore que je gratte un peu pour trouver le dressage optimale de mon IA. Mais j’y suis presque.

Si ça vous branche de tester LM Studio, c’est par ici que ça se passe.

  • ✇Intelligence artificielle
  • Améliorez vos images avec Final2x, le logiciel de super-résolution open source
    Vous avez sûrement déjà été confronté à cette situation : vous avez une image de faible résolution, et vous voulez absolument l’améliorer sans perdre en qualité pour ensuite l’imprimer ou la diffuser sur un bon vieux résal social. J’ai une excellente nouvelle pour vous : Final2x est là pour sauver la mise ! Cet outil puissant permet d’augmenter la résolution des images en utilisant plusieurs modèles tels que RealCUGAN, RealESRGAN, Waifu2x et SRMD. Ce qui veut dire que peu importe la tai

Améliorez vos images avec Final2x, le logiciel de super-résolution open source

Par : Korben
15 novembre 2023 à 09:00

Vous avez sûrement déjà été confronté à cette situation : vous avez une image de faible résolution, et vous voulez absolument l’améliorer sans perdre en qualité pour ensuite l’imprimer ou la diffuser sur un bon vieux résal social.

J’ai une excellente nouvelle pour vous : Final2x est là pour sauver la mise !

Cet outil puissant permet d’augmenter la résolution des images en utilisant plusieurs modèles tels que RealCUGAN, RealESRGAN, Waifu2x et SRMD. Ce qui veut dire que peu importe la taille de l’image que vous souhaitez obtenir, vous pouvez compter sur ces algorithmes pour améliorer la résolution et la qualité des oeuvres.

Comme ça vous pourrez zoomer comme dans les Expert à Miami sur la plaque d’immatriculation de la voiture du chasseur qui a tiré sur votre maison.

Final2x est disponible pour Windows, MacOS et Linux, et dispose d’une interface agréable avec un mode claire / sombre, et la possibilité de modifier l’échelle des images voulues pour avoir du très très gros.

Pour vous lancer, rendez-vous sur le dépôt GitHub du projet et suivez les instructions pour l’installation et l’utilisation de Final2x. Vous y trouverez également des exemples d’images améliorées, de quoi vous donner un aperçu de ce que cet outil est capable de faire.

  • ✇Intelligence artificielle
  • Replay – Remixez vos MP3 en utilisant la voix d’une star grâce à l’IA
    Voilà enfin un outil accessible qui permet à partir d’un modèle IA, de changer une voix pour refaire une conversation ou une chanson par exemple. Ca s’appelle Replay, c’est gratuit, dispo sous macOS et Windows, et c’est hyper facile à utiliser. Vous enregistrez votre voix ou vous importez un MP3, puis vous choisissez un modèle parmi ceux qui sont proposé comme Freddy Mercury, Kanye West, Ariana Grande, Barack Obama ou si tout ça ne vous convient pas, vous pouvez également, vous rendrez sur

Replay – Remixez vos MP3 en utilisant la voix d’une star grâce à l’IA

Par : Korben
14 novembre 2023 à 15:59

Voilà enfin un outil accessible qui permet à partir d’un modèle IA, de changer une voix pour refaire une conversation ou une chanson par exemple.

Ca s’appelle Replay, c’est gratuit, dispo sous macOS et Windows, et c’est hyper facile à utiliser. Vous enregistrez votre voix ou vous importez un MP3, puis vous choisissez un modèle parmi ceux qui sont proposé comme Freddy Mercury, Kanye West, Ariana Grande, Barack Obama ou si tout ça ne vous convient pas, vous pouvez également, vous rendrez sur le site Weights pour y télécharger les modèles IA de la communauté.

Vous y retrouverez des truc comme la voix française de Margot Robbie, Bob l’éponge ou encore Macron et d’autres politiciens de seconde zone.

En fonction de votre machine, ça prendra plus ou moins de temps à générer. N’oubliez de régler le Pitch à -12 pour changer une voix aiguë en grave et inversement.

D’ailleurs, pour le fun, voici un petit « Pour que tu m’aimes encore » par notre Président chéri.

Amusez-vous bien !!!

  • ✇Intelligence artificielle
  • Une jolie liste de GPTs, le meilleurs des bots ChatGPT
    J’sais pas si vous avez la chance d’avoir un abonnement à ChatGPT, mais avec l’arrivée des GPTs, c’est à dire des « bots » ChatGPT personnalisables, on peut faire des trucs vraiment cool. Pour ma part, je me suis fait un « assistant travaux » pour me conseiller un peu dans certains trucs de bricolage, et un assistant « Planning » pour m’aider à mieux m’organiser sans burn-outer. Voilà à part ça, je manque un peu d’idées géniales. Mais ce n’est pas grave, car il existe un site nommé GPT L

Une jolie liste de GPTs, le meilleurs des bots ChatGPT

Par : Korben
14 novembre 2023 à 14:28

J’sais pas si vous avez la chance d’avoir un abonnement à ChatGPT, mais avec l’arrivée des GPTs, c’est à dire des « bots » ChatGPT personnalisables, on peut faire des trucs vraiment cool.

Pour ma part, je me suis fait un « assistant travaux » pour me conseiller un peu dans certains trucs de bricolage, et un assistant « Planning » pour m’aider à mieux m’organiser sans burn-outer. Voilà à part ça, je manque un peu d’idées géniales.

Mais ce n’est pas grave, car il existe un site nommé GPT List qui recense une belle brochette de bots personnalisés que les gens ont créé et partagent publiquement. On y retrouve par exemple un bot spécialisé dans les questions d’amour, de rupture, de sentiments…

…un bot qui vous aidera en marketing, un autre qui vous accompagnera dans le dressage de votre chien, et même un bot qui échangera avec vous selon les principes du philosophe grec Socrate ou qui fera votre logo ou vous racontera une bonne blague de papa.

Pour les plus techos, il y a même un expert en électronique et systèmes embarqués, un autre qui vous fera du support technique informatique, ou encore Build Buddy pour tout ce qui est DIY et bricolage et j’en passe…

Si cette liste vous intéresse, vous pouvez la consulter en cliquant ici et même y ajouter vos propres versions améliorées de ChatGPT.

❌
❌