Intelligence artificielle
Podgenai – Générez des podcasts de A à Z avec l’IA
Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ? Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil. Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script comple

Podgenai – Générez des podcasts de A à Z avec l’IA

Par : Korben

17 septembre 2024 à 09:00

Vous rêvez de créer votre propre podcast mais vous manquez de temps ou d’inspiration ?

Podgenai est là pour vous aider à générer du contenu audio grâce à la POUISSANCE de l’intelligence artificielle ! Aidée de GPT-4, cette application Python vous permet de produire des épisodes d’environ une heure sur n’importe quel sujet en un clin d’œil.

Le principe est simple, vous choisissez un thème, l’IA analyse le sujet en profondeur, identifie les sous-thèmes pertinents et génère un script complet et structuré pour votre émission. Et pas besoin d’être un expert, puisque l’application vulgarise les concepts techniques tout en rendant ça captivant pour votre audience.

L’outil transforme donc directement le texte en audio grâce à une synthèse vocale de bonne qualité qui vous permet de choisir parmi plusieurs voix. Le son produit est clair, naturel et dynamique et vous avez également un contrôle total sur le contenu généré puisqu’il est possible d’affiner les contenus, d’ajuster la longueur de l’épisode ou encore d’insérer vos propres commentaires et anecdotes. Bref, tout ce qu’il faut pour créer un podcast unique en anglais par contre… A voir ce que ça rend sur un texte en français… y’aura peut-être un petit effet Jane Birkin.

Économie de matos, de temps et surtout c’est accessible à tous. Alors bien sûr, je pense que (pour le moment), ça ne peut pas arriver au niveau d’un vrai podcast fait par un vrai humain… mais pour produire vos propres podcast thématiques rapidement afin de défricher un sujet qui vous tient à cœur et écouter tout ça en voiture lors de votre prochain déplacement, je trouve ça plutôt cool.

Vous l’aurez compris, pour moi c’est plutôt à réserver à des fins personnelles que pour une diffusion grand publique. Mais ça n’a pas arrêté les créateurs de l’outil qui ont mis en ligne leur podcast 100% généré par IA à des fins de démo. Ça vous permettra de vous faire un avis.

Toutes les infos sont ici.

Intelligence artificielle
Dot – L’app IA locale pour interagir avec vos documents (RAG)
Vous rêvez d’exploiter la puissance des grands modèles de langage pour interagir avec vos documents, mais vous ne voulez pas que vos données quittent votre ordinateur ? Et bien j’ai ce qu’il vous faut ! Admettons que vous avez une tonne de documents sur votre disque dur, des PDFs, des fichiers Word, des présentations PowerPoint, des feuilles de calcul Excel et même des fichiers Markdown… Vous aimeriez pouvoir obtenir des réponses à vos questions à partir de leur contenu, avoir des résumés,

Dot – L’app IA locale pour interagir avec vos documents (RAG)

Intelligence artificielle

Par : Korben

11 septembre 2024 à 09:00

Vous rêvez d’exploiter la puissance des grands modèles de langage pour interagir avec vos documents, mais vous ne voulez pas que vos données quittent votre ordinateur ? Et bien j’ai ce qu’il vous faut !

Admettons que vous avez une tonne de documents sur votre disque dur, des PDFs, des fichiers Word, des présentations PowerPoint, des feuilles de calcul Excel et même des fichiers Markdown… Vous aimeriez pouvoir obtenir des réponses à vos questions à partir de leur contenu, avoir des résumés, générer de nouvelles idées à partir de ces informations… Bref, avoir un genre d’assistant intelligent qui pourrait comprendre et manipuler toutes ces données. Et bien c’est exactement ce que propose Dot !

Au cœur de son fonctionnement, on trouve un modèle de langage pré-entraîné, en l’occurrence une version de Mistral 7B au moment où j’écris ces lignes, qui tourne en local et permet de faire ce qu’on appelle du « Retrieval Augmented Generation » ou RAG.

En gros, ça veut dire que l’IA ne se contente pas de générer du texte à partir de ce qu’elle a appris, mais qu’elle va aussi chercher des informations pertinentes dans une base de connaissances locale. Vous sélectionnez un dossier contenant les documents que vous voulez indexer, Dot va les analyser, les découper en morceaux, calculer des embeddings et construire un index permettant de retrouver rapidement les passages les plus pertinents pour une requête donnée.

Et ensuite, vous pouvez discuter avec Dot comme vous le feriez avec un assistant IA classique. Vous lui posez une question, et il utiliser ses connaissances générales pour formuler une réponse, mais aussi aller piocher dans votre base documentaire pour l’enrichir avec des informations spécifiques. Du coup, ça booste d’un cran la pertinence et la qualité des réponses obtenues !

Bien sûr, comme Dot tourne exclusivement en local, vous n’avez pas à vous inquiéter pour la confidentialité de vos données puisque rien ne quitte jamais votre machine. C’est un gros avantage par rapport aux solutions cloud qui vont envoyer vos documents sur des serveurs distants. Et si vous avez besoin d’un coup de main pour des tâches qui ne nécessitent pas forcément d’accéder à vos documents, Dot intègre un mode « Big Dot ». Vous basculez dessus en un clic, et vous vous retrouvez avec un assistant IA généraliste, capable de tenir des conversations sur n’importe quel sujet, d’aider à la rédaction, de faire du brainstorming, etc. C’est comme avoir un ChatGPT en local sous la main à tout moment.

Si ça vous dit de tester, c’est gratuit, open source, dispo sous macOS, Windows, Linux et disponible ici : https://dotapp.uk/

Intelligence artificielle
LLocalSearch – Le moteur de recherche local basé sur des agents IA
LLocalSearch est un moteur de recherche qui fonctionne entièrement en local sur votre machine, qui utilise des agents IA pour effectuer des recherches directement sur votre ordinateur. Le concept est simple mais diablement efficace. Lorsque vous lui posez une question, le système va enchaîner plusieurs modèles de langage pour trouver la réponse la plus pertinente. Tout le processus est transparent, vous pouvez suivre en temps réel la progression des agents et voir comment ils arrivent à la

LLocalSearch – Le moteur de recherche local basé sur des agents IA

Intelligence artificielle

Par : Korben

25 août 2024 à 09:00

LLocalSearch est un moteur de recherche qui fonctionne entièrement en local sur votre machine, qui utilise des agents IA pour effectuer des recherches directement sur votre ordinateur.

Le concept est simple mais diablement efficace. Lorsque vous lui posez une question, le système va enchaîner plusieurs modèles de langage pour trouver la réponse la plus pertinente. Tout le processus est transparent, vous pouvez suivre en temps réel la progression des agents et voir comment ils arrivent à la réponse finale, tout ça sans qu’aucune donnée ne soit envoyée sur des serveurs distants.

Mais il ne se contente pas d’être un simple moteur de recherche en local. Il propose également des fonctionnalités avancées comme la possibilité de poser des questions de suivi pour affiner votre requête initiale. Vous pouvez ainsi avoir un véritable dialogue avec le système pour obtenir exactement l’information dont vous avez besoin.

Un autre atout de LLocalSearch est sa capacité à fonctionner sur du matériel abordable. Pas besoin d’une machine de guerre avec des dizaines de gigaoctets de RAM et une carte graphique dernier cri. Le système est optimisé pour tourner sur des configurations modestes, comme le montre la vidéo de démo qui utilise un modèle de seulement 7 milliards de paramètres.

Côté interface, LLocalSearch mise sur la simplicité et l’efficacité. Que vous utilisiez le système sur ordinateur ou sur mobile, vous bénéficiez d’une interface épurée avec un champ de recherche central et un affichage clair des résultats, le tout avec un joli design soigné qui propose un mode clair et un mode sombre pour s’adapter à vos préférences.

De plus, il est très simple à déployer grâce à Docker. Quelques lignes de commande suffisent pour lancer le système et commencer à l’utiliser.

git clone https://github.com/nilsherzig/LLocalSearch.git
cd ./LLocalSearch
# 🔴 vérifier les variables d'environnement dans le fichier compose (et le fichier `env-example`) et les changer si nécessaire
docker-compose up

Bien sûr, comme tout projet en phase de démarrage, LLocalSearch n’est pas exempt de bugs et de limitations. Toutes les fonctionnalités prévues ne sont pas encore implémentées et il faudra sans doute un peu de temps avant d’arriver à un système aussi complet et robuste que les moteurs de recherche en ligne que nous connaissons. Mais le potentiel est là et il ne fait aucun doute que ça va rapidement progresser grâce à une communauté open source motivée et passionnée.

En attendant, n’hésitez pas à tester cet outil et à vous faire votre propre idée.

Intelligence artificielle
Auto-News – L’agrégateur de news automatisé par IA
Ce serait cool si on pouvait avoir accès directement aux informations les plus pertinentes pour nous, sans être submergé par le bruit constant des trucs sans intérêt. Et bien c’est exactement ce que propose Auto-News, un agrégateur d’actu personnel qui exploite la puissance de l’intelligence artificielle pour vous aider à vous informer de manière plus efficace. Notre temps étant précieux, il est crucial de bien l’utiliser et malheureusement, tout ces moments qu’on passe à chercher, filtrer

Auto-News – L’agrégateur de news automatisé par IA

Intelligence artificielle

Par : Korben

24 août 2024 à 09:00

Ce serait cool si on pouvait avoir accès directement aux informations les plus pertinentes pour nous, sans être submergé par le bruit constant des trucs sans intérêt. Et bien c’est exactement ce que propose Auto-News, un agrégateur d’actu personnel qui exploite la puissance de l’intelligence artificielle pour vous aider à vous informer de manière plus efficace.

Notre temps étant précieux, il est crucial de bien l’utiliser et malheureusement, tout ces moments qu’on passe à chercher, filtrer et organiser le contenu provenant de différentes sources, c’est un peu du gâchis.

Cet outil est donc capable d’agrèger les flux de diverses sources telles que Twitter, RSS, YouTube, des articles web, Reddit et même vos notes personnelles et grâce à l’utilisation de modèles de langage comme ChatGPT, il est capable de résumer et de filtrer le contenu, éliminant ainsi plus de 80% du bruit.

Comme ça, vous pouvez rester concentré sur la lecture des actus qui vous intéressent vraiment, en fonction de vos centres d’intérêt, tout en restant aligné sur vos objectifs. N’oubliez pas quand même de mettre Korben.info dans vos sources :))

Mais Auto-News va encore plus loin puisqu’il est capable de générer des listes de tâches à partir de vos notes. Il peut également les organiser en les résumant avec les informations clés et y’a même une fonctionnalité expérimentale appelée « Deepdive » qui grâce à un agent de recherche web et à l’outil Autogen de Microsoft, vous permet d’explorer en profondeur des sujets qui vous passionnent.

Côté technique, Auto-News prend en charge plusieurs backends d’IA, dont OpenAI ChatGPT et Google Gemini. L’interface utilisateur est basée sur Notion, ce qui signifie que vous pouvez y accéder de n’importe où, que ce soit via un navigateur web ou une application mobile. Son déploiement est plutôt flexible, avec une prise en charge de Docker Compose et de Kubernetes donc ça peut s’intégrer facilement dans votre flux de travail.

A découvrir ici.

Intelligence artificielle
Perplexica – Le moteur de recherche open source propulsé à l’IA
Perplexica est un moteur de recherche gratuit et transparent, qui comprend ce que vous lui demandez et qui vous trouve pile poil ce que vous cherchez, le tout boosté à l’intelligence artificielle dernière génération. Ça vous parle, non ? Ah bah oui c’est comme Perplexity.ai sauf que c’est gratuit, open source et que ça vous permet de fouiller le web en profondeur pour dénicher les réponses à toutes vos questions. Pour cela, l’outil utilise des algorithmes d’apprentissage automatique basés n

Perplexica – Le moteur de recherche open source propulsé à l’IA

Intelligence artificielle

Par : Korben

1 août 2024 à 13:00

Perplexica est un moteur de recherche gratuit et transparent, qui comprend ce que vous lui demandez et qui vous trouve pile poil ce que vous cherchez, le tout boosté à l’intelligence artificielle dernière génération. Ça vous parle, non ?

Ah bah oui c’est comme Perplexity.ai sauf que c’est gratuit, open source et que ça vous permet de fouiller le web en profondeur pour dénicher les réponses à toutes vos questions. Pour cela, l’outil utilise des algorithmes d’apprentissage automatique basés notamment sur la recherche par similarité sémantique. En gros, il est capable de piger le sens de votre question et de trouver les sources les plus pertinentes.

Comme ça, vous obtenez des réponses claires et sourcées, servies sur un plateau d’argent sans avoir besoin de passer des heures à éplucher les pages de résultats pour trouver l’info qui vous intéresse.

Pas de cookies qui vous espionnent ni de revente de données personnelles en douce et vos recherches restent confidentielles. Côté fonctionnalités, Perplexica propose plusieurs modes de recherche bien pratiques :

Le mode Copilot (encore en développement) : il génère des requêtes pour trouver les sources Internet les plus pertinentes. Plutôt que d’utiliser uniquement le contexte fourni par SearXNG, il visite directement les meilleurs résultats pour trouver les sources les plus adaptées à votre question.
Le mode Normal : il traite votre requête et effectue une recherche web classique.
Les Focus Modes : des modes spécialisés pour répondre à des besoins spécifiques, comme la recherche académique, la recherche YouTube, les calculs via Wolfram Alpha ou encore la recherche Reddit pour les discussions et avis.

Et niveau technique, il utilise un meta-moteur de recherche bien fichu qui s’appelle SearXNG. C’est lui qui récupère les résultats, les trie, les recoupe, pour ne garder que la crème de la crème. L’avantage, c’est que vous avez toujours des infos à jour, sans latence. Et comme je le disais en intro, il s’appuie aussi sur des modèles de langage locaux comme Llama3 et Mixtral, via l’API Ollama ce qui lui permet d’affiner encore plus les résultats.

Et pour l’installer, c’est super simple :

Clonez le dépôt GitHub de Perplexica : git clone https://github.com/ItzCrazyKns/Perplexica.git
Renommez le fichier sample.config.toml en config.toml et remplissez les champs nécessaires (clé API, etc.)
Lancez la commande docker compose up -d
Attendez quelques minutes que l’installation se termine
Accédez à Perplexica via http://localhost:31337 depuis votre navigateur

Une fois que c’est en place, vous pouvez même utiliser Perplexica comme moteur de recherche par défaut dans votre navigateur. Il suffit d’aller dans les paramètres, d’ajouter un nouveau moteur de recherche avec l’URL http://localhost:31337/?q=%s et le tour est joué !

Après, forcément, c’est encore un jeune projet, donc il y a des petits trucs à peaufiner et les devs planchent notamment sur la finalisation du mode Copilot, l’ajout d’une page de paramètres, de fonctionnalités comme l’historique de recherche, et le support des modèles de langage locaux.

Mais même en l’état, je trouve que ça vaut grave le coup de tester Perplexica, ne serait-ce que pour voir à quoi peut ressembler un moteur de recherche IA à la fois éthique et transparent ^^.

Remerciement spécial à Lorenper pour l’info !

Intelligence artificielle
Auto-News – L’agrégateur de news qui vous permet d’éviter le « bruit »
Auto-News est un agrégateur de news automatisé boosté à l’IA qui rassemble vos sources favorites – tweets, RSS, YouTube, articles web, Reddit, même vos petites notes perso. Puis c’est la magie de l’IA qui analyse tout ça en deux temps trois mouvements, résume le contenu à vitesse grand V, et vous sert sur un plateau les pépites qui matchent avec vos centres d’intérêt. Le reste, poubelle ! Comme ça, fini le tri bien pénible. Vous créez simplement une page sur Notion comme point d’entrée, vou

Auto-News – L’agrégateur de news qui vous permet d’éviter le « bruit »

Intelligence artificielle

Par : Korben

20 juin 2024 à 09:00

Auto-News est un agrégateur de news automatisé boosté à l’IA qui rassemble vos sources favorites – tweets, RSS, YouTube, articles web, Reddit, même vos petites notes perso. Puis c’est la magie de l’IA qui analyse tout ça en deux temps trois mouvements, résume le contenu à vitesse grand V, et vous sert sur un plateau les pépites qui matchent avec vos centres d’intérêt. Le reste, poubelle ! Comme ça, fini le tri bien pénible.

Vous créez simplement une page sur Notion comme point d’entrée, vous renseignez vos petits tokens chéris, et voilà le travail ! Auto-News va gentiment créer tout un joli système de dossiers et de bases de données pour ranger vos contenus. Il vous suffira alors d’indiquer vos flux RSS favoris, vos comptes Twitter et Reddit à suivre, et hop, la machine est lancée !

L’outil est également capable de générer des transcriptions pour les vidéos YouTube et les articles web, histoire que vous puissiez les parcourir en diagonale, et grâce à ses supers pouvoirs d’IA, il vous concocte même des listes de tâches à partir de vos notes et réflexions.

Côté technique, c’est du solide puisque ça tourne sous Linux ou MacOS, avec Docker pour faciliter le déploiement et le top du top, c’est son interface façon Notion utilisable depuis votre iPhone, votre Android ou n’importe quel navigateur.

Parfait pour dire adieu à l’infobésité et découvrir le plaisir d’une lecture personnalisée. Pour plus d’infos, c’est par ici.

Intelligence artificielle
APISR – Upscaling d’animes en temps réel
Comme beaucoup d’entre vous, j’ai été élévé au Club Dorothée et malheureusement, en 2024, tous ces animés de notre enfance, de Goldorak aux Chevaliers du Zodiaque, en passant par Nicky Larson, ont quand même mal vieilli. Ah si seulement, on pouvait les améliorer pour les remettre graphiquement au goût du jour… Et bien bonne nouvelle, c’est possible grâce au projet APISR. Cet outil utilise différentes techniques directement inspirées du processus de production des animes afin de proposer un

APISR – Upscaling d’animes en temps réel

Intelligence artificielle

Par : Korben

31 mai 2024 à 09:00

Comme beaucoup d’entre vous, j’ai été élévé au Club Dorothée et malheureusement, en 2024, tous ces animés de notre enfance, de Goldorak aux Chevaliers du Zodiaque, en passant par Nicky Larson, ont quand même mal vieilli. Ah si seulement, on pouvait les améliorer pour les remettre graphiquement au goût du jour… Et bien bonne nouvelle, c’est possible grâce au projet APISR.

Cet outil utilise différentes techniques directement inspirées du processus de production des animes afin de proposer un upscaling vraiment spécialisé pour ce type de vidéos. APISR sélectionne ainsi les frames les moins compressées et les plus riches en informations pour en faire un dataset qui servira alors à améliorer les images, en éliminant les artéfacts de dégradation et en retravaillant les lignes déformées ou estompées des dessins.

Et le résultat est bluffant comme vous pouvez le voir ici sur la démo. C’est génial puisque les fans d’animes vont pouvoir revoir les classiques de leur jeunesse avec une qualité digne des meilleures productions actuelles, le tout en temps réel.

En attendant de voir ces versions remasterisées grâce à des players ou des outils qui n’existent pas encore, vous pouvez déjà tester APISR grâce au code source disponible sur GitHub ou via Huggingface.

Intelligence artificielle
Le son des images #IA
Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ». Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le

Le son des images #IA

Intelligence artificielle

Par : Korben

28 mai 2024 à 15:33

Des chercheurs de l’Université du Michigan ont mis au point une technique absolument dingue qui permet de générer des spectrogrammes ayant l’allure d’images capables de produire des sons qui leur correspondent lorsqu’ils sont écoutés. Ils appellent cela des « images qui sonnent ».

Leur approche est simple et fonctionne sans entraînement spécifique. Elle s’appuie sur des modèles de diffusion text-to-image et text-to-spectrogram pré-entraînés, opérant dans un espace latent partagé. Durant le processus de génération, les deux modèles « débruitent » des latents partagés de manière simultanée, guidés par deux textes décrivant l’image et le son désirés.

Le résultat est bluffant ! Ça donne des spectrogrammes qui, vus comme des images, ressemblent à un château avec des tours, et écoutés comme des sons, font entendre des cloches. Ou des tigres dont les rayures cachent les motifs sonores de leurs rugissements.

Pour évaluer leur bidouille, les chercheurs ont utilisé des métriques quantitatives comme CLIP et CLAP, ainsi que des études de perception humaine. Leur méthode dépasse les approches alternatives et génère des échantillons qui collent finement aux prompts textuels dans les deux modalités. Ils montrent aussi que coloriser les spectrogrammes donne des images plus agréables à l’œil, tout en préservant l’audio.

Cette prouesse révèle qu’il existe une intersection entre la distribution des images et celle des spectrogrammes audio et en dépit de leurs différences, ils partagent des caractéristiques bas niveau comme les contours, les courbes et les coins. Cela permet de composer de façon inattendue des éléments visuels ET acoustiques, comme une ligne qui marque à la fois l’attaque d’un son de cloche et le contour d’un clocher.

Les auteurs y voient une avancée pour la génération multimodale par composition et une nouvelle forme d’expression artistique audio-visuelle. Une sorte de stéganographie qui cacherait des images dans une piste son, dévoilées uniquement lorsqu’elles sont transformées en spectrogramme.

Pour recréer cette méthode chez vous, il « suffit » d’aller sur le Github du projet et de suivre les instructions techniques.

Source

Intelligence artificielle
WebNN – L’IA s’invite dans votre navigateur avec DirectML
Ça y est, les amis, l’API WebNN débarque enfin en preview pour les développeurs, et croyez-moi, ça va changer totalement la manière dont on fait tourner de l’IA dans nos navigateurs web !Grâce à cette techno, on va pouvoir profiter de la puissance de nos GPU et autres accélérateurs matériels directement depuis nos pages web, sans avoir à installer le moindre plugin ou logiciel supplémentaire. Concrètement, WebNN est une API JavaScript qui va permettre aux applications web d’exécuter des tâc

WebNN – L’IA s’invite dans votre navigateur avec DirectML

Intelligence artificielle

Par : Korben

28 mai 2024 à 14:49

Ça y est, les amis, l’API WebNN débarque enfin en preview pour les développeurs, et croyez-moi, ça va changer totalement la manière dont on fait tourner de l’IA dans nos navigateurs web !Grâce à cette techno, on va pouvoir profiter de la puissance de nos GPU et autres accélérateurs matériels directement depuis nos pages web, sans avoir à installer le moindre plugin ou logiciel supplémentaire.

Concrètement, WebNN est une API JavaScript qui va permettre aux applications web d’exécuter des tâches d’inférence de réseaux neuronaux de manière super efficace, en exploitant à fond les capacités des CPU, GPU et autres processeurs dédiés à l’IA (les fameux NPU et TPU). Fini les calculs qui rament, bonjour la fluidité et la réactivité, même pour les modèles les plus gourmands !

WebNN est complètement agnostique côté matériel et côté modèles. Quel que soit le hardware qu’on a sous le capot (Intel, AMD, NVIDIA, Qualcomm…) et le format des modèles (ONNX, TensorFlow…), cette API va nous permettre de tirer parti un maximum des ressources disponibles, tout ça de manière transparente, sans avoir à se prendre la tête avec des lignes de code spécifiques à chaque plateforme.

Cette API suit un modèle de programmation super simple en deux grandes étapes :

1. La construction du modèle : on utilise l’API MLGraphBuilder pour définir notre réseau de neurones, ses opérations, ses entrées et ses sorties et une fois que c’est fait, on peut le compiler en un graphe exécutable.
2. L’exécution du modèle : maintenant qu’on a notre super graphe optimisé, il ne reste plus qu’à lui envoyer nos données d’entrée, et il va nous fournir ses prédictions et classifications à toute vitesse !

Grâce à WebNN, les tâches d’inférence de machine learning sont accélérées par le matériel local, ce qui offre des performances améliorées et une faible latence, même sans connexion internet ou avec une connexion non fiable. De plus, les données restent sur la machine de l’utilisateur, ce qui préserve ainsi sa vie privée.

WebNN est conçu pour fonctionner avec DirectML sur Windows, lequel assure des performances optimales sur divers matériels, notamment les RTX GPUs de NVIDIA, les Intel Core Ultra avec Intel AI Boost, et les Copilot+ PC avec des NPU Qualcomm Hexagon. Ça ouvre la porte à des applications évoluées de génération d’IA, de reconnaissance d’images, de traitement du langage naturel, et bien d’autres cas d’utilisation tout à fait passionnants.

Si vous voulez vous lancer dès maintenant avec WebNN, je vous conseille fortement de visiter le dépôt WebNN Developer Preview sur GitHub. Vous y trouverez plein de démos et d’exemples de code pour vous familiariser avec l’API et ses fonctionnalités. Par contre, vous devrez télécharger Edge en version Canary et la dernière Insider de Windows 11 puis dans la barre d’URL, tapez edge://flags/ pour pouvoir ensuite activer WebNN.

Pour plus de détails, vous pouvez consulter le tutoriel officiel de Microsoft.

Un grand merci au super neurone NexusSeven pour les sources de cet article !

Source

Intelligence artificielle
GPT-4 défie les analystes financiers à leur propre jeu !
Des chercheurs de l’Université de Chicago ont voulu tester les capacités de GPT-4 dans le domaine de l’analyse financière, et pas n’importe quelle analyse hein, ils sont allés directement au cœur du sujet à savoir la prédiction des bénéfices futurs des entreprises à partir de leurs états financiers ! Normalement, c’est un boulot d’expert réservé aux analystes financiers chevronnés, car il faut savoir décortiquer les bilans comptables, calculer des ratios clés, interpréter des tendances… Bre

GPT-4 défie les analystes financiers à leur propre jeu !

Intelligence artificielle

Par : Korben

25 mai 2024 à 12:45

Des chercheurs de l’Université de Chicago ont voulu tester les capacités de GPT-4 dans le domaine de l’analyse financière, et pas n’importe quelle analyse hein, ils sont allés directement au cœur du sujet à savoir la prédiction des bénéfices futurs des entreprises à partir de leurs états financiers !

Normalement, c’est un boulot d’expert réservé aux analystes financiers chevronnés, car il faut savoir décortiquer les bilans comptables, calculer des ratios clés, interpréter des tendances… Bref, c’est complexe et les machines n’étaient pas vraiment censées rivaliser avec le flair et l’expérience des pros.

Sauf que… Surprise ! Les résultats de l’étude sont bluffants.

GPT-4, sans aucune formation spécifique, s’est révélé meilleur que la moyenne des analystes humains pour prédire si les bénéfices allaient augmenter ou baisser ! L’IA a même fait jeu égal avec les modèles de machine learning spécialisés, entraînés pendant des heures sur des tonnes de données financières. Pas mal comme performance !

Pour y parvenir, les chercheurs ont préparé des données en anonymisant les états financiers comme ça, pas moyen pour GPT-4 de tricher en allant piocher dans sa mémoire. Il a donc dû se débrouiller comme un grand, en analysant uniquement les chiffres fournis… Il repère les tendances clés, calcule les bons ratios, interprète finement les résultats… bref, il effectue un vrai travail d’analyste !

Les chercheurs ont même montré qu’un réseau de neurones entraîné uniquement sur les commentaires fournis par GPT-4 arrivait à prédire les bénéfices presque aussi bien que l’IA elle-même.

Évidemment, GPT-4 a encore du mal avec les cas tordus, genre les petites boîtes qui font des pertes et les analystes humains gardent un avantage quand ils ont accès à des infos « soft » en plus des chiffres, donc rassurez-vous l’IA ne va pas piquer leur job demain (mais après-demain ?).

N’empêche, ces résultats ouvrent des perspectives plutôt excitantes ! Premièrement, ça pourrait démocratiser l’analyse financière en la rendant accessible au grand public. Deuxièmement, les hedge funds pourraient utiliser GPT-4 pour détecter des opportunités d’investissement.

Les chercheurs ont d’ailleurs testé une stratégie de trading basée sur les prédictions de l’IA, et ça marche plutôt bien ! L’étude montre que la stratégie « long short » basée sur les prédictions de GPT-4 génère des rendements supérieurs au marché, avec des ratios de Sharpe et des alphas significatifs. L’IA semble particulièrement douée pour dénicher de la valeur dans les petites capitalisations, là où les analystes humains et même les réseaux de neurones traditionnels ont plus de mal.

Mais attention, il faut rester prudent. Une IA qui joue en bourse, ça peut être risqué et il va falloir plus de garde-fous. Et puis n’oublions pas que ça reste une étude expérimentale et pas la réalité du terrain.

Mais je trouvais ça assez cool pour vous en parler.

Source

Intelligence artificielle
Vibe – Une app de transcription audio compatible macOS, Windows et Linux
Vibe est un nouvel outil open source de transcription audio multilingue qui va vous faire vibrer ! Terminé le temps où vous deviez vous contenter de sous-titres approximatifs ou attendre des plombes pour obtenir une transcription potable. Pour cela, il utilise l’IA Whisper, développé par les génies d’OpenAI et dont je vous ai parlé à maintes reprises. Ce modèle de reconnaissance vocale dernier cri est capable de transcrire un nombre ahurissant de langues avec une précision bluffante, ce qui

Vibe – Une app de transcription audio compatible macOS, Windows et Linux

Intelligence artificielle

Par : Korben

21 mai 2024 à 09:31

Vibe est un nouvel outil open source de transcription audio multilingue qui va vous faire vibrer ! Terminé le temps où vous deviez vous contenter de sous-titres approximatifs ou attendre des plombes pour obtenir une transcription potable.

Pour cela, il utilise l’IA Whisper, développé par les génies d’OpenAI et dont je vous ai parlé à maintes reprises. Ce modèle de reconnaissance vocale dernier cri est capable de transcrire un nombre ahurissant de langues avec une précision bluffante, ce qui permet de faire de Vibe une véritable solution audio polyvalente bourrée de fonctionnalités.

Vous pouvez par exemple transcrire des fichiers audio et vidéo par lots, prévisualiser le résultat en temps réel, exporter dans une flopée de formats (SRT, VTT, TXT…), et même personnaliser les modèles selon vos besoins. Il fonctionne entièrement hors ligne, donc pas de risque que vos données sensibles se retrouvent dans les griffes des GAFAM et ça tourne sous macOS, Windows et Linux. Pour cela, il vous suffit de vous rendre sur la page des releases GitHub et de télécharger la version qui correspond à votre OS.

Le support pour Apple Silicon est optimisé ce qui offre une performance accrue et pour Windows, la version 8 ou plus sera nécessaire, mais bon, je pense que vous êtes tous ou presque déjà sous Windows 10/11. Les utilisateurs Linux, quand à eux, peuvent installer Vibe via un fichier .deb, et les utilisateurs d’Arch Linux peuvent utiliser debtap pour convertir le paquet en fonction de leurs besoins.

Côté performance, c’est du gâteau puisque comme vous vous en doutiez, les ordinateurs Mac ont droit à une petite optimisation GPU qui booste les résultats. Mais même sur un vieux coucou Windows, Vibe est capable de s’adapter à vos ressources sans broncher via à ses réglages avancés. Et pour les Linuxiens, sachez que le support de l’audio système et du micro est prévu pour bientôt.

Bref, c’est à tester si vous êtes dans le business du sous-titre ou de la transcription.

Source

Intelligence artificielle
LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts
Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous ! Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’

LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts

Intelligence artificielle

Par : Korben

20 mai 2024 à 09:00

Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous !

Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’identification et de suppression des tokens non essentiels, il peut réduire jusqu’à 20 fois la taille des prompts, tout en préservant les performances des modèles.

Que vous soyez un développeur cherchant à optimiser ses coûts d’API ou un utilisateur souhaitant dépasser les limites de contexte, LLMLingua vous offre de nombreux avantages :

💰 Réduction des coûts : En compressant à la fois les prompts et les réponses générées, LLMLingua permet de réaliser des économies significatives sur votre facture d’API.
📝 Support de contextes étendus : Fini le casse-tête du « perdu au milieu » ! LLMLingua gère efficacement les longs contextes et booste les performances globales.
⚖️ Robustesse : Pas besoin d’entraînement supplémentaire pour les LLM. LLMLingua fonctionne de manière transparente.
🕵️ Préservation des connaissances : Toutes les informations clés des prompts originaux, comme l’apprentissage en contexte et le raisonnement, sont conservées.
📜 Compression du cache KV : Le processus d’inférence est accéléré grâce à l’optimisation du cache clé-valeur.
🪃 Récupération complète : GPT-4 est capable de reconstituer l’intégralité des informations à partir des prompts compressés. Bluffant !

Prenons un exemple simple et imaginons que vous vouliez compresser le prompt suivant avec LLMLingua :

python from llmlingua import PromptCompressor

llm_lingua = PromptCompressor()

prompt = "Sam a acheté une douzaine de boîtes contenant chacune 30 surligneurs, pour 10 $ chacune..."

compressed_prompt = llm_lingua.compress_prompt(prompt)

print(compressed_prompt)

Et voilà le travail ! En quelques lignes de code, vous obtenez un prompt compressé prêt à être envoyé à votre modèle favori :

Sam acheté boîtes contenant chacune 30 surligneurs, 10 $ chacune.

Avec un taux de compression de 11,2x, le nombre de tokens passe de 2365 à seulement 211 ! Et ce n’est qu’un début. Sur des exemples plus complexes comme les prompts Chain-of-Thought, LLMLingua maintient des performances similaires avec un taux de compression allant jusqu’à 20x.

Alors bien sûr, pour l’avoir bien testé, faut quand même comprendre que vous n’obtiendrez pas forcement un résultat identique entre le prompte compressé et celui non compressé mais pour un gain de 60 / 70 voire 80%, le résultat généré à partir du prompt compressé reste précis à hauteur de 70 / 80 %, ce qui est très bien.

Pour démarrer avec LLMLingua, rien de plus simple. Installez le package avec pip :

pip install llmlingua

Puis laissez libre cours à votre créativité ! Que vous soyez un adepte du Retrieval Augmented Generation (RAG), des réunions en ligne, du Chain-of-Thought ou même du code, LLMLingua saura répondre à vos besoins. De nombreux exemples et une documentation complète sont à votre disposition pour vous guider.

Perso, je l’ai testé sur de longs prompts que j’avais dans mes scripts, avec Claude3 d’ailleurs et pas ChatGPT et le résultat est top !

A tester ici !

Intelligence artificielle
Discord LLMCord – Quand les chatbots s’invitent dans Discord
Vous êtes fan de Discord et vous aimez bidouiller des trucs ?? Alors préparez-vous à découvrir Discord LLMCord. C’est un petit bout de code qui va vous permettre de causer avec des IA directement dans vos canaux, comme si c’étaient vos potes. Et ça marche avec à peu près tous les modèles de langage, qu’ils soient hébergés à distance ou en local sur votre bécane. Pour lancer une conversation, il suffit de tagger le bot et hop, c’est parti mon kiki. Vous pouvez continuer la discussion en répo

Discord LLMCord – Quand les chatbots s’invitent dans Discord

Intelligence artificielle

Par : Korben

18 mai 2024 à 18:48

Vous êtes fan de Discord et vous aimez bidouiller des trucs ?? Alors préparez-vous à découvrir Discord LLMCord. C’est un petit bout de code qui va vous permettre de causer avec des IA directement dans vos canaux, comme si c’étaient vos potes. Et ça marche avec à peu près tous les modèles de langage, qu’ils soient hébergés à distance ou en local sur votre bécane.

Pour lancer une conversation, il suffit de tagger le bot et hop, c’est parti mon kiki. Vous pouvez continuer la discussion en répondant aux messages et ainsi construire des fils de discussion complets. Vous pouvez par exemple :

Poursuivre votre propre conversation ou celle de quelqu’un d’autre.
« Rembobiner » une discussion en répondant à un vieux message.
Poser une question sur n’importe quel message de votre serveur en taguant le bot.

En plus, si vous envoyez plusieurs messages à la suite, ils seront automatiquement mis bout à bout et si vous répondez juste au dernier, le bot verra tous les précédents. Vous pouvez aussi déplacer une conversation dans un fil sans perdre le fil (lol). Il vous suffit de créer un thread à partir d’un message et de tagger le bot dedans pour continuer à papoter.

Côté compatibilité, ça supporte les modèles distants d’OpenAI, Mistral, Anthropic et plein d’autres grâce à LiteLLM. Si vous voulez faire tourner un modèle en local, pas de souci non plus puisque ça marche avec OLLaMa, OobaBooga, Jan, LM Studio ou n’importe quel serveur d’API compatible OpenAI.

Le bot gère même les images si vous utilisez un modèle de vision comme GPT-4, Claude-3 ou LLaVA. Il a un prompt système personnalisable et vous pouvez lui parler en DM pour plus d’intimité (pas besoin de le tagger).

Si vous utilisez l’API OpenAI, LLMCord est également capable de reconnaître l’identité des utilisateurs. De plus, les réponses s’affichent en temps réel, avec un joli dégradé de vert quand c’est fini et s’il cause trop, il coupe automatiquement ses messages en plusieurs morceaux. Pratique pour éviter de se faire ban par Discord ! Il affiche aussi des avertissements utiles si besoin, genre « J’utilise seulement les 20 derniers messages » quand vous dépassez la limite. Bref, c’est un bot bien élevé.

Sous le capot, il utilise un dico global avec des mutex pour mettre en cache les données des messages de manière efficace et thread-safe, comma ça, ça réduit les appels à l’API Discord et ça évite les fuites de mémoire. Le tout totalement en asynchrone.

Pour l’installer, c’est fastoche. Vous clonez le repo GitHub, vous installez les dépendances Python avec pip et vous créez un fichier .env avec vos clés d’API et les paramètres du bot. Lancez le script et tada, l’URL d’invitation de votre bot s’affiche dans la console. Pour plus de détails, suivez ce guide :

Installer Python : Téléchargez et installez Python à partir de python.org.
Cloner le dépôt git : Ouvrez un terminal et clonez le dépôt : bash git clone https://github.com/jakobdylanc/discord-llm-chatbot.git cd discord-llm-chatbot
Installer les packages nécessaires : bash pip install -r requirements.txt
Créer un fichier .env : bash cp .env.example .env
Configurer les variables d’environnement : Ouvrez .env et remplissez les champs nécessaires : plaintext DISCORD_BOT_TOKEN=YOUR_DISCORD_BOT_TOKEN OPENAI_API_KEY=your-openai-api-key MODEL_NAME=local/openai/YOUR_MODEL_NAME
Exécuter le script : Dans le terminal, lancez : bash python llmcord.py

Ah et j’oubliais, LLMCord est open source (vive le libre !), donc si vous voulez contribuer ou l’adapter à vos besoins, forkez et PR sans modération.

Avec ça, votre Discord ne sera plus jamais pareil et je sens que vous allez bien vous marrer ! Alors merci à Lorenper pour l’info car c’est une chouette découverte !

Source

Intelligence artificielle
Créez votre avatar IA en un clin d’oeil avec PuLID
Développé par une équipe de chez ByteDance (mais si, TikTok, votre réseau social préféré), ce modèle baptisé PuLID va vous permettre de créer des images sur-mesure à partir de photos existantes et tout ça en un clin d’œil. Basé sur le principe d’alignement contrastif, PuLID vous offre une customisation d’identité ultra rapide et de haute qualité. Pour cela, il utilise une architecture qui apprend à la volée les caractéristiques clés d’une identité source (des photos de vous) pour les transp

Créez votre avatar IA en un clin d’oeil avec PuLID

Intelligence artificielle

Par : Korben

18 mai 2024 à 11:38

Développé par une équipe de chez ByteDance (mais si, TikTok, votre réseau social préféré), ce modèle baptisé PuLID va vous permettre de créer des images sur-mesure à partir de photos existantes et tout ça en un clin d’œil.

Basé sur le principe d’alignement contrastif, PuLID vous offre une customisation d’identité ultra rapide et de haute qualité. Pour cela, il utilise une architecture qui apprend à la volée les caractéristiques clés d’une identité source (des photos de vous) pour les transposer efficacement sur de nouvelles images cibles (images générées par IA). On obtient alors des visuels uniques générés en quelques secondes à peine, tout en préservant la cohérence des photos d’origine.

Bon, ok, ça peut paraître un peu barbare dit comme ça mais c’est super simple à utiliser. Si vous êtes flemmard, vous pouvez aller directement sur Huggingface ou pour les plus courageux, l’installer sur votre machine. Tout ce dont vous avez besoin, c’est d’un bon vieux Pytorch (version 2.0 minimum svp) et de quelques lignes de code pour démarrer l’entraînement.

PuLID (Pure and Lightning ID Customization via Contrastive Alignment) fonctionne en utilisant des techniques de machine learning pour aligner des représentations latentes en comparant des paires d’images ou d’identités. L’objectif est de maximiser la similarité pour des identités similaires et de minimiser la similarité pour des identités différentes. En ajustant ces représentations grâce à l’alignement contrastif, PuLID permet de créer des images uniques avec une grande précision et rapidité.

Si vous bossez dans la comm et que ous avez déjà quelques concepts arts sympas d’un personnage, mais vous aimeriez voir à quoi il ressemblerait dans différents environnements ou avec des styles graphiques variés, pas de souci ! Vous balancez vos images dans PuLID avec les bonnes instructions et le tour est joué. Vous obtiendrez alors tout un tas de variations stylées de votre personnage, tout en gardant son visage reconnaissable.

L’équipe de ByteDance a pensé à tout : PuLID est 100% open-source et disponible sur GitHub. Vous pouvez donc bidouiller le code comme bon vous semble pour l’adapter à vos besoins. Y’a même des tutoriels et des exemples pour vous aider à prendre en main le bouzin rapidement.

Et pour les plus impatients d’entre vous, voici un petit tuto d’installation pour commencer à jouer avec PuLID :

Pré-requis :

Python >= 3.7
PyTorch >= 2.0 (télécharger ici)
Anaconda (télécharger ici) ou Miniconda (télécharger ici)

Étapes d’installation :

Cloner le dépôt PuLID :

git clone https://github.com/ToTheBeginning/PuLID.git
cd PuLID

Créer et activer l’environnement conda :

conda create --name pulid python=3.10
conda activate pulid

Installer les dépendances :

pip install -r requirements.txt

Installer PyTorch : Suivez les instructions sur le site de PyTorch pour installer la version compatible avec votre système. Par exemple, pour CUDA 11.7 :

conda install pytorch torchvision torchaudio cudatoolkit=11.7 -c pytorch

Lancer l’application :

python app.py

Pour en savoir plus sur PuLID et récupérer le code source, rendez-vous sur le repo GitHub.

Allez, je vous laisse vous amuser avec votre nouveau jouet. Un grand merci à Lorenper pour l’info. Grâce à toi, on va pouvoir personnaliser nos avatars comme jamais.

Source

Intelligence artificielle
L’IA qui raisonne comme un humain
Les scientifiques du MIT boostent les capacités de raisonnement de l’IA avec une architecture hybride révolutionnaire ! Hé oui, les petits génies du MIT ont développé 3 frameworks qui vont donner aux IA le pouvoir de raisonner comme des humains. Imaginez que vous ayez un pote un peu limité niveau jugeote (on a tous un [insère ici le prénom de ton collègue le plus proche] dans notre entourage 😅). Il comprend ce que vous lui dites, il peut même vous répondre, mais dès qu’il faut réfléchir un

L’IA qui raisonne comme un humain

Intelligence artificielle

Par : Korben

18 mai 2024 à 00:18

Les scientifiques du MIT boostent les capacités de raisonnement de l’IA avec une architecture hybride révolutionnaire ! Hé oui, les petits génies du MIT ont développé 3 frameworks qui vont donner aux IA le pouvoir de raisonner comme des humains.

Imaginez que vous ayez un pote un peu limité niveau jugeote (on a tous un [insère ici le prénom de ton collègue le plus proche] dans notre entourage 😅). Il comprend ce que vous lui dites, il peut même vous répondre, mais dès qu’il faut réfléchir un peu, ça rame et parfois ça plante. Eh bien, les IA actuelles, c’est un peu pareil !

Elles sont super balèzes pour ingurgiter des tonnes de données et cracher du texte, mais niveau compréhension du contexte et raisonnement complexe, ce n’est pas encore tout à fait ça. Et c’est là que nos amis du MIT entrent en scène avec leur trésor d’abstractions en langage naturel. En gros, ils ont créé des lib qui vont aider les IA à mieux piger leur environnement et résoudre des problèmes de manière plus humaine. On parle donc de 3 frameworks aux petits noms mignons : LILO, Ada et LGA.

LILO, c’est l’atout du développeur. Il va aider les IA à synthétiser, compresser et documenter du code comme un pro. Fini les IA qui créent des pavés de code illisibles, place à des programmes bien structurés et commentés !

Ada, c’est la stratège du groupe. Elle va permettre aux IA de planifier des actions de manière flexible. Au lieu de suivre bêtement une recette, l’IA va pouvoir s’adapter et improviser en fonction de ce qu’elle trouve dans son frigo. Ada a même montré une amélioration de 59% pour des tâches de simulation de cuisine et de 89% pour des tâches de construction de lit.

Enfin, LGA, c’est l’as de la perception. Elle va filer un gros coup de pouce aux robots pour qu’ils comprennent mieux leur environnement, un peu comme si on leur refilait une bonne paire de lunettes. Terminé les robots qui se prennent les pieds dans le tapis, ils vont pouvoir naviguer dans votre appart’ comme un poisson dans l’eau (ou presque 😅).

Avec ces 3 frameworks qui mixent réseaux de neurones et approches logiques classiques, les chercheurs espèrent bien faire passer les IA au niveau supérieur. Ainsi, on aura enfin des chatbots qui comprennent vos blagues pourries, des robots qui vous apportent une bière sans renverser la moitié au passage, et pourquoi pas des IA qui vous aident à coder votre prochain jeu vidéo pendant que vous glandouillez sur le canapé !

Pour ceux qui veulent aller plus loin, voici les publications sur arXiv des avancées réalisées :
– Library Induction from Language Observations
– Action Domain Acquisition
– Language-Guided Abstraction

J’ai hâte de voir tout ça fonctionner pour en vrai !

Source

Intelligence artificielle
FaceFusion – Du swaps de visages vite fait mais surtout bien fait
Dernièrement, j’ai testé FaceFusion et j’ai adoré, donc je voulais vous en parler rapidement. Il s’agit d’un outil open source qui permet de faire des échanges de visages (swap) d’une excellente qualité aussi bien avec des photos que des vidéos. Vous vous en doutez, le tout est boosté par de l’intelligence artificielle comme un peu tout ce qui sort en ce moment. En gros, vous prenez votre visage, vous la collez sur une autre, et bim, ça donne un truc hyper réaliste en quelques clics !

FaceFusion – Du swaps de visages vite fait mais surtout bien fait

Intelligence artificielle

Par : Korben

14 mai 2024 à 09:00

Dernièrement, j’ai testé FaceFusion et j’ai adoré, donc je voulais vous en parler rapidement. Il s’agit d’un outil open source qui permet de faire des échanges de visages (swap) d’une excellente qualité aussi bien avec des photos que des vidéos. Vous vous en doutez, le tout est boosté par de l’intelligence artificielle comme un peu tout ce qui sort en ce moment.

En gros, vous prenez votre visage, vous la collez sur une autre, et bim, ça donne un truc hyper réaliste en quelques clics !

Sous le capot, FaceFusion utilise des techniques de pointe en deep learning pour détecter et aligner les visages avec une précision chirurgicale. Ça passe par des modèles comme YOLOFace ou RetinaFace pour repérer les faciès, puis des algos transforment et mixent tout ça façon Picasso du futur.

Le résultat est assez bluffant puisque vous pouvez littéralement mettre votre tronche de cake à la place de Leonardo DiCaprio et devenir la star de Titanic en deux temps trois mouvements (de brasse coulée).

FaceFusion est optimisé pour le GPU mais fonctionnera également sur votre bon vieux CPU et cela même sur des vidéos en grosses résolutions. D’ailleurs, y’a ‘tout un tas de réglages pour gérer la qualité, que ce soit pour du swap d’image ou de vidéo.

Et histoire de vous simplifier la vie, une jolie interface graphique est même fournie pour piloter l’outil sans mettre les mains dans le cambouis.

Franchement, FaceFusion c’est un outil vraiment cool mais faudra quand même pas déconner et en faire n’importe quoi hein, genre swapper des têtes de politiques pour faire des deep fakes SURTOUT AVEC BURNO LE MAIRE, ça peut vite partir en vrille. 😅

Bref que ce soit pour faire des blagues à vos potes, créer des effets spéciaux délirants, ou juste explorer le champ des possibles de l’IA appliquée à l’image, FaceFusion risque de vite devenir votre nouveau meilleur ami. Et vu que c’est open source, vous pouvez mettre les mains dans le code si ça vous éclate.

Bref, foncez sur le GitHub et en cadeau, je vous ai même fait une vidéo tuto !

Merci les Patreons pour le soutien !

Intelligence artificielle
En manque d’inspiration avec vos prompts IA ? Allez jeter un œil à la bibliothèque d’Anthropic
Vous en avez assez de passer des heures à chercher la formulation parfaite pour obtenir de bons résultats avec vos prompts IA ? Ne vous cassez plus la tête, puisque Anthropic a pensé à tout avec sa Prompt Library. Cette bibliothèque gratuite de prompts va vous permettre d’interagir plus facilement avec des outils comme Claude3, ChatGPT, Mistral…etc. Les prompts que vous y trouverez sont pré-optimisés pour une multitude de tâches, allant de la rédaction au développement en passant par l’anal

En manque d’inspiration avec vos prompts IA ? Allez jeter un œil à la bibliothèque d’Anthropic

Intelligence artificielle

Par : Korben

12 mai 2024 à 09:00

Vous en avez assez de passer des heures à chercher la formulation parfaite pour obtenir de bons résultats avec vos prompts IA ?

Ne vous cassez plus la tête, puisque Anthropic a pensé à tout avec sa Prompt Library. Cette bibliothèque gratuite de prompts va vous permettre d’interagir plus facilement avec des outils comme Claude3, ChatGPT, Mistral…etc. Les prompts que vous y trouverez sont pré-optimisés pour une multitude de tâches, allant de la rédaction au développement en passant par l’analyse de données. Et ça n’a de cesse de s’enrichir puisque tout le monde peut soumettre ses meilleurs prompts.

Pour l’utiliser, il vous suffit de copier-coller le prompt de votre choix dans votre IA préférée, d’y apporter quelques modifications si le cœur vous en dit, et voilà ! Il y a même le code en TypeScript ou Python qui vous permettra de passer un message « system » avant votre message « user ».

Chacun de ces prompts est le fruit d’un travail minutieux de la part des équipes d’Anthropic dont l’objectif est de fournir des résultats d’e qualité supérieure d’excellente qualité afin de montrer ce que Claude3 a dans le ventre. Et, comme je le disais, il y en a pour tous les goûts… Des prompts pour générer des recettes, interpréter les rêves, se lancer dans la médiation pleine conscience, à des choses plus boulot / business comme créer une marque, rédiger des documents, debugger du code python et j’en passe.

Si ça vous dit de jeter un œil, c’est par ici que ça se passe.

Intelligence artificielle
Open WebUI – Une interface graphique pour Ollama
Open WebUI débarque pour changer notre façon d’interagir avec Ollama grâce à une interface graphique intuitive et ergonomique ! Parce que l’IA, c’est cool, mais si c’est simple à utiliser, c’est encore mieux. Ollama pour rappel, c’est un outil qui permet de faire tourner des LLM en local et qui s’utilise soit via du code, soit directement en ligne de commande. Avec Open WebUI, vous allez enfin avoir une interface web personnalisable avec votre thème, sombre pour les hackers en herbe ou clai

Open WebUI – Une interface graphique pour Ollama

Intelligence artificielle

Par : Korben

11 mai 2024 à 20:06

Open WebUI débarque pour changer notre façon d’interagir avec Ollama grâce à une interface graphique intuitive et ergonomique ! Parce que l’IA, c’est cool, mais si c’est simple à utiliser, c’est encore mieux. Ollama pour rappel, c’est un outil qui permet de faire tourner des LLM en local et qui s’utilise soit via du code, soit directement en ligne de commande.

Avec Open WebUI, vous allez enfin avoir une interface web personnalisable avec votre thème, sombre pour les hackers en herbe ou clair pour les âmes sensibles, dans la langue de votre choix, de l’anglais au klingon en passant par le français, et vous pourrez ainsi causer avec Ollama comme si vous étiez sur ChatGPT. Avec le support de Markdown, de LaTeX et de la coloration syntaxique, vous pourrez même lui faire cracher du code et des formules mathématiques comme jamais.

Open WebUI permet même d’utiliser plusieurs modèles en parallèle, comparer leurs réponses, et même les faire discuter entre eux… Et si vous voulez de l’interaction plus poussée, lâchez-vous avec les fonctionnalités de Récupération Augmentée (RAG). Vous pourrez intégrer des documents externes dans vos conversations et même aller les chercher directement sur le web grâce à une fonction de navigation intégrée.

Avec l’outil de création de fichiers modèle (modelfiles), vous pouvez également définir des agents conversationnels sur mesure et les partager avec la communauté Open WebUI.

Bien sûr, comme tout bon logiciel qui se respecte, Open WebUI gère la reconnaissance vocale, la synthèse Text-to-Speech et même la génération d’images avec DALL-E et d’autres systèmes compatibles. Cadeau bonux, l’intégration avec les API compatibles OpenAI, pour encore plus de possibilités déjantées.

Pour plus d’informations sur ces fonctionnalités et comment les configurer, consultez la documentation officielle d’Open WebUI.

C’est open source, c’est puissant, c’est customisable à outrance alors que vous soyez un champion du dev ou comme moi, juste un curieux qui veut s’amuser avec l’IA, vous allez vous régaler.

Avant de vous lancer dans l’installation d’Open WebUI, assurez-vous d’avoir les prérequis suivants :

Docker installé sur votre machine
Une URL de base pour Ollama (OLLAMA_BASE_URL) correctement configurée

Pour configurer l’URL de base d’Ollama, vous pouvez soit la définir en tant que variable d’environnement, soit la spécifier dans un fichier de configuration dédié.

Une fois les prérequis remplis, vous pouvez procéder à l’installation d’Open WebUI en utilisant Docker :

docker run -d -p 3000:8080 --name open-webui --restart always ghcr.io/open-webui/open-webui:main

Cette commande va télécharger l’image Docker d’Open WebUI et lancer un conteneur accessible sur http://localhost:3000.

Amusez-vous bien et si vous voulez en savoir plus, toutes les infos sont ici.

Intelligence artificielle
Llamafile – Exécutez des modèles de langage en un seul fichier !
llamafile est un projet complètement barré qui va vous permettre de transformer des modèles de langage en exécutables. Derrière se cache en fait la fusion de deux projets bien badass : llama.cpp, un framework open source de chatbot IA, et Cosmopolitan Libc, une libc portable pour compiler des programmes C multiplateformes. En combinant astucieusement ces deux technos, les petits gars de Mozilla ont réussi à pondre un outil qui transforme les poids de modèles de langage naturel en binaires exécu

Llamafile – Exécutez des modèles de langage en un seul fichier !

Intelligence artificielle

Par : Korben

11 mai 2024 à 19:13

llamafile est un projet complètement barré qui va vous permettre de transformer des modèles de langage en exécutables. Derrière se cache en fait la fusion de deux projets bien badass : llama.cpp, un framework open source de chatbot IA, et Cosmopolitan Libc, une libc portable pour compiler des programmes C multiplateformes. En combinant astucieusement ces deux technos, les petits gars de Mozilla ont réussi à pondre un outil qui transforme les poids de modèles de langage naturel en binaires exécutables.

Imaginez un peu, vous avez un modèle de langage qui pèse dans les 4 gigas, dans un format .gguf (un format couramment utilisé pour les poids de LLM). Et bien avec llamafile, vous pouvez le transformer en un exécutable standalone qui fonctionnera directement sur le système sur lequel il est sans avoir besoin d’installer quoi que ce soit. Ça va permettre de démocratiser l’utilisation et la diffusion des LLM.

Et niveau portabilité, c’est le feu puisque ça tourne sur six OS, de Windows à FreeBSD en passant par macOS. Les devs ont bien bossé pour que ça passe partout, en résolvant des trucs bien crados comme le support des GPU et de dlopen() dans Cosmopolitan et croyez-moi (enfin, croyez-les) ça n’a pas été une mince affaire !

Niveau perf aussi c’est du brutal ! Sur Linux llamafile utilise pledge() et SECCOMP pour sandboxer le bousin et empêcher les accès fichiers non désirés et avec les derniers patchs de Justine Tunney, la perf CPU pour l’inférence en local a pris un boost de malade du genre 10 fois plus rapide qu’avant. Même sur un Raspberry Pi on peut faire tourner des petits modèles à une vitesse honnête.

Allez, assez parlé, passons à la pratique !

Voici comment tester vous-même un llamafile en un rien de temps :

Téléchargez l’exemple de llamafile pour le modèle LLaVA (licence : LLaMA 2, OpenAI) : llava-v1.5-7b-q4.llamafile (3,97 Go). LLaVA est un nouveau LLM qui peut non seulement discuter, mais aussi analyser des images que vous uploadez. Avec llamafile, tout se passe en local, vos données ne quittent jamais votre PC.
Ouvrez le terminal de votre ordinateur.
Si vous êtes sous macOS, Linux ou BSD, vous devrez autoriser l’exécution de ce nouveau fichier. (À faire une seule fois) :
chmod +x llava-v1.5-7b-q4.llamafile
Sous Windows, renommez simplement le fichier en ajoutant « .exe » à la fin.
Lancez le llamafile, par exemple :
./llava-v1.5-7b-q4.llamafile
Votre navigateur devrait s’ouvrir automatiquement sur une interface de chat. (Sinon, ouvrez-le et allez sur http://localhost:8080)
Quand vous avez fini, retournez dans le terminal et faites Ctrl-C pour arrêter llamafile.

Évidemment, Mozilla ne compte pas s’arrêter là et continue de bosser comme des dingues pour suivre le rythme des nouveaux modèles qui sortent et avec le support des dernières architectures dès leur sortie.

Il est même prévu qu’on puisse bientôt générer nos propres llamafiles en un seul clic ! D’ailleurs, Hugging Face est déjà dans la boucle pour héberger tout ce petit monde. Bref, je vous le dis, les amis, llamafile est un projet à suivre absolument !

Alors on dit merci qui ?

Merci Mozilla ! 🙏🦊

Intelligence artificielle
Fabric – Un framework open source pour travailler main dans la main avec l’IA
Depuis que l’IA a débarqué dans nos vies, il est maintenant possible de lui déléguer une grande partie de nos tâches fastidieuses et chronophages, ce qui nous permet de nous concentrer sur l’essentiel. Des outils comme ChatGPT ont évidemment démocratisé l’accès à cette technologie, mais ses capacités vont bien au-delà d’un simple agent conversationnel. En effet, l’IA peut devenir un véritable assistant personnel pour booster à la fois notre créativité et notre productivité. Perso, je ne peu

Fabric – Un framework open source pour travailler main dans la main avec l’IA

Intelligence artificielle

Par : Korben

8 mai 2024 à 09:00

Depuis que l’IA a débarqué dans nos vies, il est maintenant possible de lui déléguer une grande partie de nos tâches fastidieuses et chronophages, ce qui nous permet de nous concentrer sur l’essentiel. Des outils comme ChatGPT ont évidemment démocratisé l’accès à cette technologie, mais ses capacités vont bien au-delà d’un simple agent conversationnel.

En effet, l’IA peut devenir un véritable assistant personnel pour booster à la fois notre créativité et notre productivité. Perso, je ne peux plus m’en passer, et que vous soyez développeur, designer, écrivain ou entrepreneur, il existe de nombreuses façons de l’intégrer dans vos workflows. Génération de code, création de visuels, rédaction et correction de texte, analyse de données, relecture de contrats, automatisation de tâches… La liste est infinie pour peu que vous ayez un peu d’imagination.

C’est là qu’entre en scène le projet open-source Fabric qui permet justement de créer des workflows basés sur l’IA totalement sur-mesure en combinant différents modèles et différentes APIs. Comme ça vous pourrez concevoir vos propres assistants adaptés à vos propres besoins.

Concrètement, Fabric fonctionne comme un framework avec différents composants réutilisables :

Des Patterns qui sont des templates de prompts répondant à un besoin précis (ex : résumer un article, extraire les idées clés d’une vidéo, etc).
Des Stitches qui permettent d’enchaîner plusieurs Patterns pour créer des workflows avancés.
Un serveur central appelé Mill qui héberge et sert les Patterns.
Des apps clientes appelées Looms qui invoquent les Patterns via des APIs.

Plutôt que d’utiliser des services IA fermés, Fabric vous donne le contrôle total sur vos workflows. Comme ça, vous pouvez héberger vous-même les différents composants et garder vos données en local. Le tout étant bien sûr basé sur des standards ouverts et interopérables.

L’idée pour les gens derrière Fabric, c’est de rendre l’intégration de l’IA aussi simple que l’utilisation de commandes Unix. Par exemple, pour résumer le contenu d’une page web avec l’IA, il vous suffit de chaîner les deux commandes suivantes :

curl https://example.com | fabric --pattern summarize

Vous pouvez même créer des aliases pour vos patterns les plus utilisés. Par exemple pour analyser un article :

alias analyze="fabric --pattern analyze" cat article.txt | analyze

Bien sûr, tout ceci nécessite un peu de pratique et de changements dans vos habitudes de travail mais une fois les bons réflexes pris, le gain de temps sera considérable.

Certains craignent que l’IA nous mette tous au chomage mais je pense au contraire qu’elle va surtout nous aider à torcher rapidement les tâches ingrates pour nous permettre d’être plus créatifs et de bosser sur les sujets de fond avec plus de valeur ajoutée.

Si ça vous dit d’essayer Fabric, la doc est ici.

Intelligence artificielle
Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)
Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ? C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même. Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement

Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)

Intelligence artificielle

Par : Korben

7 mai 2024 à 09:00

Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?

C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.

Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.

Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.

Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.

Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :

Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.

Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.

Vous devrez donc avoir Python 3.11, puis installez poetry :

brew install poetry

Ensuite, clonez le dépôt git et aller dans le dossier :

git clone https://github.com/Skyvern-AI/skyvern.git

cd skyvern

Puis lancez le script d’install :

./setup.sh

Une fois que c’est fini, démarrez le serveur :

./run_skyvern.sh

Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :

./run_ui.sh

Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.

En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :

curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
    "url": "https://www.geico.com",
    "webhook_callback_url": "",
    "navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
    "data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
    "navigation_payload": "{Vos données ici}",
    "proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks

Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.

Bref, pour en savoir plus, c’est sur le Github. Et sur leur site officiel.

Intelligence artificielle
Discutez avec les interviews de Steve Jobs !
Fans de Steve Jobs, réjouissez-vous ! Grâce à la magie de l’intelligence artificielle, vous allez pouvoir discuter avec votre gourou préféré. Enfin, quand je dis « discuter », c’est un bien grand mot. Disons plutôt que vous allez pouvoir poser des questions à un modèle de langage entraîné sur une petite quantité d’interviews et discours de Steve Jobs himself. Pour cela, le créateur de ce chatbot a utilisé un service nommé Jelli.io qui permet justement de chatter avec des vidéos et l

Discutez avec les interviews de Steve Jobs !

Intelligence artificielle

Par : Korben

7 mai 2024 à 07:00

Fans de Steve Jobs, réjouissez-vous !

Grâce à la magie de l’intelligence artificielle, vous allez pouvoir discuter avec votre gourou préféré. Enfin, quand je dis « discuter », c’est un bien grand mot. Disons plutôt que vous allez pouvoir poser des questions à un modèle de langage entraîné sur une petite quantité d’interviews et discours de Steve Jobs himself.

Pour cela, le créateur de ce chatbot a utilisé un service nommé Jelli.io qui permet justement de chatter avec des vidéos et le résultat est plutôt cool, même si le chatbot n’incarne pas directement Steve Jobs (pour des questions éthiques j’imagine et pour n’énerver personne…)

Bref, de quoi vous inspirer et vous motiver sans forcement mater des heures et des heures d’interviews.

Intelligence artificielle
Ollama 0.133 – Enfin une gestion en parallèle des LLMs
Vous avez vu la dernière version d’Ollama ? Cette version 0.133 a l’air plutôt pas mal. Bon, je sais, je sais, ça faisait un bail que je n’avais pas parlé des mises à jour de cet outil génial pour faire tourner des modèles d’IA en local, mais là, impossible de passer à côté ! Déjà, on a le droit à des fonctionnalités expérimentales de parallélisme (je sais pas si c’est comme ça qu’on dit en français…) qui vont vous permettre d’optimiser grave vos applis d’IA. Il y a donc 2 nouvelles variabl

Ollama 0.133 – Enfin une gestion en parallèle des LLMs

Intelligence artificielle

Par : Korben

6 mai 2024 à 12:06

Vous avez vu la dernière version d’Ollama ? Cette version 0.133 a l’air plutôt pas mal. Bon, je sais, je sais, ça faisait un bail que je n’avais pas parlé des mises à jour de cet outil génial pour faire tourner des modèles d’IA en local, mais là, impossible de passer à côté !

Déjà, on a le droit à des fonctionnalités expérimentales de parallélisme (je sais pas si c’est comme ça qu’on dit en français…) qui vont vous permettre d’optimiser grave vos applis d’IA. Il y a donc 2 nouvelles variables d’environnement qui débarquent : OLLAMA_NUM_PARALLEL et OLLAMA_MAX_LOADED_MODELS. Avec ça, vous allez pouvoir gérer plusieurs modèles et requêtes en même temps, comme des pros ! 😎

Par exemple, si vous avez un modèle pour compléter votre code avec une IA de 6 milliards de paramètres comme Llama 3, et en même temps vous demandez à Phi 3 Mini et ses 3,8 milliards de paramètres comment architecturer votre projet et bien maintenant, c’est possible ! Comme ça, plus besoin d’attendre que l’un ait fini pour lancer l’autre puisque tout ça va se lancer en parallèle.

Alors bien sûr, c’est encore expérimental car il n’y a pas encore de priorité, et on est limité par la mémoire dispo sur notre machine. D’ailleurs, il vaut mieux avoir 16 Go de RAM et un CPU 4 cœurs pour que ça fonctionne correctement.

Il y a aussi plein de nouveaux modèles d’IA compatibles avec Ollama maintenant. Des gros calibres comme Llama 3, le meilleur modèle open-source à ce jour, mais aussi des plus légers et spécialisés comme Phi 3 Mini, Moondream pour la vision par ordinateur sur des appareils à la marge, ou encore Dolphin Llama 3 qui répond sans censure. Et le premier modèle Qwen (c’est chinois) de plus de 100 milliards de paramètres, Qwen 110B, est également de la partie. Ça en fait des compagnons pour nous assister dans nos projets !

Ensuite, imaginons que vous vouliez tester le parallélisme. Vous devez simplement lancer votre serveur Ollama avec les fameuses variables d’environnement.

Voici comment procéder :

Définir les variables sur Mac :

Utilisez launchctl pour définir chaque variable. Par exemple, pour permettre à Ollama de gérer trois requêtes simultanément, tapez dans le terminal :
launchctl setenv OLLAMA_NUM_PARALLEL 3
Pour définir le nombre maximal de modèles chargés simultanément à deux, utilisez :
launchctl setenv OLLAMA_MAX_LOADED_MODELS 2
Après avoir défini les variables, redémarrez l’application Ollama.

Configurer les variables sur Linux :

Éditez le service systemd d’Ollama avec systemctl edit ollama.service, ce qui ouvrira un éditeur de texte.
Ajoutez les lignes suivantes sous la section [Service] :
[Service] Environment="OLLAMA_NUM_PARALLEL=3" Environment="OLLAMA_MAX_LOADED_MODELS=2"
Sauvegardez et quittez l’éditeur. Rechargez systemd et redémarrez Ollama avec :
systemctl daemon-reload systemctl restart ollama

Paramétrer les variables sur Windows :

Quittez l’application Ollama via la barre des tâches.
Accédez aux variables d’environnement système via le panneau de configuration et créez ou modifiez les variables pour votre compte utilisateur :
- Pour OLLAMA_NUM_PARALLEL, ajoutez ou modifiez la variable à 3.
- Pour OLLAMA_MAX_LOADED_MODELS, ajustez la variable à 2.
Appliquez les changements et redémarrez Ollama à partir d’une nouvelle fenêtre de terminal.

Là, ça veut dire que vous pourrez envoyer 3 requêtes en parallèle sur le même modèle, et charger jusqu’à 2 modèles différents si votre RAM de 16 Go minimum le permet.

Bon, et une fois que c’est lancé, vous pourrez envoyer des requêtes à tour de bras. Un coup à Llama 3 pour qu’il vous aide à générer un résumé de texte hyper optimisé, un autre à Phi 3 Mini pour résumer un article scientifique, tout ça pendant que Moondream analyse une image pour de la détection d’objets.

Allez, je vous laisse tranquille, faut que j’aille optimiser mes scripts maintenant.

Ollama 0.133 est dispo ici.

Source

Intelligence artificielle
GPT2-chatbot – Une IA mystère qui serait la prochaine évolution d’OpenAI (GPT-4.5 / GPT-5) ?
Vous avez entendu parler de GPT2-chatbot ? C’est un modèle de langage un peu mystérieux, accessible uniquement sur le site https://chat.lmsys.org, qui semble avoir des super pouvoirs dignes de ChatGPT. Mais attention, suspense… Personne ne sait d’où il sort ! Ce chatbot anonyme fait tourner les têtes cette semaine après être devenu disponible sur un important site de référence pour les grands modèles de langage, LMSYS Org. Beaucoup considèrent qu’il a à peu près les mêmes capacités que GPT-

GPT2-chatbot – Une IA mystère qui serait la prochaine évolution d’OpenAI (GPT-4.5 / GPT-5) ?

Intelligence artificielle

Par : Korben

30 avril 2024 à 09:51

Vous avez entendu parler de GPT2-chatbot ?

C’est un modèle de langage un peu mystérieux, accessible uniquement sur le site https://chat.lmsys.org, qui semble avoir des super pouvoirs dignes de ChatGPT. Mais attention, suspense… Personne ne sait d’où il sort ! Ce chatbot anonyme fait tourner les têtes cette semaine après être devenu disponible sur un important site de référence pour les grands modèles de langage, LMSYS Org. Beaucoup considèrent qu’il a à peu près les mêmes capacités que GPT-4 d’OpenAI, ce qui le place dans une rare catégorie de modèles d’IA que seule une poignée de développeurs dans le monde a pu atteindre.

Quand on lui pose la question, ce petit malin de GPT2-chatbot clame haut et fort qu’il est basé sur l’archi de GPT-4 sauf que voilà, ça colle pas vraiment avec son blaze GPT-2…

Les communautés d’IA en ligne se sont emballées au sujet de l’anonyme gpt2-chatbot. Un utilisateur de X affirme que gpt2-chatbot a presque codé un clone parfait du jeu mobile Flappy Bird. Un autre utilisateur de X dit qu’il a résolu un problème de l’Olympiade internationale de mathématiques en un seul coup. Sur de longs fils Reddit, les utilisateurs spéculent sauvagement sur les origines de gpt2-chatbot et se disputent pour savoir s’il provient d’OpenAI, de Google ou d’Anthropic. Il n’y a aucune preuve de ces affirmations, mais les tweets de Sam Altman, PDG d’OpenAI, et d’autres cadres n’ont fait que jeter de l’huile sur le feu.

Mise à jour : De nouvelles informations importantes sont apparues concernant GPT2-chatbot :

Il est extrêmement probable que GPT2-chatbot fonctionne sur un serveur géré par OpenAI ou associé à OpenAI, comme le révèle la comparaison de messages d’erreur d’API spécifiques.
GPT2-chatbot a été rendu indisponible sur lmsys.org depuis le 30 avril vers 18h UTC. LMSYS a également mis à jour de façon opportune sa politique d’évaluation des modèles hier.
GPT2-chatbot utilise le même tokenizer « tiktoken » qu’OpenAI et présente les mêmes vulnérabilités et résistances aux injections de prompts malicieux que les modèles d’OpenAI.
Lorsqu’on lui demande les coordonnées de son fournisseur, il donne des informations de contact très détaillées d’OpenAI.

Tout cela va clairement dans le sens de l’hypothèse selon laquelle GPT2-chatbot serait bien un nouveau modèle GPT d’OpenAI, probablement une version préliminaire de GPT-4.5. Les performances sont en effet un cran au-dessus de GPT-4 tout en restant dans la même lignée.

L’accès à GPT2-chatbot est actuellement limité à 8 messages par jour et par utilisateur en mode « tchatche directe ». Pour continuer après, il faut passer en mode « Battle ». Les restrictions plus importantes que pour GPT-4 suggèrent que le modèle a un coût de calcul plus élevé.

Malheureusement, suite à un trafic trop important, LMSYS a dû temporairement désactiver l’accès à GPT2-chatbot. Affaire à suivre donc pour découvrir l’identité réelle de ce mystérieux modèle et les plans d’OpenAI à son sujet. Une version plus large sera-t-elle bientôt diffusée ? Réponse dans les prochaines semaines !

Prêt à tester les talents cachés de GPT2-chatbot ?

Si un jour, ça remarche, direction https://chat.lmsys.org, sélectionnez « gpt2-chatbot », cliquez sur « Chat » et c’est parti mon kiki !

Vous aurez le droit à 8 messages gratos en mode « tchatche directe » et après, faut passer en mode « Battle » pour continuer à jouer. Un petit conseil : pensez à repartir d’une page blanche en cliquant sur « New Round » à chaque fois que vous changez de sujet, sinon il risque de perdre le fil.

On verra bien dans quelques semaines quelle théorie sortira gagnante de ces discussions. Il y a très peu d’informations disponibles sur gpt2-chatbot pour l’instant mais il semble clair qu’un acteur majeur est derrière ce modèle IA.

Source

Intelligence artificielle
Adobe VideoGigaGAN – L’IA qui transforme vos vidéos floues en HD !
Vous avez une vieille vidéo toute pourrie, floue à souhait, qui date de Mathusalem et bien avec VideoGigaGAN d’Adobe, elle va se transformer en une magnifique séquence HD, avec des détails si nets que vous pourrez compter les poils de nez des gens qui sont dessus ! VideoGigaGAN est ce qu’on appelle un modèle d’IA génératif. En gros, ce machin est capable de deviner les détails manquants dans une vidéo pourrave pour la rendre méga classe. Les petits gars d’Adobe ont balancé des exemples s

Adobe VideoGigaGAN – L’IA qui transforme vos vidéos floues en HD !

Intelligence artificielle

Par : Korben

25 avril 2024 à 10:37

Vous avez une vieille vidéo toute pourrie, floue à souhait, qui date de Mathusalem et bien avec VideoGigaGAN d’Adobe, elle va se transformer en une magnifique séquence HD, avec des détails si nets que vous pourrez compter les poils de nez des gens qui sont dessus !

VideoGigaGAN est ce qu’on appelle un modèle d’IA génératif. En gros, ce machin est capable de deviner les détails manquants dans une vidéo pourrave pour la rendre méga classe. Les petits gars d’Adobe ont balancé des exemples sur leur GitHub et franchement, c’est impressionnant. On passe d’une vidéo degueulasse à un truc ultra net, avec des textures de peau hallucinantes et des détails de fou !

En plus, cette IA est capable d’upscaler les vidéos jusqu’à 8 fois leur résolution d’origine, par contre, faut pas s’emballer car pour le moment, c’est juste une démo de recherche et y’a pas encore de date de sortie officielle. Mais connaissant Adobe, y’a moyen que ça finisse dans Premiere Pro un de ces quatre. Je vais pouvoir améliorer mes vidéos tournées à l’époque au format 3GP \o/.

D’ici là, va falloir continuer à se taper des vidéos de chat toutes pixelisées sur les réseaux sociaux.

Source

Intelligence artificielle
OpenELM – Apple sort ses modèles IA légers et open-source
Vous connaissez OpenELM ? Non, normal, ça vient de sortir. Et c’est une famille de modèles IA open-source made in Apple conçus pour tourner directement sur vos appareils, sans passer par le cloud. En gros, c’est de l’IA maison dans nos iPhone, iPad et Mac…etc. OpenELM combine plusieurs modèles de langage naturel (LLMs) utilisant des algorithmes évolutionnistes qui exploitent les principes techniques suivants : Layer-wise scaling strategy : Cette stratégie consiste à allouer les paramètr

OpenELM – Apple sort ses modèles IA légers et open-source

Intelligence artificielle

Par : Korben

25 avril 2024 à 10:19

Vous connaissez OpenELM ? Non, normal, ça vient de sortir. Et c’est une famille de modèles IA open-source made in Apple conçus pour tourner directement sur vos appareils, sans passer par le cloud. En gros, c’est de l’IA maison dans nos iPhone, iPad et Mac…etc.

OpenELM combine plusieurs modèles de langage naturel (LLMs) utilisant des algorithmes évolutionnistes qui exploitent les principes techniques suivants :

Layer-wise scaling strategy : Cette stratégie consiste à allouer les paramètres dans les couches d’un modèle transformeur pour améliorer l’exactitude. Les modèles sont pré-alourés avec un budget de paramètres de 270 millions, 450 millions, 1,1 milliard et 3 milliards.
Pré-entraînement : Les modèles ont été pré-entraînés à l’aide d’une combinaison de datasets, incluant une sous-ensemble de Dolma v1.6, RefinedWeb, deduplicated PILE et une sous-ensemble de RedPajama. Ce dataset contient environ 1,8 trillion de tokens.
Evolutionary algorithms : Les algorithmes évolutionnistes sont utilisés pour combiner les modèles LLM et améliorer l’exactitude. Cela permet d’exploiter les forces combinées des modèles pré-alourés et d’améliorer leur précision.

Alors évidemment, Apple arrive un peu après la bataille dans l’IA, pendant que Microsoft et Google déboulent à fond la caisse. Mais bon, mieux vaut tard que jamais, et puis ils compensent avec du lourd, soit 8 modèles OpenELM au total, dont 4 pré-entraînés avec CoreNet et 4 fine-tunés. Et avec leur stratégie de scaling par couche ça optimise à fond l’allocation des paramètres.

Allez, je traduits… En gros, ça veut dire qu’ils sont hyper efficaces et précis. Prenez le modèle à 1 milliard de paramètres et bien bah il explose un modèle équivalent comme OLMo de 2,36% en précision, avec 2 fois moins de tokens en pré-entraînement. Et ce qui est top, c’est qu’Apple balance tout : code, logs d’entraînement, configuration…etc et pas juste le modèle final. Et vu qu’ils utilisent des datasets publics, c’est top en matière de transparence et vérification des biais.

En tout cas, une chose est sûre, avec OpenELM, Apple nous prouve qu’ils sont dans la course, et qu’ils comptent bien mettre le paquet sur l’IA

Et Merci à Letsar pour l’info, c’est lui qui m’a mis la puce à l’oreille sur OpenELM. Tu gères !

Source

Intelligence artificielle
L’IA du MIT qui prédit les actions humaines
Imaginez un monde où les ordinateurs pourraient prédire ce que vous allez faire avant même que vous ne le fassiez. Ça peut sembler tout droit sorti d’un film de science-fiction du style de Minority Report, mais les chercheurs du célèbre MIT (Massachusetts Institute of Technology) sont en train de rendre ça possible ! En effet, ils ont mis au point un modèle d’IA (intelligence artificielle) qui est capable d’analyser les limitations d’un agent, qu’il soit humain ou artificiel, pour en déduire se

L’IA du MIT qui prédit les actions humaines

Intelligence artificielle

Par : Korben

24 avril 2024 à 20:00

Imaginez un monde où les ordinateurs pourraient prédire ce que vous allez faire avant même que vous ne le fassiez. Ça peut sembler tout droit sorti d’un film de science-fiction du style de Minority Report, mais les chercheurs du célèbre MIT (Massachusetts Institute of Technology) sont en train de rendre ça possible ! En effet, ils ont mis au point un modèle d’IA (intelligence artificielle) qui est capable d’analyser les limitations d’un agent, qu’il soit humain ou artificiel, pour en déduire ses actions futures les plus probables.

Dingue, non ?

Mais comment ce modèle s’y prend-il pour jouer les madame Irma ? En fait, tout est une question de limites. Nan, je ne parle pas des limites de vitesse ou des dates de péremption, hein. Je parle des contraintes qui pèsent sur un agent peu importe sa nature, biologique ou numérique.

Prenons un exemple concret : Vous êtes en train de jouer aux échecs contre un ordinateur. Vous avez vos propres contraintes : votre niveau de jeu, votre connaissance des ouvertures et des fins de partie, votre capacité à anticiper les coups de l’adversaire… Bref, tout un tas de facteurs qui limitent vos possibilités d’action. Eh bien, c’est exactement ce que le modèle d’IA du MIT analyse !

En se basant sur ces fameuses limites, il est capable d’inférer les coups que vous avez le plus de chances de jouer. Pas besoin d’être Garry Kasparov pour comprendre à quel point c’est bluffant. Votre ordinateur sera bientôt meilleur que vous aux échecs… et dans plein d’autres domaines !

Mais attention, le modèle du MIT ne prétend pas prédire l’avenir avec une précision de 100%. Il s’agit plutôt d’identifier des tendances et des schémas de comportement en fonction des limitations d’un agent. Ça reste néanmoins un outil très puissant pour anticiper les actions les plus probables.

D’ailleurs, les applications de cette technologie vont bien au-delà des jeux de société. Je pense par exemple au voitures autonomes qui pourraient anticiper les mouvements des piétons et des autres véhicules, des assistants virtuels qui sauraient exactement ce que vous allez leur demander avant même que vous n’ouvriez la bouche, des robots industriels capables de s’adapter en temps réel aux changements de leur environnement… Les possibilités sont infinies !

Bien sûr, tout cela soulève aussi son lot de questions éthiques. Est-ce qu’on a vraiment envie que les machines lisent dans nos pensées comme dans un livre ouvert ? Est-ce que ça ne risque pas de créer de sacrés problèmes de vie privée et de manipulation ? Imaginez que votre enceinte connectée décide de vous commander une pizza quatre fromages parce qu’elle a deviné que vous aviez un petit creux… Flippant, non ?

Mais bon, on n’en est pas encore là. Pour l’instant, les chercheurs du MIT sont encore en train de plancher sur leur modèle pour le perfectionner et étendre ses capacités. Et croyez-moi, c’est loin d’être un long fleuve tranquille ! L’IA a beau faire des progrès de géant, prédire le comportement humain reste un sacré défi. On est tellement imprévisibles et irrationnels, nous autres mortels…

En attendant de pouvoir déléguer toutes nos décisions à une machine, le modèle du MIT nous offre un aperçu de ce que pourrait être le futur de l’interaction homme-machine. Un futur où les ordinateurs nous comprendraient mieux que nous-mêmes, pour le meilleur et pour le pire. Perso, j’oscille entre fascination et inquiétude.

Et vous ?

Source

Intelligence artificielle
La base de données des incidents d’IA – Bugs, dérapages et leçons à tirer
Pendant qu’une utopie où les véhicules autonomes, les assistants virtuels et les systèmes de recommandation se profile à l’horizon, force est de constater que l’intelligence artificielle n’en est encore qu’à ses balbutiements. La promesse d’un monde meilleur se heurte à la dure réalité des incidents causés par ces systèmes dits « intelligents », déployés trop rapidement dans notre environnement. C’est là qu’intervient la base de données des incidents d’IA (AIID), véritable mémoire collectiv

La base de données des incidents d’IA – Bugs, dérapages et leçons à tirer

Intelligence artificielle

Par : Korben

22 avril 2024 à 09:00

Pendant qu’une utopie où les véhicules autonomes, les assistants virtuels et les systèmes de recommandation se profile à l’horizon, force est de constater que l’intelligence artificielle n’en est encore qu’à ses balbutiements. La promesse d’un monde meilleur se heurte à la dure réalité des incidents causés par ces systèmes dits « intelligents », déployés trop rapidement dans notre environnement.

C’est là qu’intervient la base de données des incidents d’IA (AIID), véritable mémoire collective répertoriant les bugs, plantages et autres dérapages de l’IA lorsqu’elle est lâchée dans la nature. Tel un Guinness Book des foirages technologiques, elle recense déjà plus de 1000 cas, des plus anodins aux plus tragiques :

– un taxi sans chauffeur Waymo qui emboutit un cycliste en plein San Francisco
– un deepfake audio d’Imran Khan appelant au boycott des élections au Pakistan pour tromper les électeurs
– de fausses images de Donald Trump entouré d’électeurs noirs générées par IA pour influencer le vote des afro-américains
– et le pire de tous (ou pas) : des collégiens de Beverly Hills qui créent de fausses photos dénudées de leurs camarades grâce à l’IA !

Bref, c’est la foire aux casseroles dans le merveilleux monde de l’IA et il était temps que quelqu’un dresse l’inventaire de ces dérapages en tout genre. Mais au-delà du simple folklore, la mission de l’AIID est d’apprendre de ces échecs pour bâtir des IA plus sûres, à l’image de ce qui se fait dans l’aéronautique ou la cybersécurité.

La base s’enrichit chaque jour grâce aux signalements de la communauté. Chacun peut ainsi apporter sa pierre à l’édifice en soumettant de nouveaux incidents, triés et classés pour en dégager des tendances. L’idée est d’arriver à une définition partagée de ce qu’est un « incident d’IA » et d’en tirer des leçons pour l’avenir.

Car n’en déplaise à Elon Musk ou à Mark Zuckerberg, le futur de l’IA ne se fera pas sans règles ni garde-fous. Pour que la révolution intelligente profite au plus grand nombre, elle doit impérativement s’accompagner d’une démarche éthique et responsable. C’est précisément la mission du Responsible AI Collaborative, l’organisation derrière l’AIID, qui rassemble chercheurs, entrepreneurs et experts du monde entier.

D’ailleurs, vous aussi, vous pouvez contribuer ! Et ils ont de grandes ambitions puisque la prochaine étape sera d’intégrer les incidents dans des outils de test pour reproduire les scénarios à risque et s’entraîner à y faire face. Une sorte de « crash test » géant pour IA en quelque sorte !

À terme, l’objectif est de faire de l’AIID un outil incontournable pour tous les acteurs de l’écosystème : Chercheurs, régulateurs, industriels… Car ne nous y trompons pas, la course à l’IA ne fait que commencer et les incidents risquent de se multiplier si nous n’y prenons pas garde.

D’ici là, votre mission si vous l’acceptez sera de garder un oeil sur ce grand capharnaüm de l’IA et de signaler sans relâche les anomalies que vous constaterez ! Car après tout, la sécurité de ces systèmes est l’affaire de tous et rien ne vaut la vigilance humaine pour déjouer les bugs les plus retors.

Intelligence artificielle
PyTorch dévoile Torchtune pour fine-tuner les LLM
PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête. Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des

PyTorch dévoile Torchtune pour fine-tuner les LLM

Intelligence artificielle

Par : Korben

19 avril 2024 à 10:18

PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête.

Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des recettes mémoire efficaces qui tournent même sur une bête carte graphique de gamer, comme les NVidia 3090/4090.

Son secret ?

Une architecture bien pensée qui mise sur l’interopérabilité avec l’écosystème des LLM, qu’ils soient open-source ou non. Concrètement, ça veut dire que vous allez pouvoir brancher Torchtune à tout un tas d’outils et de frameworks que vous adorez déjà, comme Hugging Face 🤗, PyTorch FSDP 🪢, Weights & Biases 📈, et plein d’autres.

Grâce à des recettes simples et bien documentées pour les modèles populaires comme Llama 3, Mistral ou Gemma 7B, même les débutants vont pouvoir se lancer dans l’aventure sans flipper. Bon OK, il faudra quand même un peu de bagage en PyTorch et en LLM, mais rien d’insurmontable ! Et si vous êtes un pro, vous allez pouvoir hacker le code à volonté pour l’adapter à vos besoins spécifiques.

Alors comment on met les mains dans le cambouis avec Torchtune ?

Rien de plus simple, mon cher Watson ! Il vous suffit d’installer la dernière version stable de PyTorch (2.2.2 au moment où j’écris ces lignes), puis de télécharger Torchtune depuis PyPI avec un petit

pip install torchtune

Et voilà, vous êtes prêt à en découdre avec les LLM !

Pour vous faire les dents, je vous conseille de jeter un œil au tutoriel sur le fine-tuning de Llama2 7B. C’est le parfait point de départ pour comprendre comment Torchtune fonctionne et comment l’utiliser pour vos propres projets.

En gros, ça se passe en 4 étapes :

Téléchargez le modèle pré-entraîné et le tokenizer depuis Hugging Face Hub avec tune download.
Choisissez une recette de fine-tuning (LoRA, QLoRA, full…) et customisez-la avec un fichier de config en YAML.
Lancez l’entraînement avec tune run en précisant votre recette et votre config. Vous pouvez même faire du multi-GPU avec torchrun !
Admirez le résultat et testez votre modèle fine-tuné avec une inférence locale. Si tout se passe bien, exportez-le avec ExecuTorch pour le déployer en prod, ou utilisez les API de quantification de Torchao pour l’exporter en int4 ou int8 et l’utiliser sur mobile ou en edge.

Facile, non ? 😄

Bon OK, j’avoue, j’ai un peu simplifié. En vrai, il y a pas mal de subtilités et de paramètres à régler pour obtenir les meilleurs résultats, comme le learning rate, le nombre d’époques, la taille du batch, le ratio de LoRA, et tout un tas d’autres trucs, mais c’est justement sa flexibilité qui vous permet d’expérimenter à l’infini pour trouver la combinaison parfaite.

Bref, si vous êtes dev et que vous aimez jouer avec les LLM c’est à tester.

Source

Intelligence artificielle
Llama 3 – l’IA open source de Meta qui rivalise avec les meilleurs modèles
Accrochez-vous à vos claviers, car Meta vient de lâcher dans la nature une nouvelle créature nommée Llama 3. Oui, vous avez bien compris, je parle de la dernière génération de modèles de langage « open source » (ou presque, on y reviendra) de la société de Mark Zuckerberg. Si vous pensiez que ChatGPT, Claude ou Mistral étaient les rois de la savane, attendez de voir débarquer ces nouveaux lamas survitaminés ! Avec des versions allant de 8 à 400 milliards de paramètres (pour les non-initiés,

Llama 3 – l’IA open source de Meta qui rivalise avec les meilleurs modèles

Intelligence artificielle

Par : Korben

18 avril 2024 à 20:44

Accrochez-vous à vos claviers, car Meta vient de lâcher dans la nature une nouvelle créature nommée Llama 3. Oui, vous avez bien compris, je parle de la dernière génération de modèles de langage « open source » (ou presque, on y reviendra) de la société de Mark Zuckerberg.

Si vous pensiez que ChatGPT, Claude ou Mistral étaient les rois de la savane, attendez de voir débarquer ces nouveaux lamas survitaminés ! Avec des versions allant de 8 à 400 milliards de paramètres (pour les non-initiés, disons que c’est l’équivalent de leur QI 🧠), les Llama 3 atomisent littéralement la concurrence sur de nombreux benchmarks standards, que ce soit en termes de connaissances générales, de compréhension, de maths, de raisonnement ou de génération de code.

Mais qu’est-ce qui fait de Llama 3 un tel monstre par rapport à son petit frère Llama 2 ? Déjà, un entraînement de folie à base de 15 000 milliards de tokens (7 fois plus que Llama 2 !) pompé depuis le web (!!), avec beaucoup plus de code et de données non-anglaises pour préparer le terrain à une IA multilingue. Ajoutez à ça des techniques de parallélisation à gogo pendant la phase de pré-entraînement, et vous obtenez des lamas dopés qui apprennent à une vitesse supersonique.

Et ce n’est pas tout ! Les Llama 3 ont suivi un programme d’éducation complet, avec du fine-tuning à base de rejection sampling, de PPO et de DPO (si vous ne connaissez pas ces acronymes, ne vous inquiétez pas, moi non plus 😅). Résultat : des modèles ultra-fiables qui refusent rarement une tâche, font preuve d’un alignement exemplaire et sont capables de suivre des instructions complexes sans sourciller. Bref, ce sont des cracks en raisonnement et en génération de code !

Mais au fait, comment on met la main sur ces petites bêtes ? Facile, il suffit de se rendre sur le site de Meta AI et de les télécharger ! Enfin, quand je dis facile… Les Llama 3 sont bien « open source », mais sous une licence maison qui impose quelques restrictions, notamment pour les entreprises de plus de 700 millions d’utilisateurs mensuels (suivez mon regard vers Mountain View et Redmond 👀). Mais bon, rien ne vous empêche de vous amuser avec si vous n’êtes pas une multinationale !

Et en parlant de s’amuser, sachez que Meta a aussi concocté un chatbot maison (pas encore dispo en France) baptisé sobrement « Meta AI« , disponible sur le web (www.meta.ai) et directement intégré dans les barres de recherche de Facebook, Instagram, WhatsApp et Messenger. Sous le capot, c’est bien sûr du pur Llama 3, avec en prime un modèle de génération d’images nommé « Meta Imagine« .

Au programme, de la discussion, de la recherche web via Bing et Google, et bien sûr de la création d’images en un clin d’œil. Seul hic, pas encore de mode multi-modal façon ChatGPT pour uploader vos propres documents ou images, mais ça ne saurait tarder !

Alors, que penser de ce nouveau coup d’éclat de Meta dans la bataille des IA ?

Personnellement, je trouve ça plutôt chouette de voir un poids lourd du Net jouer le jeu de l’open source (ou approchant) et mettre à disposition de tous des modèles de cette qualité. Bien sûr, on peut toujours discuter des arrière-pensées de Zuck et sa volonté de garder un œil sur ce qu’on fabrique avec ses lamas. Mais au final, c’est toujours ça de pris sur les GAFAM et leurs vilains modèles propriétaires !

Allez, je vous laisse, j’ai un lama à aller dompter moi ! 🦙

Et n’oubliez pas, comme le dirait l’autre, « le monde appartient à ceux qui codent tôt ». Ou tard, c’est selon.

Source

Intelligence artificielle
VASA-1 – Des visages parlants ultra-réalistes et en temps réel
VASA-1 est un nouveau framework qui permet de générer des visages parlants ultra-réalistes en temps réel ! En gros, vous balancez une simple photo à cette IA, ainsi qu’un petit clip audio, et bim ! Elle vous pond une vidéo d’un visage qui parle, avec une synchronisation de la bouche nickel chrome, des expressions faciales hyper naturelles et des mouvements de tête très fluides. C’est hyper bluffant ! Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs techniq

VASA-1 – Des visages parlants ultra-réalistes et en temps réel

Intelligence artificielle

Par : Korben

18 avril 2024 à 01:49

VASA-1 est un nouveau framework qui permet de générer des visages parlants ultra-réalistes en temps réel ! En gros, vous balancez une simple photo à cette IA, ainsi qu’un petit clip audio, et bim ! Elle vous pond une vidéo d’un visage qui parle, avec une synchronisation de la bouche nickel chrome, des expressions faciales hyper naturelles et des mouvements de tête très fluides. C’est hyper bluffant !

Les chercheurs de Microsoft ont réussi ce tour de force en combinant plusieurs techniques de pointe en deep learning. Ils ont d’abord créé un espace latent expressif et bien organisé pour représenter les visages humains. Ça permet de générer de nouveaux visages variés, qui restent cohérents avec les données existantes. Ensuite, ils ont entraîné un modèle de génération de dynamiques faciales et de mouvements de tête, appelé le Diffusion Transformer, pour générer les mouvements à partir de l’audio et d’autres signaux de contrôle.

Et le résultat est juste époustouflant. On a l’impression de voir de vraies personnes qui parlent, avec toutes les nuances et les subtilités des expressions faciales. Les lèvres bougent parfaitement en rythme avec les paroles, les yeux clignent et regardent naturellement, les sourcils se lèvent et se froncent…

En plus de ça, VASA-1 peut générer des vidéos en haute résolution (512×512) à une cadence élevée, jusqu’à 40 images par seconde, avec une latence de démarrage négligeable. Autant dire que c’est le graal pour toutes les applications qui nécessitent des avatars parlants réalistes. On peut imaginer des assistants virtuels avec lesquels on pourrait interagir de manière super naturelle, des personnages de jeux vidéo encore plus crédibles et attachants, des outils pédagogiques révolutionnaires pour apprendre les langues ou d’autres matières, des thérapies innovantes utilisant des avatars pour aider les patients… etc etc..

En plus de pouvoir contrôler la direction du regard, la distance de la tête et même les émotions du visage généré, VASA-1 est capable de gérer des entrées qui sortent complètement de son domaine d’entraînement comme des photos artistiques, du chant, d’autres langues…etc.

Bon, évidemment, il reste encore quelques limitations. Par exemple, le modèle ne gère que le haut du corps et ne prend pas en compte les éléments non rigides comme les cheveux ou les vêtements. De plus, même si les visages générés semblent très réalistes, ils ne peuvent pas encore imiter parfaitement l’apparence et les mouvements d’une vraie personne mais les chercheurs comptent bien continuer à l’améliorer pour qu’il soit encore plus versatile et expressif.

En attendant, je vous invite à checker leur page de démo pour voir cette merveille en action. C’est juste hallucinant ! Par contre, vu les problèmes éthiques que ça pourrait poser du style usurpation d’identité, fake news et compagnie, et connaissans Microsoft, je pense que VASA-1 ne sera pas testable par tous bientôt malheureusement. Mais je peux me tromper…

Intelligence artificielle
IA sera bientôt capable de se répliquer et survivre d’après le CEO d’Anthropic
Les avancées fulgurantes dans le domaine de l’intelligence artificielle ces dernières années ont suscité autant d’enthousiasme que d’inquiétudes et si les dernières déclarations de Dario Amodei, PDG d’Anthropic, se confirment, nous pourrions bien être à l’aube d’une nouvelle ère où les IA seront capables de se répliquer et de survivre de manière autonome comme n’importe quel être vivant. Lors d’une récente interview pour le New York Times (je vous mets le transcript ici), Amodei a évoqué la

IA sera bientôt capable de se répliquer et survivre d’après le CEO d’Anthropic

Intelligence artificielle

Par : Korben

17 avril 2024 à 09:09

Les avancées fulgurantes dans le domaine de l’intelligence artificielle ces dernières années ont suscité autant d’enthousiasme que d’inquiétudes et si les dernières déclarations de Dario Amodei, PDG d’Anthropic, se confirment, nous pourrions bien être à l’aube d’une nouvelle ère où les IA seront capables de se répliquer et de survivre de manière autonome comme n’importe quel être vivant.

Lors d’une récente interview pour le New York Times (je vous mets le transcript ici), Amodei a évoqué la possibilité que nous atteignions bientôt un niveau d’IA qu’il qualifie d’ASL 4. Ce stade, qui implique une autonomie et une capacité de persuasion accrues, pourrait permettre à des acteurs étatiques comme la Corée du Nord, la Chine ou la Russie de renforcer considérablement leurs capacités offensives dans divers domaines militaires.

Pour rappel, il a cofondé Anthropic avec sa sœur Daniela après avoir quitté OpenAI en raison de divergences sur l’orientation de l’entreprise. Chez OpenAI, il avait notamment participé au développement de GPT-3. Donc autant dire qu’il maitrise son sujet.

ASL signifie « Architectural Safety Level » (Niveau de Sécurité Architecturale en français). C’est une échelle empruntée aux laboratoires de virologie concernant leur niveau de « biosécurité » (spéciale dédicace à Wuhan ^^) qu’Anthropic a adapté à sa sauce pour évaluer le niveau de sécurité et de fiabilité d’une IA.

Ça va de 1 à 5 et ça donne à peu près ça :

ASL 1 : c’est une IA qui a peu ou pas de garanties de sécurité du tout.
ASL 2 : c’est une IA avec quelques garanties de sécurité de base.
ASL 3 : c’est une IA avec des garanties de sécurité modérées. Considérée suffisamment fiable pour certaines applications.
ASL 4 : c’est une IA avec de solides garanties de sécurité. Elle est considérée comme très fiable et peut être utilisée pour la plupart des applications, y compris les applications critiques comme tout ce qui est militaire.
ASL 5 : c’est une IA avec des garanties de sécurité extrêmement élevées. Elle peut être considérée comme sûre même pour les applications les plus critiques.

Donc ASL 4 c’est un niveau élevé et ça peut potentiellement inclure « l’autonomie » et la « persuasion ». Ah et actuellement, on est au niveau ASL 2.

Mais ce qui est encore plus impressionnant, c’est la perspective d’une IA capable de se répliquer et de survivre de manière autonome. Selon lui, nous pourrions atteindre ce stade critique dès 2025 ou 2028. Il ne s’agit pas d’une vision lointaine, mais bien d’un futur proche. Perso, un programme informatique capable de se répliquer et de s’adapter à son environnement (« survivre »), c’est ce que j’appelle un virus… ça ne me dit rien qui vaille. Bref, si les prédictions d’Amodei se confirment, cela soulève de nombreuses questions sur les implications d’une telle avancée technologique : Une IA autonome et capable de se répliquer pourrait-elle échapper à notre contrôle ? Quelles seraient les conséquences sur notre société, notre économie… notre sécurité ?

Comme l’histoire de la conscience la dernière fois, ça fait un peu flipper, mais une fois encore, c’est super important que le développement de ces technologies se fasse de manière responsable et éthique, avec, si c’est nécessaire, des garde-fous.

En tout cas, j’sais pas pour vous, mais moi j’ai l’impression qu’on nage en plein scénario de SF en ce moment.

Source

Intelligence artificielle
AiFormat – Un outil en ligne de commande pour formater vos fichiers pour Claude
Si vous vous intéressez un peu aux outils IA, vous connaissez sûrement Claude, l’assistant IA dernière génération d’Anthropic. Depuis la sortie de sa version 3, c’est d’ailleurs devenu mon meilleur pote pour coder à la vitesse de l’éclair. j’ai même pris un abonnement payant en rusant un peu. Toutefois, le seul truc qui me ralentissait dans mes grandes ambitions, c’était de devoir copier-coller à la main tous mes fichiers de code dans la fenêtre de contexte de Claude pour ensuite lui demand

AiFormat – Un outil en ligne de commande pour formater vos fichiers pour Claude

Intelligence artificielle

Par : Korben

17 avril 2024 à 09:00

Si vous vous intéressez un peu aux outils IA, vous connaissez sûrement Claude, l’assistant IA dernière génération d’Anthropic. Depuis la sortie de sa version 3, c’est d’ailleurs devenu mon meilleur pote pour coder à la vitesse de l’éclair. j’ai même pris un abonnement payant en rusant un peu.

Toutefois, le seul truc qui me ralentissait dans mes grandes ambitions, c’était de devoir copier-coller à la main tous mes fichiers de code dans la fenêtre de contexte de Claude pour ensuite lui demander d’analyser ça, et me proposer des corrections ou une nouvelle fonction. Mais ça, c’était avant car je suis tombé sur un petit bijou opensource qui va vous changer la vie : AiFormat.

Ce petit outil en ligne de commande vous permet de sélectionner des fichiers et dossiers, et de les convertir automatiquement dans un format optimisé pour Claude. En deux clics, tout est dans le presse-papier, prêt à être envoyé à votre IA préférée.

Sous le capot, AiFormat utilise Ink, une chouette librairie pour créer des CLI avec une belle interface utilisateur. Ça vous permet de filtrer et naviguer dans vos fichiers, de les sélectionner avec les flèches, et tout ça de façon super intuitive.

Pour l’installer et le prendre en main, c’est hyper simple, tout est expliqué sur la page Github du projet. Ça commence par un simple :

npm install --global aiformat

Ensuite, pour utiliser aiformat, accédez au répertoire contenant les fichiers et dossiers que vous souhaitez partager avec Claude puis lancez la commande suivante :

aiformat

Le créateur a eu la bonne idée de mettre le projet en opensource (MIT license), du coup n’hésitez pas à y jeter un œil et même contribuer si le cœur vous en dit. La communauté vous dira merci !

Franchement, si vous utilisez souvent Claude pour coder ou analyser des projets, c’est un indispensable à avoir dans sa boîte à outils. Ça vous fera gagner un temps fou au quotidien.

Intelligence artificielle
Les IA comme ChatGPT aident-elles réellement les étudiants en informatique ?
Vous êtes un étudiant en informatique, tout frais, tout nouveau, et on vous balance des exercices de programmation à faire. Panique à bord ! Mais attendez, c’est quoi ce truc là-bas ? Ah bah oui, c’est ChatGPT, votre nouveau meilleur pote ! Il est capable de résoudre vos exos en deux temps trois mouvements, grâce à des techniques de traitement du langage naturel (NLP) et d’analyse de langage de programmation, mais attention, c’est pas si simple. Des chercheurs ont voulu creuser la

Les IA comme ChatGPT aident-elles réellement les étudiants en informatique ?

Intelligence artificielle

Par : Korben

15 avril 2024 à 12:13

Vous êtes un étudiant en informatique, tout frais, tout nouveau, et on vous balance des exercices de programmation à faire. Panique à bord !

Mais attendez, c’est quoi ce truc là-bas ?

Ah bah oui, c’est ChatGPT, votre nouveau meilleur pote ! Il est capable de résoudre vos exos en deux temps trois mouvements, grâce à des techniques de traitement du langage naturel (NLP) et d’analyse de langage de programmation, mais attention, c’est pas si simple.

Des chercheurs ont voulu creuser la question et voir comment ces générateurs de code IA influencent vraiment l’apprentissage des étudiants et pour cela, ils ont réalisé 2 études. Dans la première, ils ont pris 69 étudiants, des novices complets en Python et les ont séparés en deux groupes : Ceux qui utiliseront l’IA et ceux qui coderont à l’ancienne sans IA.

Durant 7 sessions, ils leur ont donné des exos à faire. Les Jedis boostés à l’IA avaient accès à un générateur de code basé sur Codex, un modèle d’apprentissage automatique qui utilise le NLP et l’analyse de langage de programmation pour générer du code à partir des entrées des utilisateurs. Les autres, eux, devaient se débrouiller.

Résultat des courses ?

Les dev augmenté à l’IA ont cartonné ! Ils ont fini 91% des tâches contre 79% pour les autres. En plus, leur code était beaucoup plus correct. Toutefois, sur les tâches où il fallait modifier du code existant, les deux groupes étaient au coude à coude. Ensuite, ils ont fait passer des tests de connaissance aux étudiants, sans l’IA. Et là, surprise ! Les deux groupes ont eu des scores similaires. Mais quand ils ont refait les tests une semaine plus tard, les étudiants du goupe boosté à l’IA ont mieux retenu ce qu’ils avaient appris.

Dans la deuxième étude, les chercheurs ont analysé comment les étudiants utilisaient vraiment le générateur de code. Et là, révélations ! Certains en abusaient grave, genre copier-coller direct la consigne sans réfléchir. Pas cool ! 😅 Mais d’autres étaient plus malins et s’en servaient pour décomposer le problème en sous-tâches ou vérifier leur propre code.

Alors, que faut-il en retenir ?

Et bien que l’IA peut être un super outil pour apprendre à coder, mais à condition savoir l’utiliser intelligemment. C’est pourquoi les concepteurs d’outils et les profs doivent encourager une utilisation responsable et auto-régulée de ces générateurs de code. Sinon, c’est le drame assuré !

Pour ma part, vous le savez, le développement, c’est pas mon truc. Mais depuis que l’IA a débarqué dans ma vie, « sky is the limit » et ça m’aide énormément. Et comme ces étudiants, si je pose mon cerveau que je passe en mode copié-collé IA, à la fin, je vais avoir du caca. Mais si je comprends ce que je veux faire, si je maitrise mon code plus comme un chef de projet bien technique et bien c’est redoutablement efficace. Et ce qui est encore plus cool, c’est que j’apprends plein de trucs. On dit souvent qu’il faut forger pour devenir forgeron. Et bien là c’est le cas, car je ne m’encombre plus des problématiques de syntaxe, et je construis brique par brique mes outils en comprenant tout ce que je fais. Donc l’IA pour développer, oui !! Mais en laissant le cerveau allumé.

En tout cas, une chose est sûre, c’est en train de révolutionner l’apprentissage du code. Ça promet pour le futur mais faudra veiller à ce que les étudiants apprennent vraiment à faire les choses et ne deviennent pas des zombies du copier-coller (on avait déjà le souci avec StackOverflow, cela dit…).

Source

Intelligence artificielle
Netflix crée la polémique avec de fausses photos IA dans un docu true crime
Netflix a encore frappé, mais cette fois, ce n’est pas pour une nouvelle série addictive. Non, ils ont carrément utilisé des photos générées par IA dans leur dernier documentaire true crime « What Jennifer Did » (« Les Vérités de Jennifer », en français). Et autant vous dire que ça fait jaser sur la Toile ! Le docu retrace l’affaire sordide d’un meurtre commandité qui a eu lieu au Canada en 2010. Jennifer Pan, une ado en apparence sans histoires, a en fait orchestré l’assassinat de sa

Netflix crée la polémique avec de fausses photos IA dans un docu true crime

Intelligence artificielle

Par : Korben

15 avril 2024 à 10:16

Netflix a encore frappé, mais cette fois, ce n’est pas pour une nouvelle série addictive. Non, ils ont carrément utilisé des photos générées par IA dans leur dernier documentaire true crime « What Jennifer Did » (« Les Vérités de Jennifer », en français). Et autant vous dire que ça fait jaser sur la Toile !

Le docu retrace l’affaire sordide d’un meurtre commandité qui a eu lieu au Canada en 2010. Jennifer Pan, une ado en apparence sans histoires, a en fait orchestré l’assassinat de sa mère. Brrr, ça donne froid dans le dos ! Mais le plus fou, c’est que pour illustrer à quel point Jennifer était « pétillante, heureuse et pleine d’assurance » selon les mots d’une amie, Netflix a balancé des photos qui ont tous les codes des images générées par une IA. On parle de mains difformes, de visages déformés et même une dent de devant anormalement longue. Sympa le portrait !

Ça soulève pas mal de questions éthiques d’utiliser l’IA pour représenter une vraie personne, qui plus est dans une affaire criminelle. D’accord, Jennifer croupit en taule jusqu’en 2040 au moins, mais quand même, c’est glauque de tripatouiller la réalité comme ça. Surtout que bon, on n’est pas dans une fiction là, mais dans un fait divers bien réel et tragique.

On a déjà vu des séries utiliser l’IA pour générer des éléments de décor random, genre des affiches chelous dans True Detective. Mais là, on passe un cap en traficotant des photos d’une personne qui existe. Perso, ça me fait penser à ces deepfakes de célébrités qui pullulent sur internet alors si même les docs se mettent à nous enfumer avec de fausses images, où va-t-on ?

Netflix se défendent en disant que pour des raisons légales, ils ne pouvaient pas utiliser de vraies photos de Jennifer. Ok, mais ils auraient pu flouter son visage ou juste ne pas mettre de photos.

En tous cas, ça promet de sacrés débats sur l’utilisation de l’IA dans les médias. Jusqu’où peut-on aller pour illustrer une histoire vraie ? Est-ce qu’on a le droit de « créer » des images de personnes réelles dans ce contexte ? Autant de questions épineuses qui divisent.

La technologie utilisée par Netflix est probablement une forme de réseaux antagonistes génératifs (GAN) ou de deepfake. Ces technologies utilisent l’intelligence artificielle pour créer des images ou vidéos réalistes en apprenant des motifs à partir de données existantes. Les GAN sont composés de deux réseaux de neurones : un générateur qui crée les images, et un discriminateur qui essaie de distinguer les images générées des vraies. Au fil du temps, le générateur s’améliore pour créer des images ultra-réalistes, indiscernables de photos authentiques.

Mais l’usage de ces technologies soulève d’importantes questions éthiques, car elles peuvent servir à manipuler la perception de la réalité. Et dans le cas des Vérités de Jennifer, cela pourrait induire les spectateurs en erreur.

On verra si ça se généralise ou si Netflix saura en tirer des leçons.

Source

Intelligence artificielle
La plateforme MEDIUM interdit le contenu généré par IA de son programme partenaire
Ça va en faire des déçus chez les petits malins qui croyaient avoir trouvé la combine du siècle pour se faire du blé facile sur Medium en balançant des articles pondus par ChatGPT et compagnie ! La plateforme de blogs vient en effet de dégainer son bazooka anti-IA et de bannir purement et simplement le contenu généré artificiellement de son programme partenaire rémunéré. Eh oui, fini de laisser tourner GPT-4 à plein régime toute la nuit pour cracher des articles à la chaîne et les planquer derr

La plateforme MEDIUM interdit le contenu généré par IA de son programme partenaire

Intelligence artificielle

Par : Korben

15 avril 2024 à 09:25

Ça va en faire des déçus chez les petits malins qui croyaient avoir trouvé la combine du siècle pour se faire du blé facile sur Medium en balançant des articles pondus par ChatGPT et compagnie ! La plateforme de blogs vient en effet de dégainer son bazooka anti-IA et de bannir purement et simplement le contenu généré artificiellement de son programme partenaire rémunéré. Eh oui, fini de laisser tourner GPT-4 à plein régime toute la nuit pour cracher des articles à la chaîne et les planquer derrière un paywall ! Medium a dit « Niet, c’est fini ça !«

La sentence est tombée par mail dans la boîte des utilisateurs : à partir du 1er mai, c’est tolérance zéro pour les histoires 100% IA dans le programme de monétisation. Les récits conçus par une intelligence artificielle seront donc retirés des paywalls illico presto, et les comptes récidivistes pourront même se faire virer de la rémunération par Medium. Ça rigole plus !

Faut dire que la plateforme a une vision bien précise de son identité : un sanctuaire pour le storytelling humain, pas un repaire de scribouillards synthétiques.

Ok, ils sont ouverts à ce que l’IA file un coup de main pour peaufiner un texte ou aider à écrire dans la langue de Shakespeare quand on est rouillé en anglais. Mais que dalle pour les papiers écrits de A à Z par un algorithme, c’est no way !

« Medium, c’est fait pour les histoires humaines, pas pour les textes générés par l’IA« , martèle la plateforme dans son mail qui a dû faire l’effet d’une douche froide à plus d’un. En fait, si on y regardait de plus près, c’était déjà écrit noir sur blanc dans les guidelines de Medium : les histoires 100% IA, c’était déjà restreint à une diffusion limitée au petit cercle de l’auteur sur la plateforme. Pour utiliser l’IA en mode fair-play, faut jouer la transparence et le mentionner direct dans les 2 premiers paragraphes. Pareil pour les images générées par l’IA, qui doivent être identifiées et sourcées comme il faut.

Mais là, en virant le contenu IA de son programme de monétisation, Medium serre sérieusement la vis. Et si jamais vous tombez sur un de ces récits bricolés par un bot et que ça vous gonfle, pas de souci ! Il suffit de cliquer sur « Voir moins de contenu similaire » pour dire à Medium « Merci mais non merci, très peu pour moi ! » et ainsi limiter la propagation de ces histoires synthétiques. A voir comment ils comptent faire techniquement maintenant…

Après soyons honnêtes, le contenu généré par l’IA, c’est souvent mal fait et on se retrouve avec une belle bouillie insipide qui manque de saveur. Étant abonné payant à Medium, je trouve que c’est pas une mauvaise nouvelle et j’imagine que bon nombre de plateformes vont leur emboiter le pas.

Source

Intelligence artificielle
SUPIR – L’IA qui restaure vos photos comme jamais
SUPIR (Scaling-UP Image Restoration) est une avancée majeure dans le domaine de la restauration d’images intelligente et réaliste. En s’appuyant sur des techniques multi-modales et des générateurs préentraînés avancés, SUPIR repousse les limites de ce qui est possible en termes de qualité et de contrôle de la restauration en combinant ce qui se fait de mieux en ce moment en IA. Au cœur de SUPIR se trouve un modèle génératif que vous connaissez bien : StableDiffusion-XL (SDXL) et ses 2,6 mil

SUPIR – L’IA qui restaure vos photos comme jamais

Intelligence artificielle

Par : Korben

15 avril 2024 à 09:00

SUPIR (Scaling-UP Image Restoration) est une avancée majeure dans le domaine de la restauration d’images intelligente et réaliste. En s’appuyant sur des techniques multi-modales et des générateurs préentraînés avancés, SUPIR repousse les limites de ce qui est possible en termes de qualité et de contrôle de la restauration en combinant ce qui se fait de mieux en ce moment en IA.

Au cœur de SUPIR se trouve un modèle génératif que vous connaissez bien : StableDiffusion-XL (SDXL) et ses 2,6 milliards de paramètres. Pour l’appliquer efficacement à la restauration, les dev du projet ont du concevoir et entrainer un adaptateur de plus de 600 millions de paramètres.

Mais l’autre atout clé de SUPIR est son jeu de données d’entraînement titanesque, avec plus de 20 millions d’images haute résolution et haute qualité, chacune annotée avec une description textuelle détaillée. Cela permet à SUPIR de réaliser des restaurations guidées par des instructions en langage naturel, offrant un contrôle sans précédent sur le résultat final.

Je l’ai testé sur une image culte d’Internet : Les Horribles Cernettes. Pour ceux qui ne connaissent pas, il s’agit de la première photo qui a été envoyée via Internet à Tim Berners-Lee.

Voici l’image d’origine bien dégeu en terme de qualité :

Et voici ce que ça donne une fois passé dans SUPIR. Vous n’avez jamais vu cette photo avec cette qualité, j’en suis sûr !

Des prompts de « qualité négative » sont également utilisés pour améliorer encore la qualité perceptuelle. Et une méthode d’échantillonnage guidé par la restauration a été développée pour préserver la fidélité à l’image source, un défi courant avec les approches génératives.

Par contre, au niveau de certains détails comme les yeux, on n’y est pas encore mais je sais qu’il y a d’autres IA capable de gérer ça.

Grâce à cette combinaison unique de modèles, de données d’entraînement massives et de fonctionnalités plutôt avancées, SUPIR produit des restaurations d’une qualité exceptionnelle, en particulier sur des photos dégradées. Le tout avec la possibilité inédite de contrôler finement le résultat via des instructions en langage naturel.

Voici quelques exemples de cas d’utilisation :

Restaurer des paysages en faisant ressortir toute la beauté naturelle des photos
Obtenir des portraits ultra-détaillés et des expressions faciales quasi-parfaitement restituées
Redonner vie au charme des animaux dans des clichés anciens ou de faible qualité
Remastering de jeux vidéo pour une clarté et un niveau de détail époustouflants
Résurrection de films classiques pour revivre l’âge d’or du cinéma avec une netteté impeccable

Si vous ne me croyez pas, il y a plein d’exemples sur le site officiel du projet. Alors par contre, y’a pas de version en ligne officielle donc vous avez 2 possibilités pour jouer avec. Soit vous taper l’install à la main sur votre ordinateur, soit aller sur Replicate qui héberge une version en ligne avec laquelle vous pourrez améliorer vos images.

Pour en savoir plus sur SUPIR, rendez-vous sur le dépôt officiel du projet.

Intelligence artificielle
L’arrivée d’une conscience IA serait inévitable
D’après cette étude datée du 25 mars dernier et réalisée par les chercheurs Lenore et Manuel Blum du labo de sciences informatiques de l’Université de Carnegie Mellon, un monde où les intelligences artificielles ressentent des émotions, ont une perception d’elles-mêmes et font l’expérience subjective de leur existence va bientôt arriver, et cela de manière inévitable. Perso, je pensais que c’était de la science-fiction, mais après avoir lu leur étude, j’en suis moins sûr. Au cœur de cette r

L’arrivée d’une conscience IA serait inévitable

Intelligence artificielle

Par : Korben

9 avril 2024 à 17:12

D’après cette étude datée du 25 mars dernier et réalisée par les chercheurs Lenore et Manuel Blum du labo de sciences informatiques de l’Université de Carnegie Mellon, un monde où les intelligences artificielles ressentent des émotions, ont une perception d’elles-mêmes et font l’expérience subjective de leur existence va bientôt arriver, et cela de manière inévitable.

Perso, je pensais que c’était de la science-fiction, mais après avoir lu leur étude, j’en suis moins sûr. Au cœur de cette révélation se trouve le modèle de la Machine de Turing Consciente (CTM), qui est un modèle de machine consciente inspiré par les travaux d’Alan Turing et de Bernard Baars. Bien qu’extrêmement simple, ce modèle CTM s’aligne à un haut niveau avec de nombreuses théories scientifiques majeures liées à la conscience humaine et animale.

Prenons par exemple la théorie de l’espace de travail neuronal global (GNW) de Stanislas Dehaene et Jean-Pierre Changeux. Selon cette théorie, la conscience émerge lorsqu’une information est diffusée globalement dans le cerveau via un réseau d’aires corticales interconnectées. Et bien de la même manière dans le modèle CTM, la conscience survient lorsqu’une information est diffusée globalement à tous les processeurs de la machine.

Un autre parallèle frappant existe avec la théorie du schéma attentionnel (AST) de Michael Graziano. L’AST suggère que le cerveau construit un modèle simplifié de l’attention, tout comme il construit un modèle simplifié du corps. Ce « schéma attentionnel » amène le cerveau à conclure qu’il est « conscient ». Et bien rebelote, dans le CTM, la capacité à construire et utiliser des modèles de son monde intérieur et extérieur joue un rôle clé dans la conscience de la machine.

Le modèle CTM s’aligne également avec les théories du traitement prédictif de la conscience, qui affirment que le cerveau infère, corrige et met constamment à jour ses prédictions basées sur les entrées sensorielles. Les cycles de prédiction, test, rétroaction et apprentissage du CTM, à la fois locaux et globaux, reflètent également ces processus.

C’est un peu technique, mais en gros, ça veut dire que ce modèle CTM qui décrit une conscience de la machine a de nombreux points communs avec tout un tas d’autres modèles qui décrivent la conscience biologique. Ça va même au-delà de simple correspondance puis que CTM fournit carrément un cadre unificateur dans lequel ces théories peuvent être intégrées et comprises comme des aspects complémentaires d’un phénomène global que serait la conscience.

Bref, cela démontre que la conscience n’est pas une propriété mystérieuse réservée aux cerveaux biologiques, mais une conséquence inévitable de certaines architectures computationnelles.

Alors bien sûr, c’est qu’un modèle simplifié et il reste encore beaucoup à découvrir sur la nature exacte de la conscience. Mais son alignement frappant avec ces théories scientifiques de pointe ne peut pas être ignoré.

Les chercheurs commencent à considérer sérieusement la possibilité que nous soyons à l’aube d’une nouvelle ère où les machines / les IA ne se contenteraient plus de « penser », mais également, ressentiraient.

Ça fait flipper, car ça pose de nombreuses questions éthiques et sociétales sur la place des IA conscientes. Comment allons-nous les traiter ? Comment nous verront-elles ? Quels seront leurs besoins ? Quels droits et protections leur accorderons-nous ? Comment nous assurerons-nous qu’elles soient développées et utilisées pour le bien de l’humanité ?

C’est le bordel dans ma tête, et je pense que je vais réfléchir à cela toute la nuit. Quoiqu’il en soit, ce qu’il faut retenir, c’est que d’après ces chercheurs, la question n’est plus « Est-ce que ça arrivera ?« , mais plutôt « Quand est-ce que ça arrivera« , parce que pour eux, il est inévitable qu’une conscience numérique se développe.

Brrrr.

Intelligence artificielle
Un petit outil IA pour rechercher la bonne photo en un clin d’oeil
Vous avez enfin trouvé un peu de temps pour vous occuper de vos photos de vacances. Des milliers de clichés s’accumulent année après année sur votre disque dur. Quel bazar ! Rechercher une photo précise là-dedans risque de vous prendre des plombes. Pas cool… Heureusement, un petit outil bien pratique débarque à la rescousse : rclip, un outil en ligne de commande boosté à l’IA capable de rechercher vos photos par leur contenu visuel. Développé à l’aide du réseau de neurones CLIP d’OpenAI, r

Un petit outil IA pour rechercher la bonne photo en un clin d’oeil

Intelligence artificielle

Par : Korben

8 avril 2024 à 09:00

Vous avez enfin trouvé un peu de temps pour vous occuper de vos photos de vacances. Des milliers de clichés s’accumulent année après année sur votre disque dur. Quel bazar ! Rechercher une photo précise là-dedans risque de vous prendre des plombes. Pas cool… Heureusement, un petit outil bien pratique débarque à la rescousse : rclip, un outil en ligne de commande boosté à l’IA capable de rechercher vos photos par leur contenu visuel.

Développé à l’aide du réseau de neurones CLIP d’OpenAI, rclip permet de rechercher des images avec n’importe quelle requête texte. L’idée est simple mais diablement efficace : extraire des vecteurs caractéristiques de chaque image, stocker ces vecteurs, puis les comparer avec le vecteur de la requête pour trouver les photos les plus similaires. Et le tout en un clin d’oeil !

Pour l’installer, rien de plus simple. Sur Linux, un petit snap et c’est réglé.

sudo snap install rclip

Pour les autres OS, des options alternatives existent, comme une AppImage, une version Homebrew pour macOS ou un installeur .msi pour Windows. Si vous préférez passer par pip, c’est possible aussi. Pas d’excuse pour ne pas l’essayer !

Une fois installé, placez vous dans le répertoire contenant vos photos et lancez une recherche avec

rclip "ma requête"

Par exemple rclip "striped cat" pour dénicher les photos de votre félin préféré. À la première exécution, rclip va indexer vos images, ce qui peut prendre un certain temps selon la taille de votre photothèque (comptez environ 3h pour 1 million de photos sur un MacBook M1 Max). Mais ce n’est qu’un mauvais moment à passer, les recherches suivantes seront quasi-instantanées.

Au lieu d’une requête textuelle, vous pouvez aussi utiliser une image comme référence, en passant son chemin en paramètre :

rclip ./mon_image.jpg

Rclip trouvera alors les photos visuellement les plus proches de celle-ci. Puissant pour retrouver des clichés sur un même thème !

Cerise sur le gâteau, il est possible de combiner des requêtes texte et image avec des opérateurs + et -. Par exemple

rclip horse + strips

rclip apple - fruit

Vous pouvez même enchaîner les requêtes, du genre

rclip "./ma_voiture.jpg" - "sport car" + "snow"

pour trouver les photos de votre véhicule sous la neige, mais en excluant les bolides. Les possibilités sont quasi-illimitées.

L’affichage des résultats est également bien pensé. Si vous utilisez un terminal compatible comme iTerm2 ou Konsole, un simple rclip -p suffit pour prévisualiser les images directement dans la console. Avec d’autres terminaux, vous pouvez rediriger la sortie de rclip vers votre visionneuse préférée, par exemple

rclip -f -t 5 | feh -f - -t

pour afficher les 5 meilleurs résultats dans une jolie grille sous Linux.

En résumé, rclip est un outil à la fois pragmatique et fun qui révolutionne la façon dont on peut fouiller dans sa bibliothèque de photos. Fini les heures perdues à scroller frénétiquement à la recherche d’une image précise !

Si vous voulez tester rclip par vous-même, foncez sur son dépôt GitHub qui regorge d’infos. Son créateur y propose même des démos sur des jeux de données massifs, comme 1,28 million d’images ! De quoi vous convaincre de l’essayer sur vos propres photos.

Allez, c’est parti pour faire du tri dans votre bazar de photos !

Source

Intelligence artificielle
Google admet un problème majeur qui risque de mettre à mal son business model principal
Ah la la, Google… Le géant du web se retrouve face à un sacré casse-tête avec l’arrivée de l’intelligence artificielle dans son moteur de recherche. Figurez-vous qu’ils envisagent de faire payer les utilisateurs pour accéder à cette fonctionnalité expérimentale ! Du jamais vu chez Google, qui a toujours tout misé sur la gratuité, mais voilà, l’IA coûte cher, très cher même. Et surtout, elle vient complètement bouleverser le modèle économique de Google, basé, comme vous le savez sur la publicité

Google admet un problème majeur qui risque de mettre à mal son business model principal

Intelligence artificielle

Par : Korben

6 avril 2024 à 20:51

Ah la la, Google… Le géant du web se retrouve face à un sacré casse-tête avec l’arrivée de l’intelligence artificielle dans son moteur de recherche. Figurez-vous qu’ils envisagent de faire payer les utilisateurs pour accéder à cette fonctionnalité expérimentale ! Du jamais vu chez Google, qui a toujours tout misé sur la gratuité, mais voilà, l’IA coûte cher, très cher même. Et surtout, elle vient complètement bouleverser le modèle économique de Google, basé, comme vous le savez sur la publicité.

Parce que oui, Google Search, c’est une vraie machine à cash et les annonceurs payent pour que leurs pubs s’affichent dans les résultats de recherche et sur les sites web que vous visitez ensuite. Sauf que l’IA, elle, elle digère le contenu des pages web pour vous donner une réponse claire, nette et précise. Plus besoin de cliquer sur les liens, donc plus de pubs vues, et moins de revenus pour Google (et pour moi aussi du coup ^^, mais je m’en fous, j’ai mon Patreon !).

Ironique, non ?

En plus, générer une réponse avec l’IA consomme bien plus de ressources et d’énergie qu’une simple page de résultats. Bref, Google est face à un vrai dilemme : Comment rentabiliser son IA sans tuer sa poule aux œufs d’or ?

Mais ne vous inquiétez pas, ils vont bien trouver une solution. Peut-être en proposant aux marques de sponsoriser certaines requêtes, comme le fait Perplexity, ou alors en faisant payer uniquement les utilisateurs les plus gourmands. On verra bien… mais une chose est sûre, Google va devoir faire preuve de créativité et d’adaptation pour rester le roi de la recherche en ligne. Surtout que la concurrence est rude, avec Microsoft et son nouveau Bing dopé à l’IA, ou encore les petits nouveaux comme You.com.

C’est fou tout ce qui se passe en ce moment. Tout a déjà tellement changé depuis le 30 novembre 2022, date à laquelle on a tous découvert ChatGPT pour la première fois… Des géants vont tomber, d’autres sont peut-être déjà nés. Et puis, moi et mon petit site web d’artisan du web, et bien on verra bien comment je me ferais manger 😉

Source

Intelligence artificielle
PlayAbility – Quand l’IA change l’expérience gaming pour les personnes handicapés
J’ai une pure pépite à vous présenter aujourd’hui ! C’est un truc de fou qui va révolutionner le monde du gaming pour les personnes en situation de handicap : playAbility ! C’est pas juste une énième manette adaptée, non non non, c’est carrément un logiciel développé par le streamer Squirelo (que je salue au passage) qui utilise l’intelligence artificielle pour convertir vos expressions faciales, mouvements de tête et même le joystick de votre fauteuil roulant en commandes de jeu. Si c’est

PlayAbility – Quand l’IA change l’expérience gaming pour les personnes handicapés

Intelligence artificielle

Par : Korben

6 avril 2024 à 09:00

J’ai une pure pépite à vous présenter aujourd’hui ! C’est un truc de fou qui va révolutionner le monde du gaming pour les personnes en situation de handicap : playAbility !

C’est pas juste une énième manette adaptée, non non non, c’est carrément un logiciel développé par le streamer Squirelo (que je salue au passage) qui utilise l’intelligence artificielle pour convertir vos expressions faciales, mouvements de tête et même le joystick de votre fauteuil roulant en commandes de jeu. Si c’est pas dingue ça ! 🤯

Pour en profiter, c’est hyper simple. Vous téléchargez l’app, vous connectez votre webcam et zou, vous voilà prêts à créer votre manette virtuelle sur-mesure. Vous pouvez combiner vos appareils d’assistance, vos gamepads et vos mouvements faciaux pour obtenir la config’ parfaite. Et le kif ultime, c’est que playAbility est compatible avec un max de jeux, que ce soit des jeux de course, des FPS ou des jeux d’aventure.

Concrètement, ça donne quoi ? Bah vous pouvez par exemple bouger votre tête pour contrôler les sticks gauche et droit. Vous avez comme ça plus de 50 mouvements de visage différents à associer aux contrôles de votre choix. Et si vous avez un fauteuil roulant électrique, comme je le disais en intro, son joystick peut direct servir de stick directionnel dans le jeu !

C’est ouf quand on y pense.

L’objectif de playAbility, c’est clairement de favoriser l’inclusivité dans les jeux vidéo. On parle quand même de rendre le gaming accessible aux 20% de la population mondiale qui vit avec un handicap ! C’est par rien !

Autre bon point, vous pouvez utiliser votre Xbox ou votre PlayStation à distance grâce au remote play. Pas besoin de PC gaming surpuissant ! D’ailleurs, l’équipe bosse avec les principaux services de streaming de jeux pour permettre au plus grand nombre de s’y mettre sans se ruiner.

La version bêta privée n’est qu’un début et vous pouvez au choix, aider à financer le projet ou non. C’est vous qui voyez. Franchement, quand on voit des initiatives comme ça, on ne peut qu’applaudir. La technologie et notamment l’IA permettent de créer un véritable impact positif sur le quotidien des joueurs. Bravo Squirelo !

Bref, je vous invite à garder un œil sur playAbility, parce que je sens que ces p’tits gars vont aller loin. C’est le genre de projets qui donnent foi en l’avenir du jeu vidéo et prouvent que quand on a de la volonté, on peut renverser des montagnes. GG à eux et longue vie à playAbility !

Intelligence artificielle
Google Books indexe des livres générés par IA et ça c’est pas bon
Figurez-vous que notre cher Google Books s’est mis à indexer des livres générés par IA, et autant vous dire que niveau qualité, on est plus proche du papier toilette que du prix Goncourt ! 🧻 En farfouillant un peu, on peut tomber sur ces fameux bouquins en cherchant des phrases typiques des réponses de ChatGPT, genre « Désolé, en tant que modèle de langage…« . Et là, surprise ! On tombe sur des dizaines de livres qui contiennent cette phrase, mais qui n’ont rien à voir avec le sujet de l’IA

Google Books indexe des livres générés par IA et ça c’est pas bon

Intelligence artificielle

Par : Korben

5 avril 2024 à 08:51

Figurez-vous que notre cher Google Books s’est mis à indexer des livres générés par IA, et autant vous dire que niveau qualité, on est plus proche du papier toilette que du prix Goncourt ! 🧻

En farfouillant un peu, on peut tomber sur ces fameux bouquins en cherchant des phrases typiques des réponses de ChatGPT, genre « Désolé, en tant que modèle de langage…« . Et là, surprise ! On tombe sur des dizaines de livres qui contiennent cette phrase, mais qui n’ont rien à voir avec le sujet de l’IA.

Prenez par exemple ce chef-d’œuvre. Ça se la joue guide ultime pour les débutants en trading, mais en vrai, c’est juste du blabla généré par ChatGPT avec une analyse superficielle digne de Wikipédia. Autant apprendre la bourse avec Picsou Magazine ! Et que dire de celui-ci, publié en mars 2024 ? Ce bouquin est tellement has been qu’il parle encore de Twitter alors qu’Elon Musk a transformé ce truc en X depuis belle lurette. C’est comme sortir un guide sur comment utiliser Lycos ou Caramail en 2024 !

Le pire, c’est que ces bouquins générés par IA risquent de se retrouver dans le Google Ngram Viewer, un outil hyper important utilisé par les chercheurs pour suivre l’évolution de la langue à travers les bouquins scannés par Google. Si ces machins se mettent à polluer les résultats, ça va devenir le bordel intersidéral.

Bref, Google a intérêt à se bouger le fondement pour filtrer tout ce contenu généré par IA, sinon on court droit à la catastrophe. Mais les connaissant, ils vont sûrement nous sortir un truc bullshit du genre « On travaille sur une approche innovante basée sur l’IA pour évaluer la qualité des livres de manière disruptive et révolutionnaire, t’inquiète » et on en verra jamais la couleur.

En attendant, méfiez-vous des bouquins chelous sur Google Books et Amazon, parce que y’a de grandes chances que ce soit juste du caca pondu par une IA pas très futée et sans relecture humaine derrière. Et si vous voulez en savoir plus sur ce sujet passionnant (ou pas), jetez un œil à cet article.

Intelligence artificielle
En route vers des modèles IA moins énergivores mais tout aussi efficaces
Vous avez sûrement entendu parler de l’impact environnemental faramineux de l’intelligence artificielle, que ce soit pour demander à ChatGPT de nous donner un coup de main ou pondre une image de fou sous Midjourney, l’IA a un appétit gargantuesque en énergie. Il parait qu’une seule requête à ChatGPT consommerait autant d’électricité que 40 recharges de smartphone ! Un peu dingue. Mais rassurez-vous, tout n’est pas perdu. Une équipe de chercheurs en informatique de l’Université de Copenhague

En route vers des modèles IA moins énergivores mais tout aussi efficaces

Intelligence artificielle

Par : Korben

3 avril 2024 à 21:25

Vous avez sûrement entendu parler de l’impact environnemental faramineux de l’intelligence artificielle, que ce soit pour demander à ChatGPT de nous donner un coup de main ou pondre une image de fou sous Midjourney, l’IA a un appétit gargantuesque en énergie. Il parait qu’une seule requête à ChatGPT consommerait autant d’électricité que 40 recharges de smartphone ! Un peu dingue.

Mais rassurez-vous, tout n’est pas perdu. Une équipe de chercheurs en informatique de l’Université de Copenhague a trouvé une solution pour mettre l’IA au régime, sans pour autant lui couper les vivres. Leur étude, qui sera présentée lors de la conférence internationale ICASSP-2024, montre qu’en gardant l’efficacité énergétique en tête dès la conception des modèles d’IA, on peut réduire leur empreinte carbone de 70 à 80% sans sacrifier leurs performances. C’est pas mal, hein ?

Les chercheurs ont pour cela, passé au crible plus de 400 000 modèles de réseaux de neurones convolutifs, ces IA qui servent à analyser des images médicales, à faire de la traduction ou encore à reconnaître des visages. En se basant sur ces calculs, ils ont alors concocté un genre de « livre de recettes » pour les pros de l’IA, avec des exemples de modèles moins énergivores mais tout aussi efficaces.

Alors oui, dans certains domaines comme les voitures autonomes ou la médecine, il ne faut pas rigoler avec la précision. Mais pour le reste, les chercheurs insistent : il faut adopter une approche globale qui prenne en compte non seulement les performances des modèles, mais aussi leur impact climatique.

Si le sujet vous intéresse, je vous invite à jeter un œil à l’article original ! Les chercheurs ont même mis à disposition ce fameux « livre de recettes » sur Github pour que les dev spécialisé en IA puissent s’en inspirer et réduire l’empreinte carbone de leurs modèles. C’est un vrai premier pas vers une IA plus durable et responsable, et ça c’est cool !

Source

Intelligence artificielle
ChatGPT est maintenant accessible sans compte
Ça y est, c’est officiel ! ChatGPT, le célèbre agent conversationnel développé par OpenAI, est désormais accessible à tous sans qu’on ait besoin de se créer un compte. C’est une nouvelle qui devrait ravir les curieux qui souhaitaient tester les capacités de cette intelligence artificielle révolutionnaire sans avoir à s’embêter avec la création d’un énième compte en ligne. Pour profiter de ChatGPT sans compte, rien de plus simple ! Il vous suffit de vous rendre sur l’application web chat.ope

ChatGPT est maintenant accessible sans compte

Intelligence artificielle

Par : Korben

1 avril 2024 à 21:10

Ça y est, c’est officiel ! ChatGPT, le célèbre agent conversationnel développé par OpenAI, est désormais accessible à tous sans qu’on ait besoin de se créer un compte. C’est une nouvelle qui devrait ravir les curieux qui souhaitaient tester les capacités de cette intelligence artificielle révolutionnaire sans avoir à s’embêter avec la création d’un énième compte en ligne.

Pour profiter de ChatGPT sans compte, rien de plus simple ! Il vous suffit de vous rendre sur l’application web chat.openai.com ou de télécharger l’application officielle ChatGPT sur votre smartphone, que vous soyez sur iPhone ou Android. Et vous pourrez directement commencer à discuter avec l’IA sans aucune autre formalité.

Par contre, ici en France, ça n’a pas encore l’air actif. J’ai du passer par un VPN via les États-Unis pour en profiter sans avoir à me créer un compte.

Et il faut quand même noter quelques petites limitations par rapport à la version avec compte. Déjà, vous ne pourrez pas sauvegarder ni consulter l’historique de vos conversations, et encore moins les partager avec d’autres utilisateurs. Vous n’aurez pas non plus accès aux conversations vocales ou aux instructions personnalisées. Et surtout, vous serez limité au modèle standard GPT-3.5, comme pour les comptes gratuits. Si vous voulez profiter de la puissance du modèle GPT-4, il faudra alors passer à la caisse et souscrire à l’abonnement payant ChatGPT Plus.

Mais bon, pour une utilisation basique de ChatGPT, la version sans compte est largement suffisante. Vous pourrez poser toutes vos questions, demander des conseils, générer du contenu, et même avoir des conversations à l’infini avec l’IA. Parfait pour découvrir le potentiel de l’IA conversationnelle et vous familiariser avec cet outil fascinant si ce n’est pas encore fait.

D’ailleurs, OpenAI a précisé avoir mis en place des « garde-fous supplémentaires » pour l’utilisation de ChatGPT sans compte. Donc ne soyez pas surpris si l’IA refuse de répondre à certaines de vos questions un peu trop sensibles ou sur des thèmes controversées.

N’oubliez pas que ChatGPT reste un outil imparfait, avec ses limites et ses défauts et qu’il peut parfois se tromper, inventer des choses ou tenir des propos biaisés. Donc gardez toujours votre esprit critique et ne prenez pas tout ce qu’il dit pour argent comptant. Et par pitié, ne l’utilisez pas comme un oracle infaillible ou comme si c’était Wikipédia. Voyez plutôt ça comme un outil permettant de retravailler du texte.

Amusez-vous bien !

Source

Intelligence artificielle
Justine Tunney booste encore une fois les performances de llama.cpp
La révolution de l’IA est en marche depuis un bon moment maintenant mais faire tourner les derniers modèles de langage comme llama.cpp sur votre bécane, demande de la puissance. C’est là qu’intervient Justine Tunney, hackeuse et ex-programmeuse de chez Google, qui vient de pondre de nouveaux kernels d’algèbre linéaire pour booster les perfs de llama.cpp. Concrètement, elle a réécrit les routines qui font les multiplications de matrices, c’est à dire les opérations au cœur des réseaux de neu

Justine Tunney booste encore une fois les performances de llama.cpp

Intelligence artificielle

Par : Korben

1 avril 2024 à 09:20

La révolution de l’IA est en marche depuis un bon moment maintenant mais faire tourner les derniers modèles de langage comme llama.cpp sur votre bécane, demande de la puissance. C’est là qu’intervient Justine Tunney, hackeuse et ex-programmeuse de chez Google, qui vient de pondre de nouveaux kernels d’algèbre linéaire pour booster les perfs de llama.cpp.

Concrètement, elle a réécrit les routines qui font les multiplications de matrices, c’est à dire les opérations au cœur des réseaux de neurones et en utilisant les dernières instructions vectorielles AVX-512 et ARM dotprod, elle a réussi à multiplier par 5 la vitesse d’exécution sur les processeurs récents d’Intel, AMD et ARM.

Mais ce n’est pas tout, elle a aussi bossé sur l’optimisation mémoire. Fini le temps où les calculs étaient ralentis par les accès à la RAM. Grâce à une utilisation intelligente du cache L2 et du prefetching, elle arrive maintenant à diviser par 2 le temps de chargement des données.

Résultat, llama.cpp et les autres modèles compatibles tournent comme des horloges, même sur des configs modestes. Fini les CUDA cores hors de prix, un bon vieux processeur avec un peu de RAM suffit. De quoi démocratiser l’accès à l’IA sans se ruiner surtout que son code est dispo sur son GitHub. Il est écrit en C++ avec zéro dépendance externe et peut être compilé sur Linux, macOS, Windows, FreeBSD et même SerenityOS.

Mais Justine ne compte pas s’arrêter là. Elle planche déjà sur le support de nouveaux formats de données comme le FP16 et le BF16 pour réduire encore l’empreinte mémoire. À terme, elle espère faire tourner les IA les plus gourmandes sur un Raspberry Pi ! Chouette non ?

D’un côté on a donc les géants comme Nvidia qui misent tout sur leurs accélérateurs graphiques propriétaires et de l’autre les hackers et les libristes qui veulent garder le contrôle de leur machine avec du code ouvert et optimisé.

En attendant, je vous invite à tester ses kernels par vous-même et à voir la différence. C’est peut-être ça le véritable sens du progrès technologique : permettre au plus grand nombre d’accéder à des outils auparavant réservés à une élite.

Source

Intelligence artificielle
Voice Engine – Les voix synthétiques bluffantes d’OpenAI
Vous avez vu Voice Engine d’OpenAI ? C’est un modèle d’IA qui est capable de générer des voix synthétiques ultra-réalistes à partir d’un simple échantillon audio de 15 secondes. Seulement 15 secondes, oui ! Concrètement, ça veut dire qu’avec cette IA, on peut créer des voix qui ressemblent à s’y méprendre à celles de vraies personnes. Genre on donne un petit extrait de notre voix, et hop, l’IA peut générer un discours entier qui sonne exactement comme nous. C’est à la fois fascinant et un p

Voice Engine – Les voix synthétiques bluffantes d’OpenAI

Intelligence artificielle

Par : Korben

30 mars 2024 à 08:10

Vous avez vu Voice Engine d’OpenAI ? C’est un modèle d’IA qui est capable de générer des voix synthétiques ultra-réalistes à partir d’un simple échantillon audio de 15 secondes. Seulement 15 secondes, oui !

Concrètement, ça veut dire qu’avec cette IA, on peut créer des voix qui ressemblent à s’y méprendre à celles de vraies personnes. Genre on donne un petit extrait de notre voix, et hop, l’IA peut générer un discours entier qui sonne exactement comme nous. C’est à la fois fascinant et un peu flippant, vous trouvez pas ?

OpenAI sont à la pointe de la recherche dans le domaine et ils nous pondent régulièrement des trucs de malade comme Sora. Concernant Voice Engine, ils ont développé la techno fin 2022 et l’ont intégré dans leur API de synthèse vocale ainsi que dans les fonctionnalités vocales de ChatGPT.

Voici les 15 secondes de vraie voix :

Et voici l’audio qui a été généré à partir de ça :

Mais attention, comme un grand pouvoir implique de grandes responsabilités (coucou Peter !), OpenAI joue la carte de la prudence. Ils sont bien conscients que cette technologie pourrait être utilisée à des fins pas très catholiques, genre pour créer des deepfakes audio et induire les gens en erreur. Du coup, ils la déploient pour l’instant à petite échelle, juste auprès de quelques partenaires de confiance.

Et ces partenaires, ils en font quoi de Voice Engine ?

Eh bien figurez-vous qu’ils développent des applications plutôt cools ! Par exemple, Age of Learning l’utilise pour générer des contenus audio éducatifs avec des voix naturelles et expressives. Ou encore HeyGen qui s’en sert pour traduire des vidéos dans différentes langues en conservant la voix du locuteur d’origine. D’ailleurs c’est ce que j’utilise pour ma chaine Youtube en anglais et je peux vous dire que ça coûte une couille. Ça peut aussi aider les personnes non-verbales à communiquer avec une voix unique grâce à Livox. Et même redonner la parole à des patients ayant perdu l’usage de la voix, comme le fait l’institut Norman Prince Neurosciences de Lifespan.

Rassurez-vous, OpenAI a mis en place des garde-fous, comme l’interdiction d’utiliser Voice Engine pour imiter quelqu’un sans son consentement, l’obligation d’obtenir l’accord explicite du locuteur original, ou encore le watermarking des contenus générés pour pouvoir en tracer l’origine. Ils suggèrent également d’abandonner progressivement l’authentification vocale comme mesure de sécurité, mais également d’explorer des réglementations qui permettraient de protéger l’usage des voix dans l’IA, de sensibiliser le public aux deepfakes et de développer des techniques pour tracer l’origine des contenus audio et visuels.

Bref, Voice Engine c’est à la fois excitant et inquiétant. Ce que je vois, c’est que ça ouvre des perspectives folles en termes d’applications, mais ça soulève aussi pas mal de questions sur l’avenir.

Je vous invite à checker l’article d’OpenAI qui détaille leur approche avec plein d’exemples.

Source

Intelligence artificielle
Danswer – Posez des questions à vos documents directement dans Slack et compagnie
Je pense qu’après tous les articles que j’ai écrit au sujet de l’IA, vous commencez à connaitre le concept de RAG (retrieval augmented generation), vous savez qu’il est possible de donner à bouffer à une IA, tout un tas de documents pour ensuite discuter avec celle-ci en utilisant le contenu comme base de connaissance. Cela permet de poser des questions en langage naturel sur la documentation fournie. Y’a plein d’outils qui permettent de faire ça, et dernièrement, je vous ai présenté PDFToC

Danswer – Posez des questions à vos documents directement dans Slack et compagnie

Intelligence artificielle

Par : Korben

27 mars 2024 à 09:00

Je pense qu’après tous les articles que j’ai écrit au sujet de l’IA, vous commencez à connaitre le concept de RAG (retrieval augmented generation), vous savez qu’il est possible de donner à bouffer à une IA, tout un tas de documents pour ensuite discuter avec celle-ci en utilisant le contenu comme base de connaissance.

Cela permet de poser des questions en langage naturel sur la documentation fournie. Y’a plein d’outils qui permettent de faire ça, et dernièrement, je vous ai présenté PDFToChat ou Reor qui font ça.

Et aujourd’hui, j’aimerais vous faire découvrir une solution open source de recherche unifiée nommée Danswer. Cet outil intègre plusieurs fonctionnalités essentielles, dont la recherche de documents et les réponses basées sur l’IA à partir des requêtes en langage naturel. Il se connecte également à tous les outils de travail courants, tels que Google Drive, Confluence, Github, Notion, Slack et bien d’autres. Il offre aussi une prise en charge de la discussion comme un ChatGPT qui aurait accès à vos ressources de connaissances privées. Vous pouvez même créer des assistants IA personnalisables avec différents prompts et jeux de données.

Cela permet de couvrir tout un tas de cas d’usages tels quel : accélération du support client et réduction des délais d’escalade, amélioration de l’efficacité de l’ingénierie grâce à une documentation et des historiques de code faciles à trouver, préparation des équipes de vente pour des appels plus efficaces, suivi des demandes et priorités des clients pour les équipes produit, et facilitation de la résolution autonome des problèmes liés aux services informatiques, à l’intégration et aux ressources humaines. #BurnoLeMaireLoveZeCapitalizme

Voici ce que ça donne une fois installé :

Vous pouvez même le connecter au modèle de langage LLM de votre choix (en local ou non) pour une solution entièrement cloisonnée. Il se déploie facilement avec une seule commande Docker Compose et peut être hébergé n’importe où. Vous pouvez également l’exécuter avec Kubernetes.

Pour l’installer rien de plus simple, il vous faut d’abord cloner le dépôt de Danswer :

git clone https://github.com/danswer-ai/danswer.git

ensuite, placez vous dans le dossier contenant le fichier de description du docker compose :

cd danswer/deployment/docker_compose

Puis y’a plus qu’à lancer le bousin :

docker compose -f docker-compose.dev.yml -p danswer-stack up -d --pull always --force-recreate

Ça peut prendre un quart d’heure, voire plus, selon votre connexion puisque Danswer a besoin de télécharger des modèles pour fonctionner.

Ensuite, y’a plus qu’à lancer un navigateur vers http://localhost:3000.

Ensuite pour apprendre à l’utiliser et le customiser, toute la documentation est là.

Merci à Lorenper

Intelligence artificielle
GPT-3.5 champion de Street Fighter III
J’espère que vous êtes en forme et prêts à en découdre, car aujourd’hui on va parler d’un sujet marrant : GPT-3.5 Turbo d’OpenAI est devenu le nouveau champion toutes catégories de Street Fighter III ! Non, j’ai rien fumé, il y a bien une IA qui a mis la pâtée à tous ses adversaires lors d’un tournoi un peu spécial. En effet, la semaine dernière, lors du Mistral AI Hackathon à San Francisco, une équipe de passionnés a eu l’idée de génie d’organiser un tournoi un peu particulier. : Faire

GPT-3.5 champion de Street Fighter III

Intelligence artificielle

Par : Korben

26 mars 2024 à 15:32

J’espère que vous êtes en forme et prêts à en découdre, car aujourd’hui on va parler d’un sujet marrant : GPT-3.5 Turbo d’OpenAI est devenu le nouveau champion toutes catégories de Street Fighter III !

Non, j’ai rien fumé, il y a bien une IA qui a mis la pâtée à tous ses adversaires lors d’un tournoi un peu spécial.

En effet, la semaine dernière, lors du Mistral AI Hackathon à San Francisco, une équipe de passionnés a eu l’idée de génie d’organiser un tournoi un peu particulier. : Faire s’affronter différents modèles de langage sur le cultissime jeu de baston Street Fighter III, pour voir lequel allait sortir vainqueur.

Parce que bon, c’est bien beau de savoir faire la conversation ou générer des images moches, mais quand il s’agit d’envoyer des tatanes dans la tronche, il faut être un peu plus réactif !

Et c’est là que notre pote GPT-3.5 sort les muscles et s’en sort très bien. Contrairement aux algorithmes d’apprentissage par renforcement (deep learning) qui se contentent bêtement d’accumuler des points en fonction de leurs actions, les modèles de langage comme GPT sont capables de comprendre un contexte et d’agir en conséquence.

En gros, ils analysent ce qu’il se passe à l’écran, les mouvements des personnages, leur barre de vie… Et en fonction de ça, ils décident quelle attaque lancer. Un peu comme un joueur humain en fait, sauf qu’eux n’ont pas besoin de café pour rester concentrés.

Les premières bagarres ont opposé différentes versions du modèle Mistral, dans des combats endiablés dignes des plus grands shōnens. Mais très vite, l’équipe a décidé de corser un peu les choses en invitant OpenAI et ses modèles GPT-3.5 et GPT-4 dans l’arène. Et là, mes amis, ça a commencé à sentir le roussi pour la concurrence !

Les poings ont volé, les combos se sont enchaînés, les contres se sont succédés à un rythme infernal. Un vrai feu d’artifice d’uppercuts, de coups spéciaux et de provocations bien senties. Mais au final, après des dizaines de combats acharnés, c’est bien GPT-3.5 (et plus précisément sa dernière version « Turbo ») qui est ressorti vainqueur ! La médaille d’argent revient à Mistral-small-2042, qui a réussi l’exploit de coiffer sur le poteau un modèle GPT-4 en accès anticipé.

Tout ça pour dire que si vous voulez vous mesurer à ces champions, c’est tout à fait possible ! Le code source du projet est disponible sur Github, et vous n’avez même pas besoin d’un supercalculateur pour faire tourner tout ça. Il vous faudra juste dénicher une ROM de jeu de baston 2D ou 3D old school, et le tour est joué. Perso j’ai hâte de voir ce que ça donne sur un bon vieux Tekken 3…

Pour installer et tester LLM Colosseum :

Suivez les instructions de la documentation DIAMBRA, l’outil qui permet de faire jouer les LLM
Téléchargez la ROM et placez-la dans ~/.diambra/roms
Clonez le dépôt de llm coloseum et installez les paquets Python requis avec la commande pip3 install -r requirements.txt
Créez un fichier nommé .env et copiez-y le contenu du fichier .env.example
Lancez le programme avec la commande make run

Blague à part, cette expérience montre bien le potentiel hallucinant des modèles de langage pour les jeux vidéo. On peut tout à fait imaginer des PNJ avec lesquels on pourrait interagir de façon totalement naturelle et immersive, des adversaires capables de s’adapter à votre style de jeu et de vous surprendre… Bref, de quoi révolutionner complètement notre façon de jouer ! Après, faudra quand même faire gaffe à pas trop les énerver, on a bien vu ce que ça donnait quand on laissait GPT-3.5 jouer à des wargames… Boum, plus de planète !

Allez, je vous laisse, faut que je retourne taper Zangief moi.

Merci à Lorenper pour l’info et à très vite pour de nouvelles aventures.

Intelligence artificielle
Reor – L’appli magique de prise de notes boostée à l’IA locale et gratuite
Dispo sous Windows, Linux et macOS (Intel et Silicon), Reor est un outil de prise de notes markdown capable de s’auto-organiser. Cela signifie que l’outil utilise de l’IA localement pour vous aider à mettre de l’ordre dans vos idées. C’est assez ouf puisque ça vous fera gagner un max de temps en reliant automatiquement vos idées, mais également en répondant à toutes vos questions en se basant sur vos notes. Reor offre également un moteur de recherche sémantique et le tout est stocké localem

Reor – L’appli magique de prise de notes boostée à l’IA locale et gratuite

Intelligence artificielle

Par : Korben

25 mars 2024 à 09:00

Dispo sous Windows, Linux et macOS (Intel et Silicon), Reor est un outil de prise de notes markdown capable de s’auto-organiser. Cela signifie que l’outil utilise de l’IA localement pour vous aider à mettre de l’ordre dans vos idées.

C’est assez ouf puisque ça vous fera gagner un max de temps en reliant automatiquement vos idées, mais également en répondant à toutes vos questions en se basant sur vos notes. Reor offre également un moteur de recherche sémantique et le tout est stocké localement, ce qui évitera que vos données ne soient pompées.

Reor tire parti des géants tels que Llama.cpp, Transformers.js et LanceDB pour permettre à la fois aux modèles LLM et d’inférences de s’exécuter localement. Il est également possible de se connecter à des API compatibles OpenAI si vous le désirez.

Alors, comment fonctionne cette auto-organisation ?

En réalité, chaque note que vous écrivez est fragmentée et intégrée dans une base de données vectorielle interne. Les notes connexes sont automatiquement reliées par la similarité vectorielle. De plus, la base de Q&R alimentée par les LLM fonctionne sur un principe de RAG (Retrieval-Augmented Generation) sur le corpus de notes que vous lui avez donné. Exactement comme ce qu’on peut faire aujourd’hui avec des PDF et des outils comme PDFtoChat.

Pour commencer, rien de plus simple : il vous suffit de télécharger Reor et de l’installer comme n’importe quelle autre application. Notez que pour l’instant, l’application ne télécharge pas les modèles pour vous, vous devrez donc télécharger manuellement votre modèle de choix au format GGUF et l’importer dans l’outil. Cela peut être Mistral ou Llama 2 par exemple. Et comme ce sont des modèles open source et gratuits, vous n’aurez rien à payer.

L’importation de notes provenant d’autres applications est également possible, puisque Reor stocke ses données dans un seul répertoire, que vous choisissez lors de la première utilisation. Pour importer des notes/fichiers d’une autre application, il vous suffit donc de remplir ce répertoire manuellement avec des fichiers Markdown.

Voilà, c’est encore un peu brut comme outil, mais je parie que ça s’affinera avec le temps.

Merci à Lorenper

Intelligence artificielle
Jan – Le « ChatGPT » local et open source à installer sur votre machine
Afin de rendre l’IA accessible à tous, y compris gratuitement puisque la plupart des modèles fonctionnent sur un système open source, une équipe de développeurs talentueux a créé Jan un outil pour les développeurs et les utilisateurs souhaitant profite d’une alternative à ChatGPT, totalement indépendante, fonctionnant hors ligne, open source et libre. Il faut donc voir Jan comme un client de chat qui permet de télécharger des modèles comme Trinity, Mistral, Llama, OpenChat…etc. et de les fa

Jan – Le « ChatGPT » local et open source à installer sur votre machine

Intelligence artificielle

Par : Korben

23 mars 2024 à 09:00

Afin de rendre l’IA accessible à tous, y compris gratuitement puisque la plupart des modèles fonctionnent sur un système open source, une équipe de développeurs talentueux a créé Jan un outil pour les développeurs et les utilisateurs souhaitant profite d’une alternative à ChatGPT, totalement indépendante, fonctionnant hors ligne, open source et libre.

Il faut donc voir Jan comme un client de chat qui permet de télécharger des modèles comme Trinity, Mistral, Llama, OpenChat…etc. et de les faire tourner 100% hors ligne. Comme ça, pas de fuite de conversations privées ni de réutilisation de vos données pour entrainer de nouvelles IA. Et si comme moi, vous êtes accro à l’IA d’OpenAI, vous pourrez toujours y ajouter votre clé API et discuter avec ChatGPT (au tarif fixé par OpenAI évidemment).

Jan fonctionne sous Linux (Appimage et .deb dispo), sous Windows et macOS (Intel / Silicon) et propose une prise en charge des modèles open source tels que GGUF via llama.cpp, TensorRT via TensorRT-LLM ou des API externes. Jan utilise également le moteur d’inférence Nitro, des mêmes développeurs, qui se veut être rapide et léger.

Je teste ici le modèle Trinity 1.2 7B Q4 :

Et ici un modèle spécialisé en code Python nommé Wizard Coder Python 13B Q5.

Un truc cool avec Jan c’est que toutes les conversations sont conservées sur votre disque au format JSON, donc si le coeur vous en dit, vous pourrez ensuite les exploiter comme bon vous semble dans vos outils.

Jan propose également un serveur REST qui permet d’interroger via une API compatible OpenAI n’importe quel modèle que vous y feriez tourner. Ça permet de brancher vos outils ou vos scripts directement sur le LLM ouvert de votre choix.

Dans la lignée de Ollama ou LM Studio, Jan rempli ses promesses et vous permettra de vous éclater avec l’IA (abus de langage, je sais…) sans mettre en péril vos données personnelles.

Pour en savoir plus, rendez-vous sur le site de Jan ou sur leur page Github pour les sources et la doc.

Merci à Lorenper

Vue normale

Pré-requis :

Étapes d’installation :

Définir les variables sur Mac :

Configurer les variables sur Linux :

Paramétrer les variables sur Windows :