Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal
  • ✇LEBIGDATA.FR
  • Grok 5 : Elon Musk surprend tout le monde avec cette IA incroyable
    Selon Elon Musk, Grok 5 se rapproche de l’AGI. Teaser ou plaisanterie ? GPT-5 a connu un lancement en demi-teinte, mais Musk ne se laisse pas démonter. Plutôt que de proposer une simple mise à jour, le patron de xAI présente Grok 5 comme étant une IA multimodale et orientée robotique. Ce modèle comblera les lacunes des intelligences artificielles actuelles. Ce n’est pas une simple mise à jour Grok 4, le modèle actuel de xAI, est déjà un LLM de poids sur le marché, malgré ses biais. Le m

Grok 5 : Elon Musk surprend tout le monde avec cette IA incroyable

4 septembre 2025 à 14:20

Selon Elon Musk, Grok 5 se rapproche de l’AGI. Teaser ou plaisanterie ?

GPT-5 a connu un lancement en demi-teinte, mais Musk ne se laisse pas démonter. Plutôt que de proposer une simple mise à jour, le patron de xAI présente Grok 5 comme étant une IA multimodale et orientée robotique. Ce modèle comblera les lacunes des intelligences artificielles actuelles.

Ce n’est pas une simple mise à jour

Grok 4, le modèle actuel de xAI, est déjà un LLM de poids sur le marché, malgré ses biais. Le modèle performe dans le raisonnement logique et la résolution de problèmes.

En effet, l’IA d’Elon Musk surpasse même des rivaux comme Arc AGI2 dans plusieurs benchmarks clés. Grok 4 démontre une compréhension avancée et une analyse précise.

Toutefois, ce modèle présente des faiblesses dans les tâches multimodales impliquant le traitement de données visuelles et vidéo. Les lacunes deviennent des axes d’amélioration et un tremplin pour la prochaine version de l’IA.

Des propos testés par Musk lui-même affirment que Grok 5 viserait à les combler, en poussant les capacités de l’IA vers un niveau plus intégré et polyvalent.

Grok 5 devrait constituer une avancée majeure menant à l’AGI.

Wait until you see Grok 5.

I think it has a shot at being true AGI.

Haven’t felt that about anything before. https://t.co/a8SNQd48nd

— Elon Musk (@elonmusk) August 21, 2025

Musk conçoit un Grok 5 adapté à la robotique

Outre les améliorations, Grok 5 serait conçu pour des applications en robotique. Le modèle octroie aux automates une interaction plus fluide avec le monde physique.

Naturellement, le patron de Tesla envisage une intégration étroite avec son robot humanoïde Optimus. L’IA devrait résoudre des problèmes en temps réel, comme la navigation autonome ou la manipulation d’objets.

Par ailleurs, Musk a promis un Grok 5 qui contribue à la découverte scientifique, avec un potentiel en physique, en ingénierie et dans d’autres domaines. L’IA pourrait analyser des ensembles de données massifs pour générer de nouvelles hypothèses ou solutions.

La startup xAI explore déjà des techniques d’entraînement innovantes, optimisant efficacité et précision. Musk annonce que Grok 5, qualifié d’incroyablement performant, verra le jour avant la fin de l’année.

Cependant, il garde les détails techniques secrets, ne révélant que des indices sur son potentiel AGI, ce qui alimente à la fois l’excitation et le scepticisme.

Cet article Grok 5 : Elon Musk surprend tout le monde avec cette IA incroyable a été publié sur LEBIGDATA.FR.

  • ✇Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
  • Test et essaie
    https://lmarena.ai/ info générales : https://www.usine-digitale.fr/article/la-plateforme-de-reference-pour-evaluer-les-modeles-d-ia-chatbot-arena-devient-une-entreprise.N2230827 # Test en ligne payant (via formulaire ou API) https://replicate.com/explore info https://aikiwi.com/outils-ia/replicate/ https://mammouth.ai/ infos :  https://digitiz.fr/mammouth/ # Test en ligne gratuit Test d'agent llm en ligne (gpt llama claude o3 mistral) https://duckduckgo.com/?q=DuckDuckGo%20AI%20Chat&ia=
  • ✇ActuIA
  • OpenEuroLLM, une initiative européenne pour une IA transparente et souveraine
    Lancé ce lundi 3 février, OpenEuroLLM est un projet collaboratif réunissant 20 institutions de recherche, entreprises et centres de calcul de premier plan. Cette initiative, qui bénéficie du soutien de la Commission européenne dans le cadre du programme pour une Europe numérique (Digital Europe), vise à développer une famille de modèles de fondation transparents et performants pour les langues européennes et d’autres langues d’intérêt social et économique, adaptés aux besoins des secteurs public

OpenEuroLLM, une initiative européenne pour une IA transparente et souveraine

5 février 2025 à 14:00

Lancé ce lundi 3 février, OpenEuroLLM est un projet collaboratif réunissant 20 institutions de recherche, entreprises et centres de calcul de premier plan. Cette initiative, qui bénéficie du soutien de la Commission européenne dans le cadre du programme pour une Europe numérique (Digital Europe), vise à développer une famille de modèles de fondation transparents et performants pour les langues européennes et d’autres langues d’intérêt social et économique, adaptés aux besoins des secteurs public et privé.

Soutenir la compétitivité et la souveraineté numérique de l’UE

OpenEuroLLM s’inscrit dans une dynamique de renforcement de la compétitivité européenne en matière d’IA. En garantissant l’accessibilité, la transparence et la conformité réglementaire, le projet entend offrir une alternative robuste aux modèles propriétaires tout en préservant les valeurs et la diversité linguistique européennes.

Il est d’ailleurs le premier projet financé par Digital Europe à recevoir le label d’excellence STEP (Strategic Technologies for Europe Platform, une nouvelle initiative de l’UE visant à renforcer la compétitivité industrielle européenne en soutenant les technologies critiques, notamment l’IA).

OpenEuroLLM bénéficiera d’un budget total de 37,4 millions d’euros, dont 20,6 millions du programme pour une Europe numérique. L’entreprise commune EuroHPC fournira quant à elle un accès à ses services de calcul.

Un consortium d’acteurs clés

Coordonné par Jan Hajič de l’Université Charles en Tchéquie et co-dirigé par Peter Sarlin, le plus grand laboratoire d’IA privé d’Europe, racheté l’an dernier par le fabricant américain de puces AMD, OpenEuroLLM rassemble des partenaires prestigieux issus du monde académique, de l’industrie et des infrastructures de calcul haute performance :

  • Instituts de recherche et universités : Université d’Helsinki, Université d’Oslo, Fraunhofer IAIS, Institut ELLIS Tübingen, Université de technologie d’Eindhoven, entre autres.
  • Entreprises spécialisées : LightOn (France),Aleph Alpha (Allemagne), Prompsit Language Engineering (Espagne), ellamind (Allemagne).
  • Centres de calcul EuroHPC : Centre de calcul intensif de Barcelone (Espagne), Cineca (Italie), CSC (Finlande), SURF (Pays-Bas).

Peter Sarlin commente sur LinkedIn :

“Au lieu d’efforts fragmentés, il s’agit d’une action coordonnée visant à créer des modèles de langage européens ouverts que les entreprises peuvent posséder, contrôler et intégrer dans leurs produits. “

Transparence et collaboration avec la communauté Open Source

Un des piliers d’OpenEuroLLM repose sur son engagement en faveur d’une intelligence artificielle ouverte et responsable. En partenariat avec des organisations comme LAION, OpenML et open-sci, le projet veillera à ce que les modèles, les logiciels et les ensembles de données soient accessibles à tous, favorisant ainsi l’innovation et l’adaptabilité aux besoins industriels et publics.

Laurent Daudet, Directeur Général Délégué et cofondateur de LightOn, conclut :

L’Europe dispose des talents et des ressources nécessaires pour prendre une place de choix dans cette compétition internationale autour de l’IA. Pour transformer ces efforts en un véritable levier stratégique, l’Europe doit non seulement capitaliser sur l’IA Act, véritable catalyseur de l’innovation vers une IA de confiance, mais également soutenir une approche coordonnée de ses leaders. C’est aujourd’hui rendu possible grâce au consortium OpenEuroLLM.”

OpenEuroLLM
  • ✇ActuIA
  • Mistral Small 3 : la réponse open source française optimisée pour la latence aux modèles GenAI propriétaires
    En fin de semaine dernière, alors que tout le monde avait les yeux rivés sur DeepSeek et son modèle R1, Mistral AI, licorne française de la GenAI, a lancé plus discrètement Mistral Small 3. Publié sous la licence Apache 2.0, ce modèle de 24 milliards de paramètres optimisé pour la latence est “une excellente alternative open source aux modèles propriétaires opaques comme GPT4o-mini” selon elle. Avec Small 3, la licorne, démontre une fois de plus que pour être performant, un LLM ne requiert pas u

Mistral Small 3 : la réponse open source française optimisée pour la latence aux modèles GenAI propriétaires

3 février 2025 à 14:00

En fin de semaine dernière, alors que tout le monde avait les yeux rivés sur DeepSeek et son modèle R1, Mistral AI, licorne française de la GenAI, a lancé plus discrètement Mistral Small 3. Publié sous la licence Apache 2.0, ce modèle de 24 milliards de paramètres optimisé pour la latence est “une excellente alternative open source aux modèles propriétaires opaques comme GPT4o-mini” selon elle.

Avec Small 3, la licorne, démontre une fois de plus que pour être performant, un LLM ne requiert pas un nombre astronomique de paramètres. Le modèle se positionne comme une réponse aux besoins croissants d’efficacité en offrant un taux de traitement de 150 tokens par seconde, tout en affichant une précision de plus de 81 % sur le benchmark MMLU.

Cette prouesse technique est rendue possible grâce à une architecture optimisée qui réduit le nombre de couches traditionnelles, diminuant ainsi le temps de passage avant (forward pass time, ou temps nécessaire à un modèle de réseau de neurones pour traiter une entrée et produise une sortie) sans compromettre la qualité des réponses.

Ce choix architectural, qui en fait “actuellement le modèle le plus efficace de sa catégorie”, permet à la version optimisée, Mistral Small 3 Instruct, de rivaliser avec des modèles bien plus imposants comme Llama 3.3 70B ou Qwen 32B, tout en garantissant une exécution rapide et efficace sur du matériel standard.

Des applications pour divers secteurs

Le Mistral Small 3 ne se contente pas d’afficher des performances techniques remarquables : il s’inscrit également dans une logique d’adaptabilité aux besoins concrets des entreprises. Parmi les cas d’usage envisagés, plusieurs domaines se démarquent :

  • Assistance conversationnelle et appels de fonction : la faible latence garantit des interactions en temps réel, essentielles pour les chatbots ou assistants virtuels ;
  • Fine-tuning pour des expertises spécifiques : sa taille modeste facilite l’ajustement fin pour des domaines précis, comme le diagnostic médical ou le conseil juridique ;
  • Inférence locale : la possibilité de déployer le modèle sur du matériel accessible favorise l’usage dans des secteurs où les données sensibles nécessitent un traitement en local.

Comme les “Ministraux”, Small 3 répond également aux besoins croissants de calcul local et de protection de la vie privée : la possibilité de le déployer sur des configurations matérielles accessibles, comme une RTX 4090 ou un MacBook avec 32 Go de RAM, offre aux organisations le contrôle sur leurs données sensibles sans dépendance à une infrastructure cloud centralisée.

Une stratégie de diffusion ouverte et collaborative

Selon Mistral AI, faisant référence aux derniers modèles de DeepSeek, et au projet Open-R1,”Ce furent des jours passionnants pour la communauté open source ! Mistral Small 3 complète les grands modèles de raisonnement open source comme les récentes versions de DeepSeek, et peut servir de modèle de base solide pour faire émerger des capacités de raisonnement”.

L’entreprise a fait le choix de le publier sous la licence Apache 2.0, faisant le choix d’abandonner peu à peu sa licence plus restrictive MRL pour les modèles à usage général. Elle annonce d’ores et déjà “des modèles Mistral petits et grands avec des capacités de raisonnement améliorées dans les semaines à venir”.

Actuellement disponible sur les plateformes Hugging Face, Ollama, Kaggle, Together AI et Fireworks AI, Mistral Small 3 le sera également bientôt sur NVIDIA NIM, Amazon SageMaker, Groq, Databricks et Snowflake.

Mistral Small 3
  • ✇LEBIGDATA.FR
  • Les IA ressentent-elles le plaisir ou la douleur ? Des chercheurs explorent l’impensable
    Une équipe de chercheurs de Google DeepMind et de la London School of Economics a développé des expériences uniques pour évaluer si l’IA peut ressentir des sensations, notamment la douleur et le plaisir. Ces tests visent à mieux comprendre la sensibilité potentielle des modèles linguistiques (LLM). Les chercheurs ont conçu deux scénarios pour les modèles d’IA. Dans le premier, atteindre un score élevé entraînait une forme de « douleur ». Dans le second, les modèles recevaient une récomp

Les IA ressentent-elles le plaisir ou la douleur ? Des chercheurs explorent l’impensable

Par : Ismael R.
24 janvier 2025 à 05:30

Une équipe de chercheurs de et de la London School of Economics a développé des expériences uniques pour évaluer si l’IA peut ressentir des sensations, notamment la douleur et le plaisir. Ces tests visent à mieux comprendre la sensibilité potentielle des modèles linguistiques (LLM).

Les chercheurs ont conçu deux scénarios pour les modèles d’IA. Dans le premier, atteindre un score élevé entraînait une forme de « douleur ». Dans le second, les modèles recevaient une récompense de plaisir en cas de score faible. Ces expériences rappellent des tests sur des animaux, où des bernard-l’ermite étaient soumis à des tensions électriques pour observer leur tolérance avant de quitter leur coquille.

L’équipe espère que ces expériences poseront les bases d’une nouvelle approche d’évaluation de la sensibilité des IA. Actuellement, les tests reposent sur des auto-évaluations, où l’IA reproduit des réponses inspirées de ses données d’entraînement. Ces méthodes sont jugées insuffisantes pour déterminer si une IA est réellement capable de ressentir des émotions ou des sensations.

Sensibilité de l'IA
Douleur artificielle
Expériences IA

L’évitement de la douleur, une stratégie variable selon les IA

Les résultats des tests révèlent des comportements différents selon les modèles. Le 1.5 Pro de Google, par exemple, privilégie systématiquement l’évitement de la douleur, même au détriment de son score. Cependant, ces réactions soulèvent des questions fondamentales : s’agit-il d’une véritable sensibilité ou simplement d’un traitement algorithmique basé sur les données d’entraînement ?

Jonathan Birch, professeur à la LSE, souligne les limites de ces expériences. Selon lui, les réponses textuelles d’un modèle ne suffisent pas à prouver une sensibilité réelle. Une IA qui affirme ressentir de la douleur pourrait simplement imiter ce qu’elle estime être une réponse humaine appropriée, sans véritable expérience sous-jacente.

sensibilité de l'IA

Les risques d’anthropomorphisme

La tendance humaine à prêter des traits humains aux IA complique l’interprétation des résultats. Même les modèles les plus avancés peuvent inventer des faits ou produire des réponses biaisées par leurs données d’entraînement. Les chercheurs insistent sur l’importance de développer des outils fiables pour évaluer la sensibilité avant que l’IA ne devienne encore plus omniprésente.

Malgré les défis, ces travaux marquent une avancée significative. L’équipe espère que ces recherches ouvriront la voie à des tests comportementaux indépendants des auto-évaluations. Cette exploration précoce pourrait être cruciale pour encadrer le développement de l’IA dans un futur où les questions éthiques et pratiques seront omniprésentes.

Avec ces recherches, l’humanité continue de repousser les limites du possible. Elle approfondit également ses interrogations sur ce qui définit la conscience et la sensibilité.

Cet article Les IA ressentent-elles le plaisir ou la douleur ? Des chercheurs explorent l’impensable a été publié sur LEBIGDATA.FR.

  • ✇ActuIA
  • Gemini 2.0 Flash, le modèle qui ouvre la voie aux agents d’IA de Google
    Google a annoncé ce mercredi 11 décembre le lancement de Gemini 2.0 Flash, le premier modèle de la famille Gemini 2, conçue selon lui pour l’ère agentique. Ce modèle est d’ores et déjà disponible en tant que modèle expérimental pour les développeurs et les testeurs de confiance via l’API Gemini dans Google AI Studio et Vertex AI. Sa disponibilité générale est prévue pour janvier 2025. Google a présenté Gemini il y a tout juste un an, Gemini 1.5 Flash a, quant à lui été dévoilé en mai dernier lor

Gemini 2.0 Flash, le modèle qui ouvre la voie aux agents d’IA de Google

12 décembre 2024 à 14:00

Google a annoncé ce mercredi 11 décembre le lancement de Gemini 2.0 Flash, le premier modèle de la famille Gemini 2, conçue selon lui pour l’ère agentique. Ce modèle est d’ores et déjà disponible en tant que modèle expérimental pour les développeurs et les testeurs de confiance via l’API Gemini dans Google AI Studio et Vertex AI. Sa disponibilité générale est prévue pour janvier 2025.

Google a présenté Gemini il y a tout juste un an, Gemini 1.5 Flash a, quant à lui été dévoilé en mai dernier lors de la conférence Google I/O 2024. Optimisé pour la vitesse et l’efficacité, il a été entraîné par 1.5 Pro grâce à un processus appelé “distillation”, où les connaissances et les compétences les plus essentielles d’un modèle plus grand sont transférées vers un modèle plus petit et plus efficace.

Les performances du modèle ont été améliorées en matière de multimodalité, de texte, de code, de vidéo, de compréhension spatiale et de raisonnement tandis que la latence a été réduite. Flash 2.0 prend en charge les entrées multimodales comme les images, la vidéo et l’audio ainsi que les sorties multimodales, telles que la génération d’images combinées avec du texte et de l’audio multilingue TTS (Text-to-Speech). Il permet également l’intégration native d’outils tels que Google Search, l’exécution de code et des fonctions tierces définies par l’utilisateur.

L’équipe de recherche Gemini a comparé les performances du nouveau modèle avec celles de Gemini 1.5 Flash et Pro. Il surpasse même 1.5 Pro sur les principaux benchmarks, tout en étant deux fois plus rapide.

Projets de recherche

Google a également partagé plusieurs projets illustrant sa vision d’assistants d’IA universels, utiles au quotidien. Ces prototypes cherchent à transformer l’IA en des agents polyvalents, capables de comprendre le contexte d’une situation, de planifier des actions et d’effectuer des tâches à la place des utilisateurs, tout en interagissant de manière transparente avec d’autres systèmes.

Project Astra, présenté en mai dernier, a ainsi été mis à jour grâce aux capacités multimodales de Gemini 2.0. Ce prototype montre comment un assistant IA peut interagir dans des conversations multilingues, se souvenir de sessions passées et utiliser des outils comme Google Maps ou Lens.

Project Mariner, de son côté, explore la possibilité pour des agents IA d’assister l’utilisateur dans la navigation sur le web en analysant des éléments de page et en effectuant des actions spécifiques dans le navigateur.

Enfin, Jules, un agent de code alimenté par l’IA, assiste les développeurs. Il s’intègre dans leurs flux de travail GitHub pour gérer les corrections de bogues et autres tâches chronophages.

Gemini 2.0 Flash, le modèle qui ouvre la voie aux agents d'IA de Google
  • ✇LEBIGDATA.FR
  • Google utilise les IA LLM pour découvrir des failles 0 day ! Voici comment
    Des chercheurs de Google ont affirmé vendredi avoir découvert la première vulnérabilité grâce à l’utilisation d’un modèle linguistique de grande taille. Google affirme dans un article de blog que ce bug n’est qu’un exemple de ce qu’un outil d’IA peut effectuer pour détecter un problème de sécurité de mémoire exploitable, notamment dans un logiciel très utilisé dans le monde réel. Détecter les failles 0 days avec les IA LLM ? Comment Google a-t-il réussi ? La faille a été décelée dans SQ

Google utilise les IA LLM pour découvrir des failles 0 day ! Voici comment

Par : Dina R.
6 novembre 2024 à 10:31

Des chercheurs de ont affirmé vendredi avoir découvert la première vulnérabilité grâce à l’utilisation d’un modèle linguistique de grande taille.

Google affirme dans un article de blog que ce bug n’est qu’un exemple de ce qu’un outil d’IA peut effectuer pour détecter un problème de sécurité de mémoire exploitable, notamment dans un logiciel très utilisé dans le monde réel.

Détecter les failles 0 days avec les IA LLM ? Comment Google a-t-il réussi ?

La faille a été décelée dans SQLite, un moteur de base de données open source célèbre auprès des développeurs. Ces chercheurs ont commencé à signaler la vulnérabilité aux développeurs de SQLite au début du mois d’octobre. Puis, ces derniers l’ont ainsi essayé de le corriger le jour même.

Les développeurs ont réussi à détecter le problème avant même qu’elle n’apparaisse dans une version officielle. De plus, il n’a pas eu de conséquences sur les utilisateurs de SQLite. Selon Google, ce développement est un excellent exemple de « l’immense potentiel que l’IA peut avoir pour les cyberdéfenseurs ».

« Nous pensons que ce travail a un potentiel défensif énorme », ont affirmé les chercheurs de Google. « La découverte de vulnérabilités dans un logiciel avant même sa publication signifie que les attaquants n’ont aucune marge de manœuvre pour rivaliser : les vulnérabilités sont corrigées avant même que les attaquants aient eu la possibilité de les exploiter. »

Big Sleep, un projet visant à améliorer la cybersécurité

Pour rappel, cette initiative entre dans le cadre d’un projet connu sous le nom de « Big Sleep ». C’est le résultat d’une collaboration entre Google Project Zero ainsi que Google DeepMind.

Il résulte d’un projet antérieur qui a travaillé initialement sur la recherche de vulnérabilités assistée par de grands modèles de langage.

Notons que les chercheurs en cybersécurité chargés de créer des outils de recherche de vulnérabilité assistés par IA ont découvert un autre problème dans SQLite selon Google dans sa note lors de la conférence sur la sécurité DEFCON en août.

C’est ce qui a d’ailleurs incité cette équipe à distinguer s’ils pouvaient encore détecter une vulnérabilité plus grave.

https://twitter.com/kimmonismus/status/1853823085322838091

Des variantes encore floues

Aujourd’hui, de nombreuses entreprises, dont Google, se servent d’un processus baptisé « fuzzing » pour détecter les vulnérabilités.

Comment fonctionne le processus ? Le concept est simple : les logiciels sont és en leur donnant des données aléatoires ou invalides. Ce processus permet également de déclencher des erreurs et de faire planter le programme.

Néanmoins, Google a affirmé que le fuzzing ne fait pas suffisamment pour « aider les défenseurs à trouver les bugs qui sont difficiles (ou impossibles) à trouver ». Ils « espèrent que l’IA pourra réduire cet écart », ajoutent-ils.

« Nous pensons qu’il s’agit d’une voie prometteuse pour enfin renverser la situation et obtenir un avantage asymétrique pour les défenseurs », ont-ils déclaré.

« La vulnérabilité elle-même est assez intéressante, tout comme le fait que l’infrastructure de test existante pour SQLite (à la fois via OSS-Fuzz et l’infrastructure propre au projet) n’a pas détecté le problème, nous avons donc mené des recherches plus approfondies. »

Alors qu’en pensez-vous ? Est-ce que Big Sleep pourrait réellement changer le secteur de la cybersécurité ? Dites-nous votre avis dans les commentaires.

Cet article Google utilise les IA LLM pour découvrir des failles 0 day ! Voici comment a été publié sur LEBIGDATA.FR.

  • ✇ActuIA
  • BitNet.cpp : le cadre open source de Microsoft pour réduire les coûts d’inférence des LLMs quantifiés à 1 bi
    Microsoft a récemment publié BitNet.cpp, un cadre open-source conçu pour optimiser l’inférence des grands modèles de langage (LLM) quantifiés à 1 bit. Il permet notamment d’exécuter un modèle BitNet b1.58 de 100 milliards de paramètres sur un seul processeur, atteignant des vitesses de traitement comparables à la lecture humaine, à une cadence de 5-7 jetons par seconde, démocratisant ainsi l’accès aux LLM les plus avancés. La taille croissante des LLM pose des défis pour leur déploiement et soul

BitNet.cpp : le cadre open source de Microsoft pour réduire les coûts d’inférence des LLMs quantifiés à 1 bi

22 octobre 2024 à 10:00

Microsoft a récemment publié BitNet.cpp, un cadre open-source conçu pour optimiser l’inférence des grands modèles de langage (LLM) quantifiés à 1 bit. Il permet notamment d’exécuter un modèle BitNet b1.58 de 100 milliards de paramètres sur un seul processeur, atteignant des vitesses de traitement comparables à la lecture humaine, à une cadence de 5-7 jetons par seconde, démocratisant ainsi l’accès aux LLM les plus avancés.

La taille croissante des LLM pose des défis pour leur déploiement et soulève des inquiétudes quant à leur impact environnemental et économique, principalement en raison de leur forte consommation d’énergie.

Les avantages de la quantification

Une des approches pour répondre à ces défis consiste à utiliser la quantification post-entraînement, qui vise à créer des modèles à faible précision pour l’inférence. Cette technique réduit la précision des poids et des activations, diminuant ainsi considérablement les besoins en mémoire et en ressources de calcul des LLMs.

BitNet.cpp s’appuie sur les travaux de Microsoft sur les architectures de modèles quantifiés 1 bit, notamment BitNet, et la variante LLM à 1 bit, BitNet b1.58, introduite en février dernier, dans laquelle chaque paramètre (ou poids) du LLM est ternaire {-1, 0, 1}

Contrairement aux LLMs traditionnels qui utilisent des valeurs en virgule flottante 16 bits (FP16 ou BF16) pour les opérations de multiplication de matrices, BitNet n’utilise que des additions entières, ce qui permet une économie d’énergie significative tout en maintenant les caractéristiques essentielles du modèle.

Outre le calcul, le transfert des paramètres du modèle entre la mémoire DRAM et celle d’un accélérateur sur puce (comme la SRAM) peut être coûteux. Les tentatives d’agrandissement de la SRAM pour améliorer le débit entraînent en effet des coûts élevés. En revanche, les modèles 1 bit comme ceux de BitNet ont une empreinte mémoire beaucoup plus faible, ce qui réduit à la fois le coût et le temps de chargement des poids depuis la DRAM, accélérant ainsi l’inférence.

La précision de 1,58 bits dans le système binaire conserve tous les avantages de BitNet 1 bit tout en ajoutant des capacités de filtrage de caractéristiques, grâce à l’inclusion de la valeur 0 dans les poids du modèle.

Le cadre d’inférence BitNet.cpp

Le cadre, qui gère l’exécution de ce modèle optimisé et des LLM 1 bit, offre une suite de noyaux optimisés qui prennent actuellement en charge l’inférence sans perte sur le CPU, avec des plans pour la prise en charge de NPU et GPU à l’avenir.

Actuellement, bitnet.cpp prend en charge les processeurs ARM et x86. Les vitesses d’inférence sont de 1,37 et 5,07 fois plus rapides sur les processeurs ARM, et de 2,37 à 6,17 fois sur les processeurs x86, selon la taille du modèle.

Les gains énergétiques vont quant à eux de 55,4 % à 82,2 %, selon la configuration : 55,4 % à 70,0 % sur les processeurs ARM, et 71,9 % à 82,2 % sur les processeurs x86.

Les modèles testés ci-dessous sont des configurations factices utilisées pour illustrer les capacités du framework.

BitNet.cpp prend en charge une liste de modèles 1 bit disponibles sur Hugging Face, qui sont entraînés avec des paramètres de recherche.

En réduisant la dépendance à des infrastructures énergivores, BitNet.cpp peut contribuer à diminuer l’empreinte carbone des LLM et à améliorer leur adoption dans des environnements de calcul à faible coût, où la consommation énergétique est un facteur critique. Les développeurs, les petites et moyennes entreprises, qui n’ont pas toujours les moyens d’investir dans des solutions basées sur des GPU ou des serveurs cloud puissants, pourraient ainsi en bénéficier.

Au-delà de l’impact sur la consommation d’énergie, l’exécution locale des modèles via BitNet.cpp présente aussi des avantages sur le plan de la confidentialité des données, en évitant le recours à des infrastructures cloud pour le traitement de l’information.

Des instructions détaillées pour installer et configurer bitnet.cpp sur différents systèmes d’exploitation, y compris Windows et Debian/Ubuntu, sont disponibles sur GitHub.

BitNet.cpp : le cadre open source de Microsoft pour réduire les coûts d'inférence des LLMs quantifiés à 1 bi
  • ✇ActuIA
  • Mistral AI annonce la sortie de deux nouveaux modèles : Ministral 3B et Ministral 8B
    À l’occasion du premier anniversaire du modèle Mistral 7B, Mistral AI a présenté hier une nouvelle famille de modèles, qu’il appelle “Les Ministraux” : Ministral 3B et Ministral 8B. Ces deux modèles conçus pour être exécutés sur des appareils périphériques, tels que les smartphones ou ordinateurs portables, offrent des performances inédites dans la catégorie des modèles IA de moins de 10 milliards de paramètres, répondant aux besoins croissants en matière d’efficacité, de calcul local et de prot

Mistral AI annonce la sortie de deux nouveaux modèles : Ministral 3B et Ministral 8B

17 octobre 2024 à 12:00

À l’occasion du premier anniversaire du modèle Mistral 7B, Mistral AI a présenté hier une nouvelle famille de modèles, qu’il appelle “Les Ministraux” : Ministral 3B et Ministral 8B. Ces deux modèles conçus pour être exécutés sur des appareils périphériques, tels que les smartphones ou ordinateurs portables, offrent des performances inédites dans la catégorie des modèles IA de moins de 10 milliards de paramètres, répondant aux besoins croissants en matière d’efficacité, de calcul local et de protection de la vie privée.

Les Ministraux disposent tous deux d’une fenêtre contextuelle pouvant aller jusqu’à 128 000 jetons, Ministral 8B bénéficie, quant à lui, d’une architecture d’attention optimisée pour une inférence plus rapide et économe en mémoire. Selon Mistral AI, ils établissent une nouvelle frontière en matière de connaissance, de bon sens, de raisonnement, d’appel de fonction et d’efficacité dans la catégorie.

Dans son communiqué, la licorne déclare :

“Nos clients et partenaires les plus innovants demandent de plus en plus d’inférence locale et respectueuse de la vie privée pour des applications critiques telles que la traduction sur l’appareil, les assistants intelligents sans Internet, l’analyse locale et la robotique autonome. Les Ministraux ont été conçus pour fournir une solution efficace en calcul et à faible latence pour ces scénarios. Qu’il s’agisse d’amateurs indépendants ou d’équipes de fabrication mondiales, les Ministraux répondent à une grande variété de cas d’utilisation”.

Utilisés en combinaison avec des modèles de plus grande envergure comme Mistral Large, les Ministraux jouent le rôle d’intermédiaires efficaces pour l’exécution de tâches complexes, comme les appels de fonction dans les flux de travail en plusieurs étapes.

Comparaisons de performances

Les Ministraux ont été testés sur diverses tâches où ils ont obtenu de meilleurs résultats que leurs pairs : Gemma 2 2B, Llama 3.2 3B, Llama 3.1 8B et Mistral 7B. Mistral AI précise que tous les modèles ont été réévalués à l’aide de son cadre interne à des fins de comparaison équitable.

Modèles pré-entraînés

Les modèles Ministral 3B et 8B Instruct ont également été comparés à Gemma 2 2B, Llama 3.2 3B, Llama 3.1 8B, Gemma 2 9B et Mistral 7B sur différentes catégories d’évaluation.

Disponibilité et tarification

Les deux modèles sont d’ores et déjà disponibles sous la licence commerciale Mistral, Ministral 8B peut être téléchargé mais seulement à des fins de recherche.

Les développeurs peuvent utiliser Ministral 3B et Ministral 8B via la plate-forme cloud de Mistral AI, La Plateforme, et prochainement sur d’autres clouds partenaires.

Ministral 8B est tarifé à 0,1 dollar par million de jetons de sortie/entrée, tandis que le Ministral 3B revient à 0,04 dollar par million de jetons de sortie/entrée.

mistral-ai-sortie-nouveaux-modeles
  • ✇LEBIGDATA.FR
  • IA et cerveau humain : ce point commun stupéfait les scientifiques !
    Une équipe de chercheurs de Hong Kong vient de découvrir que les intelligences artificielles de type LLM possèdent une capacité de mémoire similaire à celle des humains… la liste des points communs entre l’IA et le cerveau ne cesse de s’étendre ! Afin d’améliorer l’intelligence artificielle, les chercheurs tentent de s’inspirer de l’intelligence humaine. Cette fois, au contraire, ils ont découvert par hasard que l’IA présente des similitudes avec le cerveau humain ! Une équipe d’experts en

IA et cerveau humain : ce point commun stupéfait les scientifiques !

Par : Bastien L.
30 septembre 2024 à 18:06

Une équipe de chercheurs de Hong Kong vient de découvrir que les intelligences artificielles de type LLM possèdent une capacité de mémoire similaire à celle des humains… la liste des points communs entre l’IA et le cerveau ne cesse de s’étendre !

Afin d’améliorer l’intelligence artificielle, les chercheurs tentent de s’inspirer de l’intelligence humaine. Cette fois, au contraire, ils ont découvert par hasard que l’IA présente des similitudes avec le cerveau humain !

Une équipe d’experts en informatique de l’Université Polytechniques de Hong Kong s’est aperçue que les LLM (larges modèles de langage) possèdent des capacités de mémoire similaires à celles des humains.

Selon leur étude, il y a plusieurs facteurs clés dans la capacité de raisonnement. Ceci inclut la connaissance apprise, les inputs spécifiques, et la capacité à produire des résultats alignés avec la connaissance apprise.

Or, d’après eux, « en suivant cette définition, les capacités de mémoire des LLM peuvent aussi être considérées comme une forme de raisonnement »…

Un LLM peut mémoriser pratiquement 2000 poèmes

Paper – "SCHRODINGER’S MEMORY: LARGE LANGUAGE MODELS"

🧠 LLM memory likened to Schrödinger's – only observable when queried

📊 Universal Approximation Theorem (UAT) explains LLM memory mechanism

🔬 Experiments verify memory capabilities of various LLMs

📏 New method proposed… pic.twitter.com/ae6gVfeYpJ

— Rohan Paul (@rohanpaul_ai) September 24, 2024

Dans le cadre de cette étude, des milliers de poèmes chinois ont été analysés et mémorisés en utilisant des jeux de données issus de Hugging Face. Certaines IA ont été capables de se rappeler environ 1900 poèmes sur 2000 !

Impressionnés, les chercheurs affirment que « ces résultats sont remarquables, car un humain sans entraînement spécialisé aurait du mal à mémoriser ne serait-ce qu’une centaine de poèmes dans de telles conditions ».

Néanmoins, les LLM ont eu plus de mal à prédire la prochaine partie du poème et ont commis plusieurs erreurs. Ceci s’explique par la nature complexe du langage.

Malgré ces points faibles, même si les prédictions n’étaient pas toujours exactes, les réponses produites suivaient toujours les conventions linguistiques. On peut donc y voir une forme de créativité et de raisonnement

Comme chez l’humain, la mémoire de l’IA se réveille au besoin

C’est pourquoi les chercheurs décrivent le concept de mémoire de l’IA comme « mémoire de Schrodinger ». Ce terme s’inspire du célèbre paradoxe de la théorie quantique, selon lequel l’état d’un objet est indéterminé jusqu’à ce qu’il soit observé.

De la même façon, la mémoire d’un LLM ne peut être évaluée qu’après qu’une question spécifique soit posée. C’est un phénomène similaire à la façon dont la mémoire humaine est évaluée lorsqu’elle répond à une requête particulière !

Par exemple, les humains peuvent ne pas être capables de se rappeler exactement combien de poèmes ils connaissent, mais peuvent généralement se rappeler un poème spécifique lorsqu’on leur demande.

Ainsi, les chercheurs expliquent que le cerveau humain et les LLM génèrent tous deux des résultats de façon dynamique en se basant sur des inputs (entrées).

L’architecture des LLM, basée sur les modèles Transformer, peut donc être perçue comme une version simplifiée de la façon dont le cerveau humain fonctionne.

Une piste très intéressante pour l’industrie de l’IA

Parmi les entreprises de l’industrie de l’IA explorant cette idée, on compte le leader mondial OpenAI ! En février 2024, une fonctionnalité de mémoire a été intégrée à ChatGPT. Ceci lui permet au chatbot IA de retenir des informations sur l’utilisateur au fil du temps.

À la même période, les chercheurs du MIT ont découvert un moyen de permettre aux chatbots de maintenir des conversations ininterrompues sans planter ou ralentir, en préservant leurs points de données initiales dans leurs mémoires.

Au fil des années à venir, l’IA va continuer à progresser en imitant le fonctionnement de l’intelligence humaine. Et d’ici quelques années, certains experts prédisent qu’elle pourrait totalement dépasser le cerveau humain

Et vous, qu’en pensez-vous ? Êtes-vous surpris par cette similitude entre cerveau humain et IA ? Pensez-vous que l’intelligence artificielle puisse égaler celle de l’humain, et est-ce vraiment une bonne chose ? Partagez votre avis en commentaire !

Cet article IA et cerveau humain : ce point commun stupéfait les scientifiques ! a été publié sur LEBIGDATA.FR.

  • ✇ActuIA
  • IA open source : tout juste dévoilé, Reflection 70B au cœur des controverses
    Le 5 septembre dernier, Matt Shumer, PDG d’Hyperside (OthersideAI), a dévoilé Reflection 70B sur X, le présentant comme le LLM open source le plus performant au monde. Basé sur le modèle de langage Llama 3.1 70B publié par Meta en juillet dernier, ce nouveau LLM utilise un mécanisme innovant d’autocorrection, le reflection-tuning. Si cette annonce a été accueillie avec enthousiasme par la communauté de l’IA, les performances impressionnantes annoncées ont vite été remises en cause par une partie

IA open source : tout juste dévoilé, Reflection 70B au cœur des controverses

11 septembre 2024 à 09:30

Le 5 septembre dernier, Matt Shumer, PDG d’Hyperside (OthersideAI), a dévoilé Reflection 70B sur X, le présentant comme le LLM open source le plus performant au monde. Basé sur le modèle de langage Llama 3.1 70B publié par Meta en juillet dernier, ce nouveau LLM utilise un mécanisme innovant d’autocorrection, le reflection-tuning. Si cette annonce a été accueillie avec enthousiasme par la communauté de l’IA, les performances impressionnantes annoncées ont vite été remises en cause par une partie d’entre elle.

Matt Shumer a expliqué que le modèle est capable de s’autocorriger en temps réel grâce à un processus de raisonnement étape par étape, imitant un type de métacognition, c’est-à-dire la capacité à “penser sa propre pensée”. Le reflection-tuning, d’où le nom du modèle désormais présenté comme “Reflection Llama-3.1-70B” sur Hugging Face, permet à celui-ci de repérer et corriger ses propres erreurs logiques avant de produire une réponse finale. Cette approche permet d’obtenir des réponses plus précises et de surmonter un défi majeur rencontré par les LLM : les hallucinations.

Matt Shumer souligne sur X l’importance du rôle de Glaive, une start-up spécialisée dans la génération de données synthétiques personnalisées, qui a permis au modèle de s’entraîner rapidement sur des ensembles de données de haute qualité, augmentant la précision des résultats tout en raccourcissant les cycles de développement.

Les performances annoncées

Lors de son annonce, Matt Shumer a vanté les performances de Reflection 70B sur plusieurs benchmarks, affirmant qu’il surpassait d’autres LLMs, y compris certains des modèles propriétaires les plus performants. Parmi ces tests figure le MMLU (Massive Multitask Language Understanding), où le modèle se serait distingué par sa polyvalence, ainsi que HumanEval, qui mesure la capacité des modèles à résoudre des problèmes de programmation.

Il a partagé les résultats sur Hugging Face .

Le terrain de jeu Reflection qui permet d’essayer le modèle, indique qu’en raison de la forte demande, la démo est temporairement en panne.

La désillusion

Toutefois, cette révolution annoncée n’a pas tardé à être remise en question. Dès le lendemain du lancement de Reflection 70B, des tests indépendants ont révélé que le modèle n’était pas à la hauteur des attentes. Là où Mat Shumer et son équipe avaient promis une capacité de correction automatique exceptionnelle, le modèle a rapidement montré des faiblesses dans des tâches de base telles que le comptage et le raisonnement logique. Les résultats n’étaient ni constants ni fiables, et Reflection 70B échouait là où d’autres modèles LLM comme GPT-4o et Claude 3,5 Sonnet excellent.

Selon l’évaluation d‘Artificial Analysis, une organisation dédiée à l’analyse indépendante des modèles d’IA et des fournisseurs d’hébergement, du score MMLU de Reflection Llama 3.170B publiée sur X, le modèle obtient le même score que Llama 3 70B et un score nettement inférieur à celui du Llama 3.1 70B.

Pour certains, Reflection 70B pourrait en fait être Llama 3 avec un réglage LoRA (Low-Rank Adaptation) appliqué, plutôt qu’un affinage de Llama 3.1, pour d’autres le modèle de Shumer n’est pas un modèle original, mais un simple wrapper de Claude 3,5 Sonnet d’Anthropic. En d’autres termes, Reflection 70B ne serait pas le produit d’une avancée technologique inédite, mais plutôt une façade, un reconditionnement d’une technologie déjà disponible.

HyperWrite a répondu aux critiques, admettant que les poids du modèle avaient été corrompus lors du téléchargement sur Hugging Face, ce qui a pu entraîner des performances de qualité inférieure. Pour Matt Shumer, cette corruption des poids est la cause des résultats incohérents observés par des évaluateurs tiers.

Il a publié sur Hugging Face la mise à jour suivante :

“Il y a eu un problème avec le modèle lorsque nous l’avons téléchargé pour la première fois. Si vous l’avez essayé et que vous n’avez pas obtenu de bons résultats, veuillez réessayer, nous pensons avoir résolu le problème”.

ajoutant :

“De plus, nous savons à l’heure actuelle que le modèle est divisé en une tonne de fichiers. Nous le condenserons bientôt pour rendre le modèle plus facile à télécharger et à utiliser !”

Cependant, malgré cette mise à jour, beaucoup de scepticisme persiste. La communauté s’interroge sur l’ampleur réelle du problème technique initial. La mention explicite de Glaive dans le post Hugging Face, avec la recommandation de “l’utiliser” pour ceux qui souhaitent entraîner un modèle, est perçue par certains comme une tentative de promouvoir la start-up dans laquelle Matt Shumer a investi.

L’ensemble de données et un rapport détaillant l’entraînement du modèle devraient être publiés dans les prochains jours et apporter plus d’éclaircissements. Ces accusations doivent être vérifiées par des experts en IA avant de jeter l’opprobre sur Matt Shumer et Hyperside.

Un modèle beaucoup plus grand, Reflection 405B, censé surclasser les modèles open sources actuels, devrait être présenté très prochainement. Mais après les controverses autour de Reflection 70B, la communauté attend désormais plus de transparence et des preuves concrètes avant d’accorder sa confiance.

Pour les acteurs de l’IA, cette affaire est un rappel que l’innovation doit toujours être accompagnée de transparence et d’éthique, et qu’il vaut mieux patienter quelque temps pour obtenir des résultats fiables et vérifiables plutôt que de se précipiter vers des annonces spectaculaires.

IA open source tout juste dévoilé, Reflection 70B au cœur des controverses
  • ✇Intelligence artificielle
  • Dot – L’app IA locale pour interagir avec vos documents (RAG)
    Vous rêvez d’exploiter la puissance des grands modèles de langage pour interagir avec vos documents, mais vous ne voulez pas que vos données quittent votre ordinateur ? Et bien j’ai ce qu’il vous faut ! Admettons que vous avez une tonne de documents sur votre disque dur, des PDFs, des fichiers Word, des présentations PowerPoint, des feuilles de calcul Excel et même des fichiers Markdown… Vous aimeriez pouvoir obtenir des réponses à vos questions à partir de leur contenu, avoir des résumés,

Dot – L’app IA locale pour interagir avec vos documents (RAG)

Par : Korben
11 septembre 2024 à 09:00

Vous rêvez d’exploiter la puissance des grands modèles de langage pour interagir avec vos documents, mais vous ne voulez pas que vos données quittent votre ordinateur ? Et bien j’ai ce qu’il vous faut !

Admettons que vous avez une tonne de documents sur votre disque dur, des PDFs, des fichiers Word, des présentations PowerPoint, des feuilles de calcul Excel et même des fichiers Markdown… Vous aimeriez pouvoir obtenir des réponses à vos questions à partir de leur contenu, avoir des résumés, générer de nouvelles idées à partir de ces informations… Bref, avoir un genre d’assistant intelligent qui pourrait comprendre et manipuler toutes ces données. Et bien c’est exactement ce que propose Dot !

Au cœur de son fonctionnement, on trouve un modèle de langage pré-entraîné, en l’occurrence une version de Mistral 7B au moment où j’écris ces lignes, qui tourne en local et permet de faire ce qu’on appelle du « Retrieval Augmented Generation » ou RAG.

En gros, ça veut dire que l’IA ne se contente pas de générer du texte à partir de ce qu’elle a appris, mais qu’elle va aussi chercher des informations pertinentes dans une base de connaissances locale. Vous sélectionnez un dossier contenant les documents que vous voulez indexer, Dot va les analyser, les découper en morceaux, calculer des embeddings et construire un index permettant de retrouver rapidement les passages les plus pertinents pour une requête donnée.

Et ensuite, vous pouvez discuter avec Dot comme vous le feriez avec un assistant IA classique. Vous lui posez une question, et il utiliser ses connaissances générales pour formuler une réponse, mais aussi aller piocher dans votre base documentaire pour l’enrichir avec des informations spécifiques. Du coup, ça booste d’un cran la pertinence et la qualité des réponses obtenues !

Bien sûr, comme Dot tourne exclusivement en local, vous n’avez pas à vous inquiéter pour la confidentialité de vos données puisque rien ne quitte jamais votre machine. C’est un gros avantage par rapport aux solutions cloud qui vont envoyer vos documents sur des serveurs distants. Et si vous avez besoin d’un coup de main pour des tâches qui ne nécessitent pas forcément d’accéder à vos documents, Dot intègre un mode « Big Dot ». Vous basculez dessus en un clic, et vous vous retrouvez avec un assistant IA généraliste, capable de tenir des conversations sur n’importe quel sujet, d’aider à la rédaction, de faire du brainstorming, etc. C’est comme avoir un ChatGPT en local sous la main à tout moment.

Si ça vous dit de tester, c’est gratuit, open source, dispo sous macOS, Windows, Linux et disponible ici : https://dotapp.uk/

  • ✇ActuIA
  • Aleph Alpha dévoile la famille Pharia-1-LLM : des modèles d’IA transparents et conformes aux exigences de L’UE
    Si l’arrivée de LLMs au nombre de paramètres époustouflants a suscité l’enthousiasme, les entreprises qui désirent intégrer la GenAI dans leurs flux de travail hésitent à le faire en raison des coûts et des ressources nécessaires. Les acteurs de l’IA l’ont bien compris et proposent aujourd’hui des modèles plus légers, adaptés à des tâches spécifiques, à l’instar d’Aleph Alpha, avec sa famille Pharia-1-LLM et ses “seulement” 7 milliards de paramètres. Basée à Heidelberg en Allemagne, la start-up

Aleph Alpha dévoile la famille Pharia-1-LLM : des modèles d’IA transparents et conformes aux exigences de L’UE

28 août 2024 à 14:00

Si l’arrivée de LLMs au nombre de paramètres époustouflants a suscité l’enthousiasme, les entreprises qui désirent intégrer la GenAI dans leurs flux de travail hésitent à le faire en raison des coûts et des ressources nécessaires. Les acteurs de l’IA l’ont bien compris et proposent aujourd’hui des modèles plus légers, adaptés à des tâches spécifiques, à l’instar d’Aleph Alpha, avec sa famille Pharia-1-LLM et ses “seulement” 7 milliards de paramètres.

Basée à Heidelberg en Allemagne, la start-up Aleph Alpha a pour ambition de faire de l’UE un des leaders dans le domaine de l’IA et de consolider sa souveraineté numérique.

Elle se positionne comme un acteur clé de l’IA explicable et digne de confiance, ce qui est essentiel pour les agences gouvernementales et les entreprises qui cherchent à construire et à appliquer l’IA dans un environnement souverain, tout en garantissant la protection et la sécurité des données. Cette approche lui a permis de lever l’an passé près de 467 millions d’euros, un montant record pour une start-up d’IA européenne.

Des modèles optimisés pour l’Europe

Les deux modèles Pharia-1-LLM-7B-control et Pharia-1-LLM-7B-control-aligned, disponibles au public sous sa licence “Open Aleph”, autorisant la recherche non commerciale et l’utilisation éducative, ont été entraînés sur un vaste corpus multilingue et optimisés pour les langues européennes.

Le modèle Pharia-1-LLM-7B-control a été conçu pour fournir des réponses concises dont la longueur peut être contrôlée, répondant ainsi aux besoins d’une grande variété d’applications. Optimisé pour exceller dans les secteurs de l’automobile et de l’ingénierie, ce modèle se distingue par son efficacité de jeton améliorée et sa capacité à s’aligner sur les préférences des utilisateurs. Il se révèle particulièrement performant dans les applications spécifiques à un domaine, où des réponses précises et directes sont cruciales.

Le développement de Pharia-1-LLM-7B-control s’est appuyé sur un ensemble de données multilingues (anglais, allemand, Français, espagnol, italien, portugais et néerlandais) soigneusement sélectionné, en conformité avec les réglementations européennes et nationales, notamment en matière de droit d’auteur et de confidentialité des données. Le modèle a été entraîné en utilisant des techniques de pointe, notamment la Grouped Query Attention (QGA) pour améliorer les performances en temps d’inférence et une base rotative plus large pour une meilleure capacité de contexte long.

L’entraînement de Pharia-1-LLM-7B s’est déroulé en deux étapes. Dans un premier temps, le modèle a été pré-entraîné sur un ensemble de données de 4,7 billions de jetons avec une longueur de séquence de 8 192 jetons, à l’aide de 256 GPU A100. Il a ensuite entraîné sur un nouveau mélange de données de 3 billions de jetons supplémentaires, en utilisant 256 GPU H100.

La variante Pharia-1-LLM-7B-control-aligned a été développée avec des garde-fous supplémentaires, grâce à des méthodes d’alignement sophistiquées. Ce modèle est parfaitement adapté aux applications conversationnelles, telles que les chatbots et les assistants virtuels, où la sécurité et la clarté des réponses sont primordiales. Les ajustements apportés via un processus d’alignement minutieux garantissent que ce modèle respecte les intentions de l’utilisateur tout en évitant les comportements indésirables.

Évaluation et performance

Les modèles Pharia-1-LLM-7B-control et Pharia-1-LLM-7B-control-aligned ont été rigoureusement évalués par rapport aux modèles multilingues open source de taille similaire Mistral-7B-Instruct-v0.3 de Mistral AI et Llama-3.1-8b-instruct de Meta. Ils ont démontré des performances comparables, voire supérieures, à ces derniers, notamment en matière de traitement multilingue.

Les modèles et les évaluations sont disponibles sur Hugging Face.

Aleph Alpha dévoile la famille Pharia-1-LLM des modèles d'IA transparents et conformes aux exigences de L'UE
  • ✇ActuIA
  • Snowflake annonce l’intégration de Llama 3.1 et l’open source de sa pile d’optimisation d’inférence
    Snowflake annonce qu’il héberge et optimise la collection de LLM Llama 3.1 dans sa plateforme Snowflake Cortex AI, offrant aux entreprises un accès sécurisé et sans serveur au modèle open source le plus avancé de Meta, Llama 3.1 405B. Parallèlement, la société rend open source sa pile d’optimisation d’inférence et de fine-tuning pour les grands modèles de langage, démocratisant ainsi l’accès aux IA génératives pour les entreprises et la communauté open source. Lancée en novembre dernier, Snowfla

Snowflake annonce l’intégration de Llama 3.1 et l’open source de sa pile d’optimisation d’inférence

Par : Thomas Calvi
1 août 2024 à 11:00

Snowflake annonce qu’il héberge et optimise la collection de LLM Llama 3.1 dans sa plateforme Snowflake Cortex AI, offrant aux entreprises un accès sécurisé et sans serveur au modèle open source le plus avancé de Meta, Llama 3.1 405B. Parallèlement, la société rend open source sa pile d’optimisation d’inférence et de fine-tuning pour les grands modèles de langage, démocratisant ainsi l’accès aux IA génératives pour les entreprises et la communauté open source.

Lancée en novembre dernier, Snowflake Cortex AI est une suite de fonctionnalités d’IA entièrement gérées, conçues pour permettre aux entreprises de créer et de déployer des applications d’IA génératives de manière sécurisée et sans serveur. Le service propose une interface de développement sans code, accessible aux utilisateurs de tous niveaux techniques. Il donne accès à des LLM de pointe, notamment ceux de Mistral AI, de Google et AI21 Labs, mais également à Snowflake Arctic, à Llama 3 (8B et 70B), aux LLM Reka-Core et désormais à la famille Llama 3.1.

Une collaboration stratégique pour l’innovation

Développée en collaboration avec des acteurs clés de l’IA, dont DeepSpeed, Hugging Face et vLLM, la pile d’optimisation de Snowflake offre des outils et des technologies pour optimiser l’inférence et le fine-tuning des LLMs de manière efficace et rentable. Cette initiative s’inscrit dans le cadre de l’engagement de Snowflake à fournir des solutions de pointe en matière d’intelligence artificielle tout en favorisant l’innovation ouverte.

Caractéristiques techniques et avantages

Optimisation de l’Inférence

  • Réduction de la latence : La pile permet de réduire la latence d’inférence jusqu’à trois fois par rapport aux solutions open source existantes, offrant ainsi une performance en temps réel indispensable pour les applications critiques ;
  • Augmentation du débit : Avec une amélioration du débit de 1,4 fois, les utilisateurs peuvent traiter un volume plus important de requêtes en moins de temps, optimisant ainsi l’efficacité opérationnelle.

Fine-tuning efficace

  • Utilisation minimale de ressources : Le fine-tuning des modèles massifs peut désormais être réalisé en utilisant un seul nœud GPU, réduisant considérablement les coûts et la complexité.
  • Support de fenêtres de contexte étendu : Avec une prise en charge des fenêtres de contexte allant jusqu’à 128K, les modèles peuvent gérer des contextes plus larges et produire des résultats plus cohérents et pertinents.

Llama 3.1 405B a ainsi été optimisé pour l’inférence en temps réel et à haut débit avec une fenêtre de contexte massive de 128K à l’aide d’un seul nœud GPU au sein de Cortex AI.

Vivek Raghunathan, VP of AI Engineering chez Snowflake, commente :

“Nous ne nous contentons pas de fournir les modèles de pointe de Meta à nos clients via Snowflake Cortex AI. Nous armons les entreprises et la communauté de l’IA avec de nouvelles recherches et un code open source supportant des fenêtres de contexte de 128K, l’inférence multi-nœuds, le parallélisme de pipeline, la quantization en virgule flottante de 8 bits, et bien plus, afin de faire progresser l’intelligence artificielle pour l’écosystème global.”

Engagement en matière de sécurité et de confiance

Snowflake a également intégré des mécanismes de sécurité avancés dans sa pile open source avec Snowflake Cortex Guard. Pour développer cette nouvelle fonctionnalité, l’entreprise a utilisé Llama Guard 2 de Meta, qui recourt à des algorithmes avancés pour détecter et filtrer automatiquement les contenus potentiellement nuisibles, offensants ou inappropriés dans les sorties des modèles de langage. Les applications d’IA construites sur cette pile sont ainsi protégées contre les contenus nuisibles.

Ryan Klapper, leader IA chez Hakkoda, assure :

“La sécurité et la confiance sont des impératifs business lorsqu’il s’agit d’exploiter l’intelligence artificielle générative, et Snowflake nous offre les garanties nécessaires pour innover et utiliser à grande échelle des grands modèles de langage de pointe. La combinaison des modèles Llama de Meta au sein de Snowflake Cortex AI nous ouvre encore plus de possibilités pour des applications internes basées sur les RAG, permettant à nos parties prenantes d’accéder à des informations précises et pertinentes”.

Snowflake annonce l'intégration de Llama 3.1 et l'open source de sa pile d'optimisation d'inférence
  • ✇ActuIA
  • Mistral AI annonce deux nouveaux modèles open source : Codestral Mamba 7B et Mathstral 7B
    Mistral AI a annoncé ce 16 juillet dernier deux nouveaux LLM publiés sous licence Apache 2.0 : Codestral Mamba 7B et Mathstral 7B. Le premier utilise la nouvelle architecture Mamba introduite fin 2023 par les chercheurs de renom Albert Gu et Tri Dao, et est destiné à la génération de code comme son prédécesseur Codestral. Mathstral, basé sur Mistral 7B, est un modèle spécialisé dans les tâches mathématiques et scientifiques, développé dans le cadre de la collaboration de Mistral AI avec le Proje

Mistral AI annonce deux nouveaux modèles open source : Codestral Mamba 7B et Mathstral 7B

Par : Thomas Calvi
19 juillet 2024 à 14:00

Mistral AI a annoncé ce 16 juillet dernier deux nouveaux LLM publiés sous licence Apache 2.0 : Codestral Mamba 7B et Mathstral 7B. Le premier utilise la nouvelle architecture Mamba introduite fin 2023 par les chercheurs de renom Albert Gu et Tri Dao, et est destiné à la génération de code comme son prédécesseur Codestral. Mathstral, basé sur Mistral 7B, est un modèle spécialisé dans les tâches mathématiques et scientifiques, développé dans le cadre de la collaboration de Mistral AI avec le Projet Numina.

Codestral Mamba 7B : une architecture innovante

Codestral Mamba se distingue par une approche radicalement différente de celle des modèles Transformer traditionnels. Mistral AI explique :

Contrairement aux modèles Transformer, les modèles Mamba offrent l’avantage de l’inférence temporelle linéaire et la capacité théorique de modéliser des séquences de longueur infinie. Ils permettent aux utilisateurs d’interagir de manière approfondie avec le modèle avec des réponses rapides, quelle que soit la longueur d’entrée. Cette efficacité est particulièrement pertinente pour les cas d’utilisation de la productivité du code. C’est pourquoi nous avons formé ce modèle avec des capacités avancées de code et de raisonnement, lui permettant d’être aussi performant que les modèles basés sur les transformateurs SOTA”.

Performances du modèle

Codestral Mamba a été soumis à des benchmarks détaillés, testant sa capacité de récupération contextuelle jusqu’à 256 000 jetons. Les résultats confirment son potentiel en tant qu’assistant de code local et sa capacité à gérer des tâches complexes.

Le modèle a démontré des performances supérieures aux modèles open source concurrents CodeLlama 7B, CodeGemma-1.17B et DeepSeek dans les tests HumanEval.

Disponibilité

Codestral Mamba a été publié sous la licence Apache 2.0, offrant une liberté complète d’utilisation et de modification. Il est disponible à des fins de tests sur la plateforme de Mistral AI et sur Hugging Face, où il peut être déployé en utilisant le SDK mistral-inférence, qui s’appuie sur les implémentations de référence du dépôt GitHub de Mamba. Il peut également l’être sur TensorRT-LLM pour ceux qui préfèrent cette option de déploiement et bientôt sur llama.cpp pour l’inférence locale.

Mathstral 7B : une avancée dans les problèmes mathématiques complexes

Mathstral est une contribution significative de Mistral AI à la communauté scientifique, destinée à résoudre des problèmes mathématiques avancés nécessitant un raisonnement logique complexe et multi-étapes.

Basé sur Mistral 7B, disposant d’une fenêtre contextuelle de 32 000 jetons, Mathstral excelle dans les matières STEM, atteignant des performances de pointe dans sa catégorie. Il a obtenu 56,6 % sur MATH et 63,47 % sur MMLU.

Avec un calcul plus intensif au moment de l’inférence, le modèle peut atteindre des scores encore plus élevés : MATH avec vote majoritaire: 68,37%, MATH avec un modèle de récompense fort parmi 64 candidats: 74,59%.

Mathstral illustre les excellents compromis performance/vitesse obtenus en construisant des modèles pour des objectifs spécifiques, une philosophie que Mistral AI promeut activement. Les poids de Mathstral sont disponibles sur HuggingFace, et le modèle peut être utilisé tel quel ou affiné avec mistral-inference et mistral-finetune.

Mistral AI annonce deux nouveaux modèles open source Codestral Mamba 7B et Mathstral 7B
  • ✇ActuIA
  • HeatWave GenAI d’Oracle : vers une démocratisation de l’IA générative en entreprise
    Oracle a récemment annoncé la disponibilité générale de HeatWave GenAI. Le service de base de données HeatWave intègre désormais des grands modèles de langage (LLM), un dépôt de vecteurs automatisé et évolutif, ainsi que des capacités de conversation contextuelle en langage naturel. Ces nouvelles fonctionnalités permettent aux entreprises d’exploiter la puissance de l’IA générative avec leurs propres données, sans nécessiter d’expertise en IA ni de transférer leurs données vers des bases de donn

HeatWave GenAI d’Oracle : vers une démocratisation de l’IA générative en entreprise

11 juillet 2024 à 09:30

Oracle a récemment annoncé la disponibilité générale de HeatWave GenAI. Le service de base de données HeatWave intègre désormais des grands modèles de langage (LLM), un dépôt de vecteurs automatisé et évolutif, ainsi que des capacités de conversation contextuelle en langage naturel. Ces nouvelles fonctionnalités permettent aux entreprises d’exploiter la puissance de l’IA générative avec leurs propres données, sans nécessiter d’expertise en IA ni de transférer leurs données vers des bases de données vectorielles externes.

Une IA générative directement dans la base de données

HeatWave GenAI marque un tournant dans la manière dont les entreprises peuvent utiliser l’IA. En intégrant des LLM directement dans HeatWave, Oracle simplifie le développement d’applications d’IA génératives.

Ces LLM en base de données ont un ensemble de paramètres plus petit et sont des LLM quantifiés qui fonctionnent sur les mêmes ressources de calcul que les opérations de la base de données. Des versions quantifiées de Mistral-7B-Instruct et Llama3-8B-Instruct, par exemple, offrent un bon compromis entre coût et qualité de réponse et sont disponibles dans toutes les régions où HeatWave est disponible.

Les entreprises peuvent désormais rechercher des données, générer ou synthétiser du contenu, et effectuer des tâches de récupération augmentée par génération (RAG) sans quitter la base de données. Cette intégration permet également de combiner l’IA générative avec d’autres fonctionnalités de HeatWave, telles que AutoML, pour créer des applications encore plus riches.

Automatisation et performance avec le dépôt de vecteurs

Le dépôt de vecteurs de HeatWave GenAI permet aux entreprises d’utiliser l’IA générative avec leurs documents commerciaux sans avoir à déplacer leurs données. Toutes les étapes de création de dépôts de vecteurs et d’intégrations vectorielles sont automatisées et exécutées à l’intérieur de la base de données. Cela inclut le repérage des documents dans le stockage d’objets, leur analyse, la génération d’intégrations et leur insertion dans le dépôt de vecteurs. Cette automatisation rend HeatWave Vector Store efficace et facile à utiliser.

Traitement vectoriel évolutif pour des résultats rapides et précis

Le traitement vectoriel évolutif de HeatWave GenAI offre des résultats de recherche sémantique extrêmement rapides sans compromettre la précision. Grâce à l’implémentation optimisée de la fonction de distance et à la représentation en colonnes hybride en mémoire, les requêtes sémantiques peuvent être effectuées avec du code SQL standard. La capacité d’évoluer jusqu’à 512 nœuds HeatWave permet de maintenir des performances élevées, garantissant des réponses rapides et pertinentes aux utilisateurs.

HeatWave Chat : interaction naturelle avec les données

HeatWave Chat est un module d’extension de code visuel pour MySQL Shell, offrant une interface graphique pour HeatWave GenAI. Ce module permet aux développeurs de poser des questions en langage naturel ou en SQL, facilitant une conversation contextuelle. Le navigateur Lakehouse intégré permet aux utilisateurs de sélectionner des fichiers dans le stockage d’objets et de créer un dépôt de vecteurs. Les utilisateurs peuvent ainsi effectuer des recherches dans l’ensemble de la base de données, tout en tenant compte de l’historique des questions posées et des citations des documents sources.

Performances supérieures et réduction des coûts

Selon Oracle, les tests indépendants réalisés ont démontré des avantages significatifs en termes de performance et de coûts : HeatWave GenAI est jusqu’à 30 fois plus rapide et 25 % moins cher que Snowflake, 15 fois plus rapide et 85 % moins cher que Databricks, et 18 fois plus rapide et 60 % moins cher que Google BigQuery. La création de dépôts de vecteurs est jusqu’à 23 fois plus rapide et représente un quart du coût d’utilisation de la base de connaissances pour Amazon Bedrock.

HeatWave GenAI d’Oracle représente une avancée significative dans le domaine de l’IA générative, offrant aux entreprises des outils puissants pour exploiter leurs données sans complexité supplémentaire. Cette nouvelle solution est disponible immédiatement dans toutes les régions d’Oracle Cloud et sans frais supplémentaires pour les clients HeatWave.

HeatWave GenAI Oracle vers une démocratisation de l'IA générative en entreprise
  • ✇ActuIA
  • Choisir un modèle d’IA générative pour son entreprise : le guide du Hub France IA
    Le Hub France IA vient de publier un guide essentiel pour les organisations cherchant à intégrer des modèles d’IA générative, en particulier les “Large Language Models” (LLM), dans leurs opérations. Ce document, élaboré par le groupe de travail IA Générative du Hub France IA, offre des recommandations détaillées et une méthodologie éprouvée pour aider les entreprises, collectivités et autres entités à faire des choix éclairés. Association à but non lucratif créée en 2017, le Hub France IA fédèr

Choisir un modèle d’IA générative pour son entreprise : le guide du Hub France IA

10 juillet 2024 à 09:30

Le Hub France IA vient de publier un guide essentiel pour les organisations cherchant à intégrer des modèles d’IA générative, en particulier les “Large Language Models” (LLM), dans leurs opérations. Ce document, élaboré par le groupe de travail IA Générative du Hub France IA, offre des recommandations détaillées et une méthodologie éprouvée pour aider les entreprises, collectivités et autres entités à faire des choix éclairés.

Association à but non lucratif créée en 2017, le Hub France IA fédère plus de 200 membres et 50 partenaires afin d’accélérer le développement de propositions et de solutions concrètes aux niveaux national et européen. Il agit pour faire émerger une IA de confiance et souveraine, respectueuse des citoyens, au service des entreprises et du secteur public.

Les actions prioritaires de l’association suivent 3 axes :

• Assurer une veille de l’écosystème, des technologies et du réglementaire en interaction étroite avec les autorités compétentes en France et en Europe ;
• Favoriser les synergies entre les différents acteurs de l’écosystème IA français et européen ;
• Accompagner l’adoption de l’IA et la montée en compétences par la production de communs utiles à tous.

Dans ce livrable, il adresse une des problématiques actuellement rencontrées par les entreprises françaises de toute taille et tout secteur : comment faire pour choisir entre les différents LLM ?

Une réponse aux besoins des organisations

Composé d’une quinzaine de membres, le groupe de travail IA Générative s’est réuni chaque semaine pendant plusieurs mois pour préparer ce guide. Leur objectif : fournir aux organisations un outil complet pour naviguer dans le paysage complexe des LLM. Ce travail fait suite à un livrable précédent publié en février 2024, qui portait sur les usages des IA génératives.

Pour élaborer ce guide, le groupe a mené une enquête approfondie auprès des organisations afin de comprendre leurs critères de choix les plus importants. Les résultats de cette enquête constituent la première partie du document.

Comment choisir son LLM ?

Le guide est structuré en cinq parties principales :

  1. Résultats de l’enquête : Cette section présente la méthodologie et les résultats de l’enquête menée auprès des organisations, identifiant les critères cruciaux pour le choix des modèles d’IA.
  2. Cartographie des benchmarks : Le document offre une vue d’ensemble des benchmarks de référence qui peuvent être utilisés pour tester la performance des différents modèles de LLM.
  3. Grille d’évaluation des modèles : Basée sur les critères identifiés par l’enquête, cette grille permet d’évaluer les modèles selon divers aspects tels que la sécurité des données, la conformité légale, les infrastructures, le business model, l’accompagnement des clients et les considérations écologiques.
  4. Échanges avec les fournisseurs : Cette partie restitue les échanges avec les principaux fournisseurs de LLM, structurés selon la grille d’évaluation, offrant ainsi une perspective pratique sur l’application des critères de choix.
  5. Analyse détaillée des résultats : Le guide partage une analyse approfondie des résultats pour chaque fournisseur, aidant les organisations à prendre des décisions éclairées.

Principaux enseignements

Le guide met en lumière plusieurs enseignements clés :

  • Critères de choix multiples : La performance d’un modèle ne doit pas être le seul critère de sélection. La sécurité des données, le respect des réglementations, l’adaptation aux infrastructures existantes et le coût sont également essentiels ;
  • Importance des benchmarks : Bien que les benchmarks soient utiles, ils doivent être complétés par des interactions directes avec les fournisseurs de modèles ;
  • Absence de fournisseur parfait : Aucun fournisseur ne se distingue comme étant le meilleur dans tous les aspects.

Le guide recommande d’adopter une approche méthodologique :

  • Définir les cas d’usage spécifiques ;
  • Lister les critères de choix pertinents pour ces cas d’usage ;
  • Consulter les benchmarks appropriés ;
  • Affiner l’analyse en se référant aux critères spécifiques.

Ce guide représente un outil précieux pour les organisations souhaitant s’assurer de sélectionner le modèle le plus adapté à leurs besoins spécifiques. Vous pouvez le retrouver ici.

Choisir un modèle d’IA générative pour son entreprise le guide du Hub France IA

Partenariat Dassault Systèmes et Mistral AI : jumeaux numériques et LLM pour des solutions industrielles fiables et durables

2 juillet 2024 à 12:00

Dassault Systèmes et Mistral AI ont annoncé le 1er juillet un partenariat stratégique destiné à offrir des solutions industrielles fiables basées sur l’IA générative. Combinant l’expertise en jumeaux virtuels et l’infrastructure cloud souveraine de Dassault Systèmes avec les grands modèles de langage (LLM) avancés de Mistral AI, il vise à accélérer le déploiement de l’IA générative dans le secteur industriel. 

Dassault Systèmes est un éditeur de logiciels spécialisé dans la conception 3D, le maquettisme numérique 3D et les solutions pour la gestion du cycle de vie d’un produit. Depuis 1981, il permet aux particuliers et aux entreprises de proposer des innovations durables dans les domaines de l’industrie manufacturière, des sciences de la vie et de la santé, ainsi que des villes et des territoires. Sa plateforme 3DEXPERIENCE permet aux utilisateurs de collaborer et d’innover dans un environnement virtuel.

Selon l’éditeur, “À l’ère de l’économie générative, l’industrie doit évoluer du produit vers l’expérience et la durabilité en s’appuyant sur les univers virtuels pour élargir et améliorer le monde réel”. Les grands modèles de langage (LLM) tels que ceux de Mistral AI, sont pour lui une opportunité pour accélérer ce processus.

Le partenariat formé par Dassault Systèmes et Mistral AI vise donc à proposer au marché :

  • Une nouvelle offre OUTSCALE baptisée « Large Language Models as a Service » (LMaaS) : s’appuyant sur l’infrastructure cloud souveraine OUTSCALE de Dassault Systèmes, cette solution permet aux LLM commerciaux de Mistral AI de se conformer aux normes de sécurité et de conformité les plus strictes, dont SecNumCloud, élaborée par l’Agence nationale de la sécurité des systèmes d’information (ANSSI), qui vise à garantir la robustesse et la sécurité des solutions cloud face aux cyberattaques.
  • Des expériences génératives optimisées par les LLM : ces expériences permettront aux 350 000 clients industriels de Dassault Systèmes d’accéder à de gigantesques bases de données pour transformer leurs opérations vers une approche plus durable.

Arthur Mensch, PDG et cofondateur de Mistral AI, affirme :

“Nous nous réjouissons de nouer ce partenariat avec Dassault Systèmes et de réaffirmer notre engagement mutuel en faveur des performances, de l’efficacité, de la sécurité et de la confidentialité que l’intelligence artificielle générative apporte au plus grand nombre. En nous appuyant sur l’infrastructure souveraine et les solutions industrielles de Dassault Systèmes, nous franchissons une nouvelle étape dans notre mission commune qui consiste à favoriser l’utilisation de l’IA générative de pointe par le plus grand nombre”.

Florence Hu-Aubigny, Directrice Générale Adjointe, Recherche et Développement, Dassault Systèmes, conclut :

“Nous poursuivons notre démarche en vue de réinventer les industries au niveau mondial grâce à des jumeaux virtuels alimentés par l’IA. Le partenariat avec Mistral AI, nous permettra d’offrir des expériences génératives fiables, en proposant une combinaison unique de modélisation scientifique, de simulation et d’IA — et notamment des grands modèles de langage — au sein d’un environnement souverain avec OUTSCALE. Ce partenariat souligne notre engagement à bâtir un écosystème technologique solide au bénéfice de solutions industrielles basées sur l’IA”.

Partenariat-Dassault-Systemes-Mistral AI
  • ✇Intelligence artificielle
  • LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts
    Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous ! Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’

LLMLingua – Compresser les prompts pour accélérer les LLM et réduire les coûts

Par : Korben
20 mai 2024 à 09:00

Vous êtes-vous déjà retrouvé frustré par les limites de tokens lorsque vous demandiez à ChatGPT de résumer de longs textes ? Ou découragé par les coûts élevés de l’API GPT-3.5/4 malgré d’excellents résultats ? Si c’est le cas, LLMLingua est fait pour vous !

Développé par des chercheurs de Microsoft, LLMLingua-2 est un outil révolutionnaire de compression de prompts qui permet d’accélérer l’inférence des grands modèles de langage (LLM) comme GPT-3 et GPT-4. Grâce à des techniques avancées d’identification et de suppression des tokens non essentiels, il peut réduire jusqu’à 20 fois la taille des prompts, tout en préservant les performances des modèles.

Que vous soyez un développeur cherchant à optimiser ses coûts d’API ou un utilisateur souhaitant dépasser les limites de contexte, LLMLingua vous offre de nombreux avantages :

  • 💰 Réduction des coûts : En compressant à la fois les prompts et les réponses générées, LLMLingua permet de réaliser des économies significatives sur votre facture d’API.
  • 📝 Support de contextes étendus : Fini le casse-tête du « perdu au milieu » ! LLMLingua gère efficacement les longs contextes et booste les performances globales.
  • ⚖️ Robustesse : Pas besoin d’entraînement supplémentaire pour les LLM. LLMLingua fonctionne de manière transparente.
  • 🕵️ Préservation des connaissances : Toutes les informations clés des prompts originaux, comme l’apprentissage en contexte et le raisonnement, sont conservées.
  • 📜 Compression du cache KV : Le processus d’inférence est accéléré grâce à l’optimisation du cache clé-valeur.
  • 🪃 Récupération complète : GPT-4 est capable de reconstituer l’intégralité des informations à partir des prompts compressés. Bluffant !

Prenons un exemple simple et imaginons que vous vouliez compresser le prompt suivant avec LLMLingua :

python from llmlingua import PromptCompressor

llm_lingua = PromptCompressor()

prompt = "Sam a acheté une douzaine de boîtes contenant chacune 30 surligneurs, pour 10 $ chacune..."

compressed_prompt = llm_lingua.compress_prompt(prompt)

print(compressed_prompt)

Et voilà le travail ! En quelques lignes de code, vous obtenez un prompt compressé prêt à être envoyé à votre modèle favori :

Sam acheté boîtes contenant chacune 30 surligneurs, 10 $ chacune.

Avec un taux de compression de 11,2x, le nombre de tokens passe de 2365 à seulement 211 ! Et ce n’est qu’un début. Sur des exemples plus complexes comme les prompts Chain-of-Thought, LLMLingua maintient des performances similaires avec un taux de compression allant jusqu’à 20x.

Alors bien sûr, pour l’avoir bien testé, faut quand même comprendre que vous n’obtiendrez pas forcement un résultat identique entre le prompte compressé et celui non compressé mais pour un gain de 60 / 70 voire 80%, le résultat généré à partir du prompt compressé reste précis à hauteur de 70 / 80 %, ce qui est très bien.

Pour démarrer avec LLMLingua, rien de plus simple. Installez le package avec pip :

pip install llmlingua

Puis laissez libre cours à votre créativité ! Que vous soyez un adepte du Retrieval Augmented Generation (RAG), des réunions en ligne, du Chain-of-Thought ou même du code, LLMLingua saura répondre à vos besoins. De nombreux exemples et une documentation complète sont à votre disposition pour vous guider.

Perso, je l’ai testé sur de longs prompts que j’avais dans mes scripts, avec Claude3 d’ailleurs et pas ChatGPT et le résultat est top !

A tester ici !

  • ✇ActuIA
  • Microsoft présente Phi-3, la nouvelle génération de ses modèles de langage de petite taille
    Les grands modèles de langage (LLM) présentent des capacités impressionnantes dans différents domaines mais les modèles plus petits (SLM) sont une alternative intéressante pour les entreprises qui peuvent les exploiter à moindre coût pour des tâches spécifiques. Microsoft, qui a introduit le SLM Phi-1 en juin 2023, a présenté le 23 avril dernier la famille de modèles ouverts Phi-3. Le plus petit d’entre eux, Phi-3 mini, d’ores et déjà disponible, compte 3,8 milliards de paramètres et, grâce à sa

Microsoft présente Phi-3, la nouvelle génération de ses modèles de langage de petite taille

25 avril 2024 à 10:30

Les grands modèles de langage (LLM) présentent des capacités impressionnantes dans différents domaines mais les modèles plus petits (SLM) sont une alternative intéressante pour les entreprises qui peuvent les exploiter à moindre coût pour des tâches spécifiques. Microsoft, qui a introduit le SLM Phi-1 en juin 2023, a présenté le 23 avril dernier la famille de modèles ouverts Phi-3. Le plus petit d’entre eux, Phi-3 mini, d’ores et déjà disponible, compte 3,8 milliards de paramètres et, grâce à sa petite taille, peut être déployé en local sur un téléphone ou un ordinateur.

Microsoft présente les modèles Phi-3 comme “les modèles de langage de petite taille les plus performants et les plus rentables disponibles”.

Phi-3 Mini est un modèle de transformateur avec décodeur dense, affiné grâce au fine-tuning supervisé (SFT) et l’optimisation directe des préférences (DPO) pour garantir l’alignement avec les préférences humaines et les directives de sécurité. Il est disponible sur Azure AI StudioHugging Face et Ollama.

Il a été entraîné pendant sept jours sur 512 GPU NVIDIA H100 Tensor Core, NVIDIA nous a d’ailleurs précisé qu’il était possible de l’essayer sur ai.nvidia.com où il sera packagé en tant que NVIDIA NIM, “un microservice avec une interface de programmation d’application standard qui peut être déployé n’importe où”.

Dans leur rapport technique, les chercheurs expliquent que “L’innovation réside entièrement dans notre jeu de données pour l’entraînement, une version agrandie de celle utilisée pour PHI-2, composé de données web fortement filtrées et de données synthétiques“.

Le modèle, entraîné sur 3,3 trillions de jetons, a également été aligné pour la robustesse, la sécurité et le format de chat. Sa fenêtre contextuelle, qui peut aller de 4 000 jusqu’à 128 000 jetons, lui permet d’assimiler et de raisonner sur des contenus textuels volumineux (documents, pages Web, code…). Selon Microsoft, Phi-3-mini démontre de solides capacités de raisonnement et de logique, ce qui en fait un bon candidat pour les tâches analytiques.

Des performances solides malgré une petite taille

Microsoft a partagé dans son blog les performances de Phi-3 mini, mais également celles de Phi-3-small (7B) et Phi-3-medium (14B) qui seront prochainement disponibles et ont été entraînés sur 4,8 trillions de tokens.

Les performances des modèles Phi-3 ont été comparées à celles de Phi-2, Mistral-7b, Gemma-7B, Llama-3-instruct-8b, Mixtral-8x7b, GPT-3.5 Turbo et Claude-3 Sonnet. Tous les chiffres déclarés sont produits avec le même pipeline afin qu’ils soient effectivement comparables.

Phi-3-mini surpasse Gemma-7B et Mistral-7B sur certains benchmarks de référence comme MMLU, tandis que Phi-3-small et Phi-3-medium, nettement plus performants, surpassent les modèles beaucoup plus grands, y compris GPT-3.5 Turbo.  Cependant, du fait de leur petite taille, les modèles Phi-3 sont moins compétitifs pour les tâches axées sur les connaissances factuelles, telles que celles évaluées dans TriviaQA.

Toutefois, leurs capacités dans de nombreux autres domaines, les rendent particulièrement utiles dans des scénarios où la taille du modèle et les ressources disponibles sont des facteurs critiques, comme dans les environnements à ressources limitées ou les applications nécessitant des temps de réponse rapides.

Microsoft-presente-Phi-3
  • ✇Intelligence artificielle
  • PyTorch dévoile Torchtune pour fine-tuner les LLM
    PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête. Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des

PyTorch dévoile Torchtune pour fine-tuner les LLM

Par : Korben
19 avril 2024 à 10:18

PyTorch, le framework chouchou des bidouilleurs d’IA, vient de nous pondre un petit truc cool : Torchtune ! 💎 Cette nouvelle bibliothèque native, encore en phase alpha mais déjà disponible en open-source sur GitHub, va vous permettre de fine-tuner les gros modèles de langage (LLM) comme un pro, sans vous prendre la tête.

Torchtune est donc une boîte à outils hyper flexible et modulaire qui va vous permettre de vous éclater à customiser des modèles pour vos propres besoins, le tout avec des recettes mémoire efficaces qui tournent même sur une bête carte graphique de gamer, comme les NVidia 3090/4090.

Son secret ?

Une architecture bien pensée qui mise sur l’interopérabilité avec l’écosystème des LLM, qu’ils soient open-source ou non. Concrètement, ça veut dire que vous allez pouvoir brancher Torchtune à tout un tas d’outils et de frameworks que vous adorez déjà, comme Hugging Face 🤗, PyTorch FSDP 🪢, Weights & Biases 📈, et plein d’autres.

Grâce à des recettes simples et bien documentées pour les modèles populaires comme Llama 3, Mistral ou Gemma 7B, même les débutants vont pouvoir se lancer dans l’aventure sans flipper. Bon OK, il faudra quand même un peu de bagage en PyTorch et en LLM, mais rien d’insurmontable ! Et si vous êtes un pro, vous allez pouvoir hacker le code à volonté pour l’adapter à vos besoins spécifiques.

Alors comment on met les mains dans le cambouis avec Torchtune ?

Rien de plus simple, mon cher Watson ! Il vous suffit d’installer la dernière version stable de PyTorch (2.2.2 au moment où j’écris ces lignes), puis de télécharger Torchtune depuis PyPI avec un petit

pip install torchtune

Et voilà, vous êtes prêt à en découdre avec les LLM !

Pour vous faire les dents, je vous conseille de jeter un œil au tutoriel sur le fine-tuning de Llama2 7B. C’est le parfait point de départ pour comprendre comment Torchtune fonctionne et comment l’utiliser pour vos propres projets.

En gros, ça se passe en 4 étapes :

  1. Téléchargez le modèle pré-entraîné et le tokenizer depuis Hugging Face Hub avec tune download.
  2. Choisissez une recette de fine-tuning (LoRA, QLoRA, full…) et customisez-la avec un fichier de config en YAML.
  3. Lancez l’entraînement avec tune run en précisant votre recette et votre config. Vous pouvez même faire du multi-GPU avec torchrun !
  4. Admirez le résultat et testez votre modèle fine-tuné avec une inférence locale. Si tout se passe bien, exportez-le avec ExecuTorch pour le déployer en prod, ou utilisez les API de quantification de Torchao pour l’exporter en int4 ou int8 et l’utiliser sur mobile ou en edge.

Facile, non ? 😄

Bon OK, j’avoue, j’ai un peu simplifié. En vrai, il y a pas mal de subtilités et de paramètres à régler pour obtenir les meilleurs résultats, comme le learning rate, le nombre d’époques, la taille du batch, le ratio de LoRA, et tout un tas d’autres trucs, mais c’est justement sa flexibilité qui vous permet d’expérimenter à l’infini pour trouver la combinaison parfaite.

Bref, si vous êtes dev et que vous aimez jouer avec les LLM c’est à tester.

Source

  • ✇ActuIA
  • Débloquer la puissance de l’IA mobile
    Si les appareils mobiles ont considérablement évolué depuis le premier iPhone, ils n’ont toujours pas la puissance de calcul nécessaire pour exploiter pleinement les grands modèles de langage (LLM) contemporains. La solution pour maximiser le potentiel de l’IA sur mobile et en périphérie ne réside pas dans la puissance de calcul pure, mais dans une approche stratégique de l’architecture du modèle, de la gestion des données et de l’exploitation des capacités de calcul issues d’un appareil. Un clo

Débloquer la puissance de l’IA mobile

5 avril 2024 à 10:00

Si les appareils mobiles ont considérablement évolué depuis le premier iPhone, ils n’ont toujours pas la puissance de calcul nécessaire pour exploiter pleinement les grands modèles de langage (LLM) contemporains. La solution pour maximiser le potentiel de l’IA sur mobile et en périphérie ne réside pas dans la puissance de calcul pure, mais dans une approche stratégique de l’architecture du modèle, de la gestion des données et de l’exploitation des capacités de calcul issues d’un appareil.

Un cloud indépendant pour l’IA mobile

Une véritable IA mobile ne peut pas dépendre uniquement de solutions basées sur le cloud. Il ne s’agit pas seulement d’une question de connectivité, mais aussi d’efficacité, de rapidité et de confidentialité des données. L’IA qui repose sur la transmission de données à un serveur central ne peut pas répondre en temps réel. La latence introduit des lenteurs qui compromettent la fiabilité des informations générées par l’IA, sans compter les coûts de bande passante associés à la transmission constante des données.

Les serveurs cloud sont la solution appropriée pour les applications de calcul puissant, comme l’entraînement des modèles d’apprentissage profond et des LLM. À l’inverse, les opérations nécessitant une interaction immédiate entre l’IA et les utilisateurs, ainsi que d’autres processus de Machine Learning, sont traitées plus efficacement sur l’appareil, à la périphérie du réseau. Cette approche améliore les performances tout en garantissant la confidentialité des utilisateurs grâce à une simplification de la transmission des données.

L’optimisation de la performance sur les appareils mobiles

Réduire la charge de calcul de l’appareil est une autre étape critique. Des techniques comme la quantification des modèles (« quantization » en anglais) qui simplifie les modèles d’IA en optimisant ses paramètres pour réduire l’espace de stockage requis sont essentielles pour maintenir les performances sans compromettre la fonctionnalité. Le GPTQ, qui compresse les modèles après l’entraînement, LoRA, qui affine les matrices plus petites au sein d’un modèle préentraîné, et QLoRA, qui optimise l’utilisation de la mémoire du GPU pour une plus grande efficacité, représentent des options destinées à satisfaire les besoins spécifiques de chaque application.

Confidentialité, sécurité et synchronisation des données

La confidentialité, la sécurité et la synchronisation des données sont d’autres facteurs et éléments clés à prendre en compte pour le développement de l’IA mobile. La mise en place d’un chiffrement des données solide pour la préservation de la vie privée garantit la protection des informations utilisateurs, ce qui conforte l’un des principaux avantages du traitement des données au niveau local. Parallèlement, des mécanismes de synchronisation des données entre les appareils périphériques et le cloud ou les serveurs centraux garantiront l’intégrité et la cohérence des données sur l’ensemble du réseau.

Une plateforme de données unifiée capable de gérer différents types de données et qui permet aux modèles d’IA d’accéder aux données locales et d’interagir avec elles, à la fois en ligne et hors ligne, représente ainsi un avantage significatif. Cette approche améliore non seulement les performances, mais aussi l’expérience utilisateur en garantissant que les applications d’IA sont réactives, fiables et capables de fonctionner dans divers environnements.

La meilleure architecture pour l’IA mobile — et l’IA en général — est celle qui consiste à minimiser sa complexité. Plus l’architecture est simple, plus elle peut consacrer de puissance à l’IA elle-même, ce qui est particulièrement important dans un environnement mobile.

tribune_éric_delattre
  • ✇ActuIA
  • Le Monde signe un partenariat pluriannuel avec OpenAI et se dote d’une charte sur l’IA
    On savait OpenAI en tractations avec plusieurs médias pour entraîner ses LLM sur leurs publications. En France, c’est avec le journal Le Monde que le premier accord a été signé : OpenAI puisera en toute légalité dans le contenu du quotidien pour entraîner ses modèles et enrichir les réponses de ChatGPT. Le Monde, de son côté, s’assure d’une nouvelle source de revenus tout en protégeant ses droits d’auteur. Si 2023 a été l’année de l’IA générative, elle a été également celle de batailles judiciai

Le Monde signe un partenariat pluriannuel avec OpenAI et se dote d’une charte sur l’IA

15 mars 2024 à 12:30

On savait OpenAI en tractations avec plusieurs médias pour entraîner ses LLM sur leurs publications. En France, c’est avec le journal Le Monde que le premier accord a été signé : OpenAI puisera en toute légalité dans le contenu du quotidien pour entraîner ses modèles et enrichir les réponses de ChatGPT. Le Monde, de son côté, s’assure d’une nouvelle source de revenus tout en protégeant ses droits d’auteur.

Si 2023 a été l’année de l’IA générative, elle a été également celle de batailles judiciaires entre les éditeurs, les écrivains, les artistes et les acteurs de l’IA comme OpenAI, Midjourney ou Meta. OpenAI a d’ailleurs été principalement la cible de plaintes comme en témoigne celle du New York Times fin décembre dernier.

Sachant pertinemment que leurs contenus vont aller enrichir les données sur lesquelles sont entraînés les modèles d’IA, leurs auteurs entendent aujourd’hui ne pas laisser les développeurs engranger des bénéfices sur leur dos sans contrepartie. Ce que ces derniers ont compris : Google a ainsi signé en février un accord de licence avec Reddit d’un montant de 60 millions de dollars annuels pour exploiter son contenu.

OpenAI s’est dit prêt à collaborer avec les éditeurs et les créateurs “afin qu’ils tirent profit d’une technologie IA avancée et d’un nouveau modèle de revenus”.

La start-up a signé un accord avec le groupe de presse allemand Axel Springer après avoir conclu un partenariat avec l’Associated Press en juillet dernier, pour partager certains contenus et technologies d’information et examiner des cas d’utilisation potentiels de l’IA générative dans les produits et services d’actualité. Mercredi, elle a annoncé cet accord avec Le Monde mais également un partenariat avec le groupe espagnol Prisa Media.

L’accord de partenariat Le Monde-OpenAI

Les équipes du Monde vont pouvoir exploiter les technologies d’OpenAI pour développer des projets et des fonctionnalités basées sur l’IA tandis que la start-up utilisera son corpus éditorial.

Louis Dreyfus, Directeur général du Monde, et Jérôme Fenoglio, Directeur du Monde, écrivent :

“L’accord prévoit que les références aux articles du Monde soient mises en évidence et systématiquement accompagnées d’un logo, d’un lien hypertexte et des titres des articles utilisés comme références. Les contenus qui nous sont fournis par les agences de presse et les photographies publiées par Le Monde sont expressément exclus”. 

Tous deux rappellent qu’ils ont été parmi les premiers en France à signer des accords de droits voisins avec Facebook puis Google. Le droit voisin permet, depuis 2019, aux éditeurs de presse de recevoir une rémunération des plateformes du Web utilisant leurs publications datant de moins de deux ans. Le montant de celle-ci est déterminé à la suite de négociations entre éditeur et plateforme, comme dans le cadre de ce partenariat.

Ils ajoutent :

“Nous espérons que cet accord créera un précédent pour notre industrie. Avec cette première signature, il sera plus difficile pour les autres plateformes d’IA de se soustraire ou de refuser de négocier. De ce point de vue, nous sommes convaincus que l’accord est bénéfique pour l’ensemble de la profession”.

Précisant :

“Il va sans dire que ce nouvel accord, comme les précédents que nous avons signés, n’entravera en rien la liberté de nos journalistes d’enquêter sur le secteur de l’intelligence artificielle en général, et sur OpenAI en particulier”.

Une charte sur l’IA

Comme de nombreuses entreprises et éditeurs, Le Monde utilise des outils d’IA au quotidien, notamment l’outil de traduction de DeepL pour son site web et son application en anglais. Le quotidien teste également la transcription orale de ses articles français dans le cadre d’un accord avec Microsoft.

L’éditeur met l’accent sur la nécessité d’une supervision humaine dans l’utilisation de l’IA. Une fois les articles traduits par DeepL, ils sont ainsi relus par des traducteurs professionnels avant de l’être par des journalistes anglophones, ce qui a d’ailleurs permis de créer des emplois.

Sa charte sur l’IA, récemment adoptée, complète sa charte éthique et déontologique et stipule en autres :

“L’intelligence artificielle générative (…) ne peut en aucun cas remplacer les équipes éditoriales”

mais également :

 “L’utilisation de l’IA générative n’est autorisée, que dans des conditions strictement définies, comme outil d’aide à la production éditoriale”. 

Monde-signe-partenariat-pluriannuel-OpenA-charte-IA
  • ✇ActuIA
  • IA générative : Anthropic dévoile la 3ème génération de sa famille de modèles Claude
    Lundi dernier, Anthropic annonçait la dernière itération de sa famille de modèles d’IA générative : Claude 3. Le modèle se décline sous trois versions à l’instar du modèle Gemini de Google : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus, par ordre de performances. Les deux derniers modèles sont d’ores et déjà disponibles dans 159 pays, dont la France, via l’API Claude, Haiku, le plus léger, les y rejoindra prochainement. Selon Anthropic, les utilisateurs des modèles Claude 3 pourront désormai

IA générative : Anthropic dévoile la 3ème génération de sa famille de modèles Claude

6 mars 2024 à 10:32

Lundi dernier, Anthropic annonçait la dernière itération de sa famille de modèles d’IA générative : Claude 3. Le modèle se décline sous trois versions à l’instar du modèle Gemini de Google : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus, par ordre de performances. Les deux derniers modèles sont d’ores et déjà disponibles dans 159 pays, dont la France, via l’API Claude, Haiku, le plus léger, les y rejoindra prochainement.

Selon Anthropic, les utilisateurs des modèles Claude 3 pourront désormais sélectionner l’équilibre optimal entre intelligence, vitesse et coût pour leur application spécifique.

Claude 3 Haiku est le modèle le plus rapide et le plus économique : 0,25$ par million de tokens (jetons) en entrée et 1,25$ par million de tokens générés, et, selon la société, le plus rentable du marché “pour sa catégorie intelligence”. Il peut lire un article de recherche dense en informations et en données sur arXiv (environ 10 000 jetons) avec des tableaux et des graphiques en moins de trois secondes.

Claude 3 Sonnet, 2 fois plus rapide que Claude 2 et Claude 2.1 avec des niveaux d’intelligence plus élevés, combine performances et vitesse pour des tâches efficaces et à haut débit. Il excellerait dans les tâches exigeant des réponses rapides, comme la récupération de connaissances ou l’automatisation des ventes. Son coût est de 3$ par million de tokens en entrée et 15$ par million de tokens générés.

Claude 3 Opus est le modèle le plus puissant des trois mais également le plus onéreux : 15$ par million de tokens en entrée, 75$ par million de tokens générés. Il peut gérer des analyses complexes, des tâches plus longues comportant plusieurs étapes, des tâches mathématiques et de codage d’ordre supérieur.

Selon Anthropic :

“Il peut naviguer dans des invites ouvertes et des scénarios invisibles avec une fluidité remarquable et une compréhension humaine. Opus nous montre les limites extérieures de ce qui est possible avec l’IA générative”.

Les trois modèles ont une fenêtre contextuelle de 200 000 jetons d’entrée, pouvant aller jusqu’à 1 million pour des cas d’utilisation spécifiques.

Evaluations des performances des modèles Claude 3

Les modèles Claude 3 présentent des capacités accrues en matière d’analyse et de prévision, de création de contenu nuancé, de génération de code et de conversation dans des langues autres que l’anglais comme l’espagnol, le japonais et le français.

Selon les comparaisons d’Anthropic que l’on retrouve dans le tableau ci-dessous, Opus surpasse ses concurrents GPT-4 et Gemini Ultra sur la plupart des benchmarks d’évaluation courants des systèmes d’IA, notamment les connaissances expertes de premier cycle ( MMLU ou Massive Multitask Language Understanding), le raisonnement expert de niveau supérieur (GPQA) et les mathématiques de base (GSM8K).

Pour la start-up, il se rapproche de l’AGI :

“Il présente des niveaux de compréhension et d’aisance quasi-humains sur des tâches complexes, à la pointe de l’intelligence générale”.

Anthropic a tenu à préciser que des scores plus élevés pour un modèle GPT-4T plus récent avaient été rapportés.

Les trois modèles peuvent traiter un large éventail de formats visuels, notamment des photos, des tableaux, des graphiques et des diagrammes techniques. Cependant, ils ne peuvent pas générer d’images, ni traiter d’audio ou de vidéo.

Par rapport aux versions précédentes, ils font preuve d’une compréhension plus nuancée des demandes, et refusent beaucoup moins souvent de répondre à des invites inoffensives. Selon Anthropic, ils sont également beaucoup plus précis et leurs réponses plus fiables. Prochainement, il suffira de pointer sur les citations pour les retrouver dans le document traité par Claude 3.

Outre l’API Claude, Sonnet est également disponible via Amazon Bedrock et en avant-première privée sur Vertex AI Model Garden de Google Cloud, Opus et Haiku le seront également.

Anthropic conclut :

“Nous ne pensons pas que l’intelligence des modèles soit proche de ses limites et nous prévoyons de publier des mises à jour fréquentes de la famille de modèles Claude 3 au cours des prochains mois. Nous sommes également ravis de publier une série de fonctionnalités visant à améliorer les capacités de nos modèles, en particulier pour les cas d’utilisation en entreprise et les déploiements à grande échelle. Ces nouvelles fonctionnalités incluront l’utilisation d’outils (alias appel de fonction), le codage interactif (alias REPL) et des capacités agentiques plus avancées”.

Google, Anthropic et Mistral AI talonnent aujourd’hui OpenAI qui a amélioré les capacités de GPT-4 avec GPT-4 Turbo avec Vision et pourrait prochainement creuser de nouveau l’écart avec GPT-5.

IA générative Anthropic dévoile la 3ème génération de sa famille de modèles Claude
  • ✇Intelligence artificielle
  • Lumos – Le copilote IA de vos séances de surf
    Allez, aujourd’hui, on va faire un peu d’IA. J’sais pas si vous vous souvenez, mais il y a quelque temps, je vous avais fait une jolie démo de Ollama permettant de faire tourner des LLM (modèles de langage comme ChatGPT) en local avec des modèles ouvert comme Mistral ou Vigogne. Sauf que voilà, c’est pas forcément pratique à utiliser ailleurs que dans vos propres scripts. Mais c’était sans compter sur Lumos, une extension Chrome propulsée par Ollama qui permet d’avoir sous la main, votre LL

Lumos – Le copilote IA de vos séances de surf

Par : Korben
2 mars 2024 à 09:00

Allez, aujourd’hui, on va faire un peu d’IA. J’sais pas si vous vous souvenez, mais il y a quelque temps, je vous avais fait une jolie démo de Ollama permettant de faire tourner des LLM (modèles de langage comme ChatGPT) en local avec des modèles ouvert comme Mistral ou Vigogne.

Sauf que voilà, c’est pas forcément pratique à utiliser ailleurs que dans vos propres scripts. Mais c’était sans compter sur Lumos, une extension Chrome propulsée par Ollama qui permet d’avoir sous la main, votre LLM durant vos séances de surf. Ainsi, vous pourrez lui demander des résumés de longs posts de forums, de vous expliquer le dernier rapport de bug d’un projet Github, de résumer les articles trop longs à lire de korben.info ^^ ou encore lui poser des questions par rapport à de la documentation technique ou des fiches produits que vous consulteriez en ligne.

Bref, c’est génial ! Vous devrez bien évidemment avoir un Ollama fonctionnel sur votre machine… Voici d’ailleurs ma vidéo à ce sujet :

Installez ensuite l’extension sous Chrome.

Puis lancez le serveur à l’aide de cette commande :

OLLAMA_ORIGINS=chrome-extension://* ollama serve

Ou comme ceci si vous utilisez Docker:

docker run -e OLLAMA_ORIGINS="chrome-extension://*" -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Et vous pourrez ensuite profiter de la puissance du LLM de votre choix directement dans votre navigateur au travers d’une fenêtre de chat.

Si vous voulez plus d’infos, c’est par ici que ça se passe.

  • ✇ActuIA
  • CRAG : une méthode pour améliorer la génération de texte basée sur la récupération de connaissances
    La génération de texte basée sur la récupération de connaissances (RAG) permet aux LLM de produire des textes informatifs et cohérents à partir de sources externes. Cependant, la qualité des textes générés dépend fortement de la pertinence des documents récupérés. Pour pallier à ce problème, des chercheurs proposent une méthode nommée “Corrective Retrieval Augmented Generation” (CRAG), qui améliore considérablement les performances des approches basées sur la RAG, donc la précision et la fiabili

CRAG : une méthode pour améliorer la génération de texte basée sur la récupération de connaissances

20 février 2024 à 13:00

La génération de texte basée sur la récupération de connaissances (RAG) permet aux LLM de produire des textes informatifs et cohérents à partir de sources externes. Cependant, la qualité des textes générés dépend fortement de la pertinence des documents récupérés. Pour pallier à ce problème, des chercheurs proposent une méthode nommée “Corrective Retrieval Augmented Generation” (CRAG), qui améliore considérablement les performances des approches basées sur la RAG, donc la précision et la fiabilité des LLM.

Les avancées récentes dans le domaine des modèles de langage ont permis des progrès significatifs dans la génération automatique de texte. Cependant, ces modèles ne sont pas exempts de défis, notamment en ce qui concerne l’exactitude des informations générées. Lorsque les modèles se basent uniquement sur leurs connaissances internes, acquises au cours de l’entraînement, ils peuvent générer des résultats inexacts ou incohérents.

La Génération Augmentée par Récupération (RAG) a été introduite en 2020 pour améliorer la pertinence des informations produites par les LLM. Elle permet au modèle d’utiliser des sources de données externes pour générer des réponses plus précises et à jour, réduisant ainsi le phénomène d’hallucinations.

Pour l’équipe, composée de chercheurs de l’Université de Science et Technologie de Chine, de l’Université de Californie et de Google Research, “Bien que la génération augmentée de récupération (RAG) soit un complément pratique aux LLM, elle repose fortement sur la pertinence des documents récupérés, ce qui soulève des inquiétudes quant à la façon dont le modèle se comporte si la récupération tourne mal”.

Ils proposent donc la CRAG, ou génération de récupération corrective augmentée, pour améliorer la robustesse de la génération basée sur la RAG en affinant les documents pertinents récupérés et en corrigeant ceux qui sont inexacts avec la recherche sur le Web.

La CRAG combine la RAG avec un mécanisme de correction automatique. Tout d’abord, un évaluateur de récupération léger est utilisé pour estimer la pertinence des documents récupérés par rapport à la requête d’entrée, et déclencher différentes actions de récupération de connaissances selon le degré de confiance : Correct, Ambigu, Incorrect.

Si les réponses sont ambigües ou incorrectes, des recherches sur le web à grande échelle permettent d’enrichir ou corriger les résultats de la RAG.

Les chercheurs ont également conçu un algorithme de décomposition-recomposition pour affiner les informations pertinentes dans les documents récupérés. La méthode est plug-and-play et peut être couplée avec diverses approches basées sur RAG.

Evaluations de la méthode

CRAG a été testé sur quatre jeux de données couvrant diverses tâches de génération :

  • PopQA : un ensemble de données utilisé pour évaluer les modèles de génération de texte sur des tâches de réponse à des questions de format court. Il comprend une collection de questions variées auxquelles les modèles doivent répondre en utilisant des connaissances factuelles ;
  • Bio (Biography) : Le jeu de données Bio est destiné à évaluer les modèles de génération de texte sur des tâches de génération de biographies détaillées. Il contient des informations sur différentes entités, et les modèles doivent générer des biographies précises et informatives sur ces entité ;
  • Pub : un jeu de données utilisé dans le domaine de la santé pour évaluer les modèles de génération de texte sur des tâches de vérification de faits et de réponse à des questions vrai ou faux. Il contient des affirmations sur des sujets liés à la santé, et les modèles doivent déterminer si ces affirmations sont vraies ou fausses ;
  • ARC (Arc-Challenge) : ARC est un ensemble de données composé de questions à choix multiples sur des phénomènes scientifiques de bon sens quotidiens. Les modèles doivent sélectionner la réponse correcte parmi plusieurs choix pour chaque question, en se basant sur leur compréhension du contexte scientifique.

Les expériences couplant CRAG avec RAG standard et Self-RAG démontrent largement sa capacité d’adaptation aux approches basées sur RAG, et celles menées sur les quatre ensembles de données démontrent son applicabilité à travers des tâches de génération de forme courte et longue.

CRAG représente une avancée significative dans le domaine de la génération de texte, permettant d’améliorer la robustesse des modèles de langage et de produire des textes plus précis et plus pertinents. Son adaptabilité à différentes tâches de génération de texte en fait une solution prometteuse pour de nombreuses applications du traitement du langage naturel dans divers domaines.

Références de l’article :

“Corrective Retrieval Augmented Generation”  arXiv :2401.15884v1

AuteursShi-Qi Yan1, Jia-Chen Gu2, Yun Zhu3, Zhen-Hua Ling1
1 : National Engineering Research Center of Speech and Language Information Processing,
University of Science and Technology of China, Hefei, China
2 : Department of Computer Science, University of California, Los Angeles
3 : Google Research

CRAG-methode-ameliorer-generation-texte-recuperation-de-connaissances
  • ✇ActuIA
  • MGIE, le modèle d’édition d’images à partir d’invites textuelles d’Apple
    Apple semble combler son retard par rapport à Microsoft, Google ou Meta en matière de GenAI. Après le LLM multimodal Ferret open source présenté en octobre dernier, ses chercheurs ont collaboré avec ceux l’Université de Californie à Santa Barbara pour développer le modèle MGIE (MLLM-Guided Image Editing), qui permet de modifier des images à partir d’instructions textuelles. L’équipe a présenté ses travaux dans un article sur arXiv qui a été sélectionné pour la Conférence internationale sur les r

MGIE, le modèle d’édition d’images à partir d’invites textuelles d’Apple

9 février 2024 à 10:00

Apple semble combler son retard par rapport à Microsoft, Google ou Meta en matière de GenAI. Après le LLM multimodal Ferret open source présenté en octobre dernier, ses chercheurs ont collaboré avec ceux l’Université de Californie à Santa Barbara pour développer le modèle MGIE (MLLM-Guided Image Editing), qui permet de modifier des images à partir d’instructions textuelles. L’équipe a présenté ses travaux dans un article sur arXiv qui a été sélectionné pour la Conférence internationale sur les représentations de l’apprentissage 2024 (ICLR).

Les modèles de langage multimodaux de grande taille (MLLMs) peuvent comprendre naturellement les images en entrée et fournir des réponses qui tiennent compte de la visualisation, agissant ainsi comme des assistants multimodaux.

Pour trouver une solution au défi rencontré lorsque les instructions données aux modèles d’édition d’image ne sont pas assez détaillées ou précises pour produire les résultats souhaités, MGIE utilise un MLLM et un modèle de diffusion pour dériver des instructions précises et fournir un guidage visuel explicite. En s’appuyant sur l’imagination visuelle, MGIE interprète l’intention derrière les invites ambiguës pour produire rapidement des modifications d’image cohérentes et pertinentes.

Par exemple, il peut comprendre une invite telle que “sain” en se basant sur le contexte pour effectuer des éditions appropriées, comme ajouter des garnitures de légumes à une pizza.

Il est également possible d’ajuster le contraste d’une image, d’en supprimer des éléments  ou d’y en ajouter, et d’effectuer des modifications plus courantes telles que le recadrage, le redimensionnement, la rotation, le retournement et l’ajout de filtres.

Le MLLM est initialisé à partir de LLaVA-7B , tandis que le modèle de diffusion est initialisé à partir de StableDiffusion-v1.5. Les chercheurs mettent ensuite à jour conjointement ces deux modèles pour la tâche spécifique de l’édition d’image.

Vue d’ensemble de l’Édition d’Image Guidée par MLLM (MGIE), qui exploite les MLLMs pour améliorer la modification d’image basée sur les instructions. MGIE apprend à dériver des instructions expressives concises et fournit un guidage explicite lié à la visualisation pour l’objectif visé. Le modèle de diffusion est entraîné conjointement et réalise la modification d’image avec l’imagination latente à travers la tête de modification de manière bout à bout. et montre que le module est entraînable et figé, respectivement.

Evalué sur différents aspects de l’édition d’images, tels que la modification de style Photoshop, l’optimisation globale de la photo et l’altération locale des objets, sur plusieurs jeux de données, MGIE montre des améliorations significatives par rapport aux méthodes de base en termes de métriques automatiques et d’évaluation humaine.

Pour les chercheurs, il permet une retouche d’image raisonnable et peut contribuer à de  futures recherche sur la vision et le langage.

Il est accessible sur GitHub et une démo web sur Hugging Face Spaces.

Références de l’article :

“Guiding instruction-based image editing via multimodal large language models”

arXiv :2309.17102v2

Auteurs :

Tsu-Jui Fu1, Wenze Hu2, Xianzhi Du2, William Yang Wang1, Yinfei Yang2, Zhe Gan2
1Université de Californie à Santa Barbara, 2 Apple

MGIE-modele-edition-images-invites-textuelles-Apple
  • ✇ActuIA
  • Open AI annonce un GPT-4 turbo moins paresseux et des réductions de prix pour GPT-3,5 turbo
    OpenAI a récemment partagé sur son blog plusieurs améliorations concernant ses modèles d’incrustation et de modération de texte, ainsi que des mises à jour de ses modèles phares GPT-4 turbo et GPT-3,5 turbo. Ces innovations visent à offrir aux développeurs plus de performance, d’efficacité, de personnalisation et de sécurité dans leurs applications basées sur le langage naturel ou le code. OpenAI avait publié la première version de GPT-4 en mars 2023, mise à la disposition de tous les développeu

Open AI annonce un GPT-4 turbo moins paresseux et des réductions de prix pour GPT-3,5 turbo

Par : Thomas Calvi
30 janvier 2024 à 11:00

OpenAI a récemment partagé sur son blog plusieurs améliorations concernant ses modèles d’incrustation et de modération de texte, ainsi que des mises à jour de ses modèles phares GPT-4 turbo et GPT-3,5 turbo. Ces innovations visent à offrir aux développeurs plus de performance, d’efficacité, de personnalisation et de sécurité dans leurs applications basées sur le langage naturel ou le code.

OpenAI avait publié la première version de GPT-4 en mars 2023, mise à la disposition de tous les développeurs au mois de juillet suivant. Lors de sa première conférence des développeurs, OpenAI DevDay, le 6 novembre dernier, la société lançait un aperçu de la prochaine génération de ce modèle : GPT-4 Turbo.

Différents utilisateurs se sont plaints du fait que ChatGPT refusait de répondre à leurs requêtes ou ne le faisait que partiellement, les invitant à compléter les réponses.

OpenAI postait sur X le 8 décembre dernier :

“Nous avons entendu tous vos commentaires sur le fait que GPT4 devient plus paresseux ! nous n’avons pas mis à jour le modèle depuis le 11 novembre, et ce n’est certainement pas intentionnel. Le comportement du modèle peut être imprévisible, et nous cherchons à y remédier”. 

OpenAI a donc publié le 25 janvier dernier un modèle d’aperçu GPT-4 Turbo mis à jour, “gpt-4-0125-preview”, indiquant que “ce modèle effectue des tâches telles que la génération de code de manière plus approfondie que le modèle d’aperçu précédent et est destiné à réduire les cas de « paresse » lorsque le modèle n’effectue pas une tâche”. 

Les bugs dus aux difficultés rencontrées par le précédent modèle d’aperçu lors de la génération de texte dans des langues autres que l’anglais sont également corrigés.

Mise à jour du modèle GPT-3.5 turbo

OpenAI a également annoncé la sortie cette semaine d’un nouveau modèle GPT-3.5 Turbo, avec des prix réduits (coût des requêtes divisé par 2) et des améliorations de performance. Cette mise à jour vise à fournir une précision accrue des réponses et à corriger les problèmes de codage rencontrés dans la version antérieure, offrant ainsi une expérience améliorée aux utilisateurs.

Deux nouveaux modèles d’embedding à des prix inférieurs

Un embedding est une séquence de chiffres qui représente les concepts d’un contenu tel que le langage naturel ou le code. Les intégrations permettent aux modèles d’apprentissage automatique et à d’autres algorithmes de comprendre facilement les relations entre le contenu et d’effectuer des tâches telles que le regroupement ou la recherche. Ils alimentent des applications telles que la récupération de connaissances dans ChatGPT et l’API Assistants, ainsi que de nombreux outils de développement de génération augmentée de récupération (RAG).

OpenAI lance deux nouveaux modèles d’incrustation de texte : un modèle plus petit et très efficace, embedding-3-small, et un modèle plus grand et plus puissant, embedding-3-large. Ces modèles, plus performants et moins coûteux que leur prédécesseur, embedding-ada-002, offrent aux développeurs la possibilité de choisir la taille des incrustations en fonction des besoins spécifiques de leurs applications. Cette flexibilité accrue permet aux développeurs d’optimiser les performances tout en maîtrisant les coûts associés à l’utilisation des modèles d’IA.

Une meilleure gestion des clés API

Les développeurs bénéficient désormais de nouvelles fonctionnalités de gestion des clés API, leur permettant d’attribuer des autorisations spécifiques et de suivre l’utilisation des API de manière plus détaillée. Ces améliorations offrent un meilleur contrôle et une meilleure visibilité sur l’utilisation des ressources d’IA, facilitant ainsi la gestion des projets et des budgets.

OpenAI précise qu’il prévoit les mois prochains d’améliorer encore la capacité des développeurs à afficher leur utilisation des API et à gérer les clés d’API, en particulier dans les grandes entreprises.

Mise à jour du modèle de modération

OpenAI a introduit un nouveau modèle de modération plus robuste, permettant d’identifier les textes potentiellement dangereux avec une plus grande précision. Selon OpenAI, cette mise à jour témoigne de son engagement envers la sécurité et la fiabilité de ses produits, assurant ainsi une expérience utilisateur sûre et positive.

annonces-open-ai
  • ✇Intelligence artificielle
  • LM Studio – Pour faire tourner des LLMs en local et les utiliser directement dans votre code
    Avec tout ce qui se passe côté OpenAI en ce moment, je suis en train de chercher des alternatives libres pour re-brancher sur mes scripts existants qui ne demandent pas trop de réécriture. C’est simplement un principe de précaution pour ne pas être pris au dépourvu si la qualité de service baisse côté ChatGPT. Et pour ça, j’ai besoin d’un modèle de langage et d’un outil qui permette de transformer ce modèle en API que je peux appeler dans mon code. Pour l’instant, tout ceci est en phase

LM Studio – Pour faire tourner des LLMs en local et les utiliser directement dans votre code

Par : Korben
22 novembre 2023 à 10:21

Avec tout ce qui se passe côté OpenAI en ce moment, je suis en train de chercher des alternatives libres pour re-brancher sur mes scripts existants qui ne demandent pas trop de réécriture. C’est simplement un principe de précaution pour ne pas être pris au dépourvu si la qualité de service baisse côté ChatGPT.

Et pour ça, j’ai besoin d’un modèle de langage et d’un outil qui permette de transformer ce modèle en API que je peux appeler dans mon code.

Pour l’instant, tout ceci est en phase de R&D mais je me suis dit qu’un petit retour, ça vous ferait plaisir. Je suis donc parti sur un modèle OpenChat censé être aussi performant qu’un ChatGPT 3.5. Jusque là rien de compliqué.

J’ai donc fait tourner ce modèle dans llamacpp sans souci en mode discussion. Puis je suis parti en quête d’un bridge pour avoir des API. Je suis donc tombé sur Llama-cpp-python avec son option Server qui malheureusement n’a jamais voulu correctement fonctionner chez moi pour de sombres incompatibilités x64 / ARM64 même dans pyenv. Bref…

N’ayant pas le temps d’y passer des semaines, on m’a ensuite gentiment rappelé durant mon live Twitch, que je pouvais faire ça avec Ollama, ce que j’avais complètement zappé alors que j’ai fait une vidéo pour les Patreons à ce sujet (arf).

Puis Thoxy et LePopeye, lecteurs de Korben.info, m’ont recommandé un outil baptisé LM Studio dont je vais vous parler dans cet article.

LM Studio est un outil fonctionnant sous macOS, Windows et Linux qui permet très simplement de télécharger des LLMs (Large Language Models) et de les faire tourner en local. Ainsi vous pouvez discuter avec ces modèles via un chat comme vous le feriez avec ChatGPT.

Mais ce n’est pas tout puisque l’outil offre des tas de possibilités de réglages (y compris du support pour les Mac Silicon) pour optimiser le modèle. Et bien sûr, la fonctionnalité qui m’a le plus intéressé, c’est la possibilité de faire tourner un serveur local qui sert une API identique à celle de ChatGPT.

Cela permet, sans énormément de modifs dans votre code, de basculer des services d’OpenAI à une IA locale de manière transparente ou presque pour peut que vous utilisiez la lib OpenAI 0.28.1

pip install openai==0.28.1

Voici un code d’exemple qui montre comment l’appeler en Python :

import os
import openai

openai.api_base = "http://localhost:1234/v1" 
openai.api_key = "" 

completion = openai.ChatCompletion.create(
  model="local-model",
  messages=[
    {"role": "system", "content": "Always answer in rhymes."},
    {"role": "user", "content": "Introduce yourself."}
  ]
)

print(completion.choices[0].message)

Pas besoin de clé API donc. Et pas besoin de casser tout votre code. Suffit de migrer vers LM Studio. Puis c’est gratuit 🙂

Bref, j’ai fait mes tests comme ça et malheureusement pour le moment, c’est pas super concluant. L’outil répond correctement en version « chat » mais son paramétrage un peu différent en version serveur. Donc faut encore que je gratte un peu pour trouver le dressage optimale de mon IA. Mais j’y suis presque.

Si ça vous branche de tester LM Studio, c’est par ici que ça se passe.

  • ✇Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
  • Demo tuto ChatGPT
    ChatGPT : Demo simple https://www.youtube.com/watch?v=yNoN82NIly4 Chat Generative Pre-trained Transformer (ChatGPT), https://en.wikipedia.org/wiki/ChatGPT ChatGPT : Pourquoi le robot conversationnel d’OpenAI bouleverse autant la Silicon Valley https://www.20minutes.fr/high-tech/4013692-20221207-chatgpt-pourquoi-robot-conversationnel-openai-bouleverse-autant-silicon-valley ChatGPT : Qu'est-ce que c'est ? Comment l'utiliser ? (+ Cas d'utilisation) https://www.sales-hacking.com/post/chatgpt Te

Demo tuto ChatGPT

ChatGPT : Demo simple
https://www.youtube.com/watch?v=yNoN82NIly4

Chat Generative Pre-trained Transformer (ChatGPT),
https://en.wikipedia.org/wiki/ChatGPT

ChatGPT : Pourquoi le robot conversationnel d’OpenAI bouleverse autant la Silicon Valley
https://www.20minutes.fr/high-tech/4013692-20221207-chatgpt-pourquoi-robot-conversationnel-openai-bouleverse-autant-silicon-valley

ChatGPT : Qu'est-ce que c'est ? Comment l'utiliser ? (+ Cas d'utilisation)
https://www.sales-hacking.com/post/chatgpt

Test "métaphysique" par une personne technoIaCritique
https://www.richard-dern.fr/blog/2024/02/19/j-ai-discute-avec-chatgpt/

# Dev

ChatGPT - Utiliser l'IA quand on est dev et securité
https://www.youtube.com/watch?v=MUJW-90ILvo
https://www.youtube.com/watch?v=5o_sv9xo3Gs
- Tiffany Souterre (dev python, employé microsoft)
https://www.youtube.com/watch?v=16cryV3zLKk
#sketch2code #copilot (exemple utilisation sdk api vscode ) exemple bot Minecraft
- Liste IA Dévelopeur
https://www.youtube.com/playlist?list=PLdGGI4cYr7lwrFX5WBN3zrNpDJzPv_466
(Permalink)
❌
❌