ActuIA
OpenEuroLLM, une initiative européenne pour une IA transparente et souveraine
Lancé ce lundi 3 février, OpenEuroLLM est un projet collaboratif réunissant 20 institutions de recherche, entreprises et centres de calcul de premier plan. Cette initiative, qui bénéficie du soutien de la Commission européenne dans le cadre du programme pour une Europe numérique (Digital Europe), vise à développer une famille de modèles de fondation transparents et performants pour les langues européennes et d’autres langues d’intérêt social et économique, adaptés aux besoins des secteurs public

OpenEuroLLM, une initiative européenne pour une IA transparente et souveraine

Par : Marie-Claude Benoit

5 février 2025 à 14:00

Lancé ce lundi 3 février, OpenEuroLLM est un projet collaboratif réunissant 20 institutions de recherche, entreprises et centres de calcul de premier plan. Cette initiative, qui bénéficie du soutien de la Commission européenne dans le cadre du programme pour une Europe numérique (Digital Europe), vise à développer une famille de modèles de fondation transparents et performants pour les langues européennes et d’autres langues d’intérêt social et économique, adaptés aux besoins des secteurs public et privé.

Soutenir la compétitivité et la souveraineté numérique de l’UE

OpenEuroLLM s’inscrit dans une dynamique de renforcement de la compétitivité européenne en matière d’IA. En garantissant l’accessibilité, la transparence et la conformité réglementaire, le projet entend offrir une alternative robuste aux modèles propriétaires tout en préservant les valeurs et la diversité linguistique européennes.

Il est d’ailleurs le premier projet financé par Digital Europe à recevoir le label d’excellence STEP (Strategic Technologies for Europe Platform, une nouvelle initiative de l’UE visant à renforcer la compétitivité industrielle européenne en soutenant les technologies critiques, notamment l’IA).

OpenEuroLLM bénéficiera d’un budget total de 37,4 millions d’euros, dont 20,6 millions du programme pour une Europe numérique. L’entreprise commune EuroHPC fournira quant à elle un accès à ses services de calcul.

Un consortium d’acteurs clés

Coordonné par Jan Hajič de l’Université Charles en Tchéquie et co-dirigé par Peter Sarlin, le plus grand laboratoire d’IA privé d’Europe, racheté l’an dernier par le fabricant américain de puces AMD, OpenEuroLLM rassemble des partenaires prestigieux issus du monde académique, de l’industrie et des infrastructures de calcul haute performance :

Instituts de recherche et universités : Université d’Helsinki, Université d’Oslo, Fraunhofer IAIS, Institut ELLIS Tübingen, Université de technologie d’Eindhoven, entre autres.
Entreprises spécialisées : LightOn (France),Aleph Alpha (Allemagne), Prompsit Language Engineering (Espagne), ellamind (Allemagne).
Centres de calcul EuroHPC : Centre de calcul intensif de Barcelone (Espagne), Cineca (Italie), CSC (Finlande), SURF (Pays-Bas).

Peter Sarlin commente sur LinkedIn :

“Au lieu d’efforts fragmentés, il s’agit d’une action coordonnée visant à créer des modèles de langage européens ouverts que les entreprises peuvent posséder, contrôler et intégrer dans leurs produits. “

Transparence et collaboration avec la communauté Open Source

Un des piliers d’OpenEuroLLM repose sur son engagement en faveur d’une intelligence artificielle ouverte et responsable. En partenariat avec des organisations comme LAION, OpenML et open-sci, le projet veillera à ce que les modèles, les logiciels et les ensembles de données soient accessibles à tous, favorisant ainsi l’innovation et l’adaptabilité aux besoins industriels et publics.

Laurent Daudet, Directeur Général Délégué et cofondateur de LightOn, conclut :

“L’Europe dispose des talents et des ressources nécessaires pour prendre une place de choix dans cette compétition internationale autour de l’IA. Pour transformer ces efforts en un véritable levier stratégique, l’Europe doit non seulement capitaliser sur l’IA Act, véritable catalyseur de l’innovation vers une IA de confiance, mais également soutenir une approche coordonnée de ses leaders. C’est aujourd’hui rendu possible grâce au consortium OpenEuroLLM.”

ActuIA
Mistral Small 3 : la réponse open source française optimisée pour la latence aux modèles GenAI propriétaires
En fin de semaine dernière, alors que tout le monde avait les yeux rivés sur DeepSeek et son modèle R1, Mistral AI, licorne française de la GenAI, a lancé plus discrètement Mistral Small 3. Publié sous la licence Apache 2.0, ce modèle de 24 milliards de paramètres optimisé pour la latence est “une excellente alternative open source aux modèles propriétaires opaques comme GPT4o-mini” selon elle. Avec Small 3, la licorne, démontre une fois de plus que pour être performant, un LLM ne requiert pas u

Mistral Small 3 : la réponse open source française optimisée pour la latence aux modèles GenAI propriétaires

ActuIA

Par : Marie-Claude Benoit

3 février 2025 à 14:00

En fin de semaine dernière, alors que tout le monde avait les yeux rivés sur DeepSeek et son modèle R1, Mistral AI, licorne française de la GenAI, a lancé plus discrètement Mistral Small 3. Publié sous la licence Apache 2.0, ce modèle de 24 milliards de paramètres optimisé pour la latence est “une excellente alternative open source aux modèles propriétaires opaques comme GPT4o-mini” selon elle.

Avec Small 3, la licorne, démontre une fois de plus que pour être performant, un LLM ne requiert pas un nombre astronomique de paramètres. Le modèle se positionne comme une réponse aux besoins croissants d’efficacité en offrant un taux de traitement de 150 tokens par seconde, tout en affichant une précision de plus de 81 % sur le benchmark MMLU.

Cette prouesse technique est rendue possible grâce à une architecture optimisée qui réduit le nombre de couches traditionnelles, diminuant ainsi le temps de passage avant (forward pass time, ou temps nécessaire à un modèle de réseau de neurones pour traiter une entrée et produise une sortie) sans compromettre la qualité des réponses.

Ce choix architectural, qui en fait “actuellement le modèle le plus efficace de sa catégorie”, permet à la version optimisée, Mistral Small 3 Instruct, de rivaliser avec des modèles bien plus imposants comme Llama 3.3 70B ou Qwen 32B, tout en garantissant une exécution rapide et efficace sur du matériel standard.

Des applications pour divers secteurs

Le Mistral Small 3 ne se contente pas d’afficher des performances techniques remarquables : il s’inscrit également dans une logique d’adaptabilité aux besoins concrets des entreprises. Parmi les cas d’usage envisagés, plusieurs domaines se démarquent :

Assistance conversationnelle et appels de fonction : la faible latence garantit des interactions en temps réel, essentielles pour les chatbots ou assistants virtuels ;
Fine-tuning pour des expertises spécifiques : sa taille modeste facilite l’ajustement fin pour des domaines précis, comme le diagnostic médical ou le conseil juridique ;
Inférence locale : la possibilité de déployer le modèle sur du matériel accessible favorise l’usage dans des secteurs où les données sensibles nécessitent un traitement en local.

Comme les “Ministraux”, Small 3 répond également aux besoins croissants de calcul local et de protection de la vie privée : la possibilité de le déployer sur des configurations matérielles accessibles, comme une RTX 4090 ou un MacBook avec 32 Go de RAM, offre aux organisations le contrôle sur leurs données sensibles sans dépendance à une infrastructure cloud centralisée.

Une stratégie de diffusion ouverte et collaborative

Selon Mistral AI, faisant référence aux derniers modèles de DeepSeek, et au projet Open-R1,”Ce furent des jours passionnants pour la communauté open source ! Mistral Small 3 complète les grands modèles de raisonnement open source comme les récentes versions de DeepSeek, et peut servir de modèle de base solide pour faire émerger des capacités de raisonnement”.

L’entreprise a fait le choix de le publier sous la licence Apache 2.0, faisant le choix d’abandonner peu à peu sa licence plus restrictive MRL pour les modèles à usage général. Elle annonce d’ores et déjà “des modèles Mistral petits et grands avec des capacités de raisonnement améliorées dans les semaines à venir”.

Actuellement disponible sur les plateformes Hugging Face, Ollama, Kaggle, Together AI et Fireworks AI, Mistral Small 3 le sera également bientôt sur NVIDIA NIM, Amazon SageMaker, Groq, Databricks et Snowflake.

ActuIA
Gemini 2.0 Flash, le modèle qui ouvre la voie aux agents d’IA de Google
Google a annoncé ce mercredi 11 décembre le lancement de Gemini 2.0 Flash, le premier modèle de la famille Gemini 2, conçue selon lui pour l’ère agentique. Ce modèle est d’ores et déjà disponible en tant que modèle expérimental pour les développeurs et les testeurs de confiance via l’API Gemini dans Google AI Studio et Vertex AI. Sa disponibilité générale est prévue pour janvier 2025. Google a présenté Gemini il y a tout juste un an, Gemini 1.5 Flash a, quant à lui été dévoilé en mai dernier lor

Gemini 2.0 Flash, le modèle qui ouvre la voie aux agents d’IA de Google

ActuIA

Par : Marie-Claude Benoit

12 décembre 2024 à 14:00

Google a annoncé ce mercredi 11 décembre le lancement de Gemini 2.0 Flash, le premier modèle de la famille Gemini 2, conçue selon lui pour l’ère agentique. Ce modèle est d’ores et déjà disponible en tant que modèle expérimental pour les développeurs et les testeurs de confiance via l’API Gemini dans Google AI Studio et Vertex AI. Sa disponibilité générale est prévue pour janvier 2025.

Google a présenté Gemini il y a tout juste un an, Gemini 1.5 Flash a, quant à lui été dévoilé en mai dernier lors de la conférence Google I/O 2024. Optimisé pour la vitesse et l’efficacité, il a été entraîné par 1.5 Pro grâce à un processus appelé “distillation”, où les connaissances et les compétences les plus essentielles d’un modèle plus grand sont transférées vers un modèle plus petit et plus efficace.

Les performances du modèle ont été améliorées en matière de multimodalité, de texte, de code, de vidéo, de compréhension spatiale et de raisonnement tandis que la latence a été réduite. Flash 2.0 prend en charge les entrées multimodales comme les images, la vidéo et l’audio ainsi que les sorties multimodales, telles que la génération d’images combinées avec du texte et de l’audio multilingue TTS (Text-to-Speech). Il permet également l’intégration native d’outils tels que Google Search, l’exécution de code et des fonctions tierces définies par l’utilisateur.

L’équipe de recherche Gemini a comparé les performances du nouveau modèle avec celles de Gemini 1.5 Flash et Pro. Il surpasse même 1.5 Pro sur les principaux benchmarks, tout en étant deux fois plus rapide.

Projets de recherche

Google a également partagé plusieurs projets illustrant sa vision d’assistants d’IA universels, utiles au quotidien. Ces prototypes cherchent à transformer l’IA en des agents polyvalents, capables de comprendre le contexte d’une situation, de planifier des actions et d’effectuer des tâches à la place des utilisateurs, tout en interagissant de manière transparente avec d’autres systèmes.

Project Astra, présenté en mai dernier, a ainsi été mis à jour grâce aux capacités multimodales de Gemini 2.0. Ce prototype montre comment un assistant IA peut interagir dans des conversations multilingues, se souvenir de sessions passées et utiliser des outils comme Google Maps ou Lens.

Project Mariner, de son côté, explore la possibilité pour des agents IA d’assister l’utilisateur dans la navigation sur le web en analysant des éléments de page et en effectuant des actions spécifiques dans le navigateur.

Enfin, Jules, un agent de code alimenté par l’IA, assiste les développeurs. Il s’intègre dans leurs flux de travail GitHub pour gérer les corrections de bogues et autres tâches chronophages.

Gemini 2.0 Flash, le modèle qui ouvre la voie aux agents d'IA de Google

ActuIA
BitNet.cpp : le cadre open source de Microsoft pour réduire les coûts d’inférence des LLMs quantifiés à 1 bi
Microsoft a récemment publié BitNet.cpp, un cadre open-source conçu pour optimiser l’inférence des grands modèles de langage (LLM) quantifiés à 1 bit. Il permet notamment d’exécuter un modèle BitNet b1.58 de 100 milliards de paramètres sur un seul processeur, atteignant des vitesses de traitement comparables à la lecture humaine, à une cadence de 5-7 jetons par seconde, démocratisant ainsi l’accès aux LLM les plus avancés. La taille croissante des LLM pose des défis pour leur déploiement et soul

BitNet.cpp : le cadre open source de Microsoft pour réduire les coûts d’inférence des LLMs quantifiés à 1 bi

ActuIA

Par : Marie-Claude Benoit

22 octobre 2024 à 10:00

Microsoft a récemment publié BitNet.cpp, un cadre open-source conçu pour optimiser l’inférence des grands modèles de langage (LLM) quantifiés à 1 bit. Il permet notamment d’exécuter un modèle BitNet b1.58 de 100 milliards de paramètres sur un seul processeur, atteignant des vitesses de traitement comparables à la lecture humaine, à une cadence de 5-7 jetons par seconde, démocratisant ainsi l’accès aux LLM les plus avancés.

La taille croissante des LLM pose des défis pour leur déploiement et soulève des inquiétudes quant à leur impact environnemental et économique, principalement en raison de leur forte consommation d’énergie.

Les avantages de la quantification

Une des approches pour répondre à ces défis consiste à utiliser la quantification post-entraînement, qui vise à créer des modèles à faible précision pour l’inférence. Cette technique réduit la précision des poids et des activations, diminuant ainsi considérablement les besoins en mémoire et en ressources de calcul des LLMs.

BitNet.cpp s’appuie sur les travaux de Microsoft sur les architectures de modèles quantifiés 1 bit, notamment BitNet, et la variante LLM à 1 bit, BitNet b1.58, introduite en février dernier, dans laquelle chaque paramètre (ou poids) du LLM est ternaire {-1, 0, 1}

Contrairement aux LLMs traditionnels qui utilisent des valeurs en virgule flottante 16 bits (FP16 ou BF16) pour les opérations de multiplication de matrices, BitNet n’utilise que des additions entières, ce qui permet une économie d’énergie significative tout en maintenant les caractéristiques essentielles du modèle.

Outre le calcul, le transfert des paramètres du modèle entre la mémoire DRAM et celle d’un accélérateur sur puce (comme la SRAM) peut être coûteux. Les tentatives d’agrandissement de la SRAM pour améliorer le débit entraînent en effet des coûts élevés. En revanche, les modèles 1 bit comme ceux de BitNet ont une empreinte mémoire beaucoup plus faible, ce qui réduit à la fois le coût et le temps de chargement des poids depuis la DRAM, accélérant ainsi l’inférence.

La précision de 1,58 bits dans le système binaire conserve tous les avantages de BitNet 1 bit tout en ajoutant des capacités de filtrage de caractéristiques, grâce à l’inclusion de la valeur 0 dans les poids du modèle.

Le cadre d’inférence BitNet.cpp

Le cadre, qui gère l’exécution de ce modèle optimisé et des LLM 1 bit, offre une suite de noyaux optimisés qui prennent actuellement en charge l’inférence sans perte sur le CPU, avec des plans pour la prise en charge de NPU et GPU à l’avenir.

Actuellement, bitnet.cpp prend en charge les processeurs ARM et x86. Les vitesses d’inférence sont de 1,37 et 5,07 fois plus rapides sur les processeurs ARM, et de 2,37 à 6,17 fois sur les processeurs x86, selon la taille du modèle.

Les gains énergétiques vont quant à eux de 55,4 % à 82,2 %, selon la configuration : 55,4 % à 70,0 % sur les processeurs ARM, et 71,9 % à 82,2 % sur les processeurs x86.

Les modèles testés ci-dessous sont des configurations factices utilisées pour illustrer les capacités du framework.

BitNet.cpp prend en charge une liste de modèles 1 bit disponibles sur Hugging Face, qui sont entraînés avec des paramètres de recherche.

En réduisant la dépendance à des infrastructures énergivores, BitNet.cpp peut contribuer à diminuer l’empreinte carbone des LLM et à améliorer leur adoption dans des environnements de calcul à faible coût, où la consommation énergétique est un facteur critique. Les développeurs, les petites et moyennes entreprises, qui n’ont pas toujours les moyens d’investir dans des solutions basées sur des GPU ou des serveurs cloud puissants, pourraient ainsi en bénéficier.

Au-delà de l’impact sur la consommation d’énergie, l’exécution locale des modèles via BitNet.cpp présente aussi des avantages sur le plan de la confidentialité des données, en évitant le recours à des infrastructures cloud pour le traitement de l’information.

Des instructions détaillées pour installer et configurer bitnet.cpp sur différents systèmes d’exploitation, y compris Windows et Debian/Ubuntu, sont disponibles sur GitHub.

BitNet.cpp : le cadre open source de Microsoft pour réduire les coûts d'inférence des LLMs quantifiés à 1 bi

ActuIA
Mistral AI annonce la sortie de deux nouveaux modèles : Ministral 3B et Ministral 8B
À l’occasion du premier anniversaire du modèle Mistral 7B, Mistral AI a présenté hier une nouvelle famille de modèles, qu’il appelle “Les Ministraux” : Ministral 3B et Ministral 8B. Ces deux modèles conçus pour être exécutés sur des appareils périphériques, tels que les smartphones ou ordinateurs portables, offrent des performances inédites dans la catégorie des modèles IA de moins de 10 milliards de paramètres, répondant aux besoins croissants en matière d’efficacité, de calcul local et de prot

Mistral AI annonce la sortie de deux nouveaux modèles : Ministral 3B et Ministral 8B

ActuIA

Par : Marie-Claude Benoit

17 octobre 2024 à 12:00

À l’occasion du premier anniversaire du modèle Mistral 7B, Mistral AI a présenté hier une nouvelle famille de modèles, qu’il appelle “Les Ministraux” : Ministral 3B et Ministral 8B. Ces deux modèles conçus pour être exécutés sur des appareils périphériques, tels que les smartphones ou ordinateurs portables, offrent des performances inédites dans la catégorie des modèles IA de moins de 10 milliards de paramètres, répondant aux besoins croissants en matière d’efficacité, de calcul local et de protection de la vie privée.

Les Ministraux disposent tous deux d’une fenêtre contextuelle pouvant aller jusqu’à 128 000 jetons, Ministral 8B bénéficie, quant à lui, d’une architecture d’attention optimisée pour une inférence plus rapide et économe en mémoire. Selon Mistral AI, ils établissent une nouvelle frontière en matière de connaissance, de bon sens, de raisonnement, d’appel de fonction et d’efficacité dans la catégorie.

Dans son communiqué, la licorne déclare :

“Nos clients et partenaires les plus innovants demandent de plus en plus d’inférence locale et respectueuse de la vie privée pour des applications critiques telles que la traduction sur l’appareil, les assistants intelligents sans Internet, l’analyse locale et la robotique autonome. Les Ministraux ont été conçus pour fournir une solution efficace en calcul et à faible latence pour ces scénarios. Qu’il s’agisse d’amateurs indépendants ou d’équipes de fabrication mondiales, les Ministraux répondent à une grande variété de cas d’utilisation”.

Utilisés en combinaison avec des modèles de plus grande envergure comme Mistral Large, les Ministraux jouent le rôle d’intermédiaires efficaces pour l’exécution de tâches complexes, comme les appels de fonction dans les flux de travail en plusieurs étapes.

Comparaisons de performances

Les Ministraux ont été testés sur diverses tâches où ils ont obtenu de meilleurs résultats que leurs pairs : Gemma 2 2B, Llama 3.2 3B, Llama 3.1 8B et Mistral 7B. Mistral AI précise que tous les modèles ont été réévalués à l’aide de son cadre interne à des fins de comparaison équitable.

Modèles pré-entraînés

Les modèles Ministral 3B et 8B Instruct ont également été comparés à Gemma 2 2B, Llama 3.2 3B, Llama 3.1 8B, Gemma 2 9B et Mistral 7B sur différentes catégories d’évaluation.

Disponibilité et tarification

Les deux modèles sont d’ores et déjà disponibles sous la licence commerciale Mistral, Ministral 8B peut être téléchargé mais seulement à des fins de recherche.

Les développeurs peuvent utiliser Ministral 3B et Ministral 8B via la plate-forme cloud de Mistral AI, La Plateforme, et prochainement sur d’autres clouds partenaires.

Ministral 8B est tarifé à 0,1 dollar par million de jetons de sortie/entrée, tandis que le Ministral 3B revient à 0,04 dollar par million de jetons de sortie/entrée.

ActuIA
IA open source : tout juste dévoilé, Reflection 70B au cœur des controverses
Le 5 septembre dernier, Matt Shumer, PDG d’Hyperside (OthersideAI), a dévoilé Reflection 70B sur X, le présentant comme le LLM open source le plus performant au monde. Basé sur le modèle de langage Llama 3.1 70B publié par Meta en juillet dernier, ce nouveau LLM utilise un mécanisme innovant d’autocorrection, le reflection-tuning. Si cette annonce a été accueillie avec enthousiasme par la communauté de l’IA, les performances impressionnantes annoncées ont vite été remises en cause par une partie

IA open source : tout juste dévoilé, Reflection 70B au cœur des controverses

ActuIA

Par : Marie-Claude Benoit

11 septembre 2024 à 09:30

Le 5 septembre dernier, Matt Shumer, PDG d’Hyperside (OthersideAI), a dévoilé Reflection 70B sur X, le présentant comme le LLM open source le plus performant au monde. Basé sur le modèle de langage Llama 3.1 70B publié par Meta en juillet dernier, ce nouveau LLM utilise un mécanisme innovant d’autocorrection, le reflection-tuning. Si cette annonce a été accueillie avec enthousiasme par la communauté de l’IA, les performances impressionnantes annoncées ont vite été remises en cause par une partie d’entre elle.

Matt Shumer a expliqué que le modèle est capable de s’autocorriger en temps réel grâce à un processus de raisonnement étape par étape, imitant un type de métacognition, c’est-à-dire la capacité à “penser sa propre pensée”. Le reflection-tuning, d’où le nom du modèle désormais présenté comme “Reflection Llama-3.1-70B” sur Hugging Face, permet à celui-ci de repérer et corriger ses propres erreurs logiques avant de produire une réponse finale. Cette approche permet d’obtenir des réponses plus précises et de surmonter un défi majeur rencontré par les LLM : les hallucinations.

Matt Shumer souligne sur X l’importance du rôle de Glaive, une start-up spécialisée dans la génération de données synthétiques personnalisées, qui a permis au modèle de s’entraîner rapidement sur des ensembles de données de haute qualité, augmentant la précision des résultats tout en raccourcissant les cycles de développement.

Les performances annoncées

Lors de son annonce, Matt Shumer a vanté les performances de Reflection 70B sur plusieurs benchmarks, affirmant qu’il surpassait d’autres LLMs, y compris certains des modèles propriétaires les plus performants. Parmi ces tests figure le MMLU (Massive Multitask Language Understanding), où le modèle se serait distingué par sa polyvalence, ainsi que HumanEval, qui mesure la capacité des modèles à résoudre des problèmes de programmation.

Il a partagé les résultats sur Hugging Face .

Le terrain de jeu Reflection qui permet d’essayer le modèle, indique qu’en raison de la forte demande, la démo est temporairement en panne.

La désillusion

Toutefois, cette révolution annoncée n’a pas tardé à être remise en question. Dès le lendemain du lancement de Reflection 70B, des tests indépendants ont révélé que le modèle n’était pas à la hauteur des attentes. Là où Mat Shumer et son équipe avaient promis une capacité de correction automatique exceptionnelle, le modèle a rapidement montré des faiblesses dans des tâches de base telles que le comptage et le raisonnement logique. Les résultats n’étaient ni constants ni fiables, et Reflection 70B échouait là où d’autres modèles LLM comme GPT-4o et Claude 3,5 Sonnet excellent.

Selon l’évaluation d‘Artificial Analysis, une organisation dédiée à l’analyse indépendante des modèles d’IA et des fournisseurs d’hébergement, du score MMLU de Reflection Llama 3.170B publiée sur X, le modèle obtient le même score que Llama 3 70B et un score nettement inférieur à celui du Llama 3.1 70B.

Pour certains, Reflection 70B pourrait en fait être Llama 3 avec un réglage LoRA (Low-Rank Adaptation) appliqué, plutôt qu’un affinage de Llama 3.1, pour d’autres le modèle de Shumer n’est pas un modèle original, mais un simple wrapper de Claude 3,5 Sonnet d’Anthropic. En d’autres termes, Reflection 70B ne serait pas le produit d’une avancée technologique inédite, mais plutôt une façade, un reconditionnement d’une technologie déjà disponible.

HyperWrite a répondu aux critiques, admettant que les poids du modèle avaient été corrompus lors du téléchargement sur Hugging Face, ce qui a pu entraîner des performances de qualité inférieure. Pour Matt Shumer, cette corruption des poids est la cause des résultats incohérents observés par des évaluateurs tiers.

Il a publié sur Hugging Face la mise à jour suivante :

“Il y a eu un problème avec le modèle lorsque nous l’avons téléchargé pour la première fois. Si vous l’avez essayé et que vous n’avez pas obtenu de bons résultats, veuillez réessayer, nous pensons avoir résolu le problème”.

ajoutant :

“De plus, nous savons à l’heure actuelle que le modèle est divisé en une tonne de fichiers. Nous le condenserons bientôt pour rendre le modèle plus facile à télécharger et à utiliser !”

Cependant, malgré cette mise à jour, beaucoup de scepticisme persiste. La communauté s’interroge sur l’ampleur réelle du problème technique initial. La mention explicite de Glaive dans le post Hugging Face, avec la recommandation de “l’utiliser” pour ceux qui souhaitent entraîner un modèle, est perçue par certains comme une tentative de promouvoir la start-up dans laquelle Matt Shumer a investi.

L’ensemble de données et un rapport détaillant l’entraînement du modèle devraient être publiés dans les prochains jours et apporter plus d’éclaircissements. Ces accusations doivent être vérifiées par des experts en IA avant de jeter l’opprobre sur Matt Shumer et Hyperside.

Un modèle beaucoup plus grand, Reflection 405B, censé surclasser les modèles open sources actuels, devrait être présenté très prochainement. Mais après les controverses autour de Reflection 70B, la communauté attend désormais plus de transparence et des preuves concrètes avant d’accorder sa confiance.

Pour les acteurs de l’IA, cette affaire est un rappel que l’innovation doit toujours être accompagnée de transparence et d’éthique, et qu’il vaut mieux patienter quelque temps pour obtenir des résultats fiables et vérifiables plutôt que de se précipiter vers des annonces spectaculaires.

IA open source tout juste dévoilé, Reflection 70B au cœur des controverses

ActuIA
Aleph Alpha dévoile la famille Pharia-1-LLM : des modèles d’IA transparents et conformes aux exigences de L’UE
Si l’arrivée de LLMs au nombre de paramètres époustouflants a suscité l’enthousiasme, les entreprises qui désirent intégrer la GenAI dans leurs flux de travail hésitent à le faire en raison des coûts et des ressources nécessaires. Les acteurs de l’IA l’ont bien compris et proposent aujourd’hui des modèles plus légers, adaptés à des tâches spécifiques, à l’instar d’Aleph Alpha, avec sa famille Pharia-1-LLM et ses “seulement” 7 milliards de paramètres. Basée à Heidelberg en Allemagne, la start-up

Aleph Alpha dévoile la famille Pharia-1-LLM : des modèles d’IA transparents et conformes aux exigences de L’UE

ActuIA

Par : Thierry Maubant

28 août 2024 à 14:00

Si l’arrivée de LLMs au nombre de paramètres époustouflants a suscité l’enthousiasme, les entreprises qui désirent intégrer la GenAI dans leurs flux de travail hésitent à le faire en raison des coûts et des ressources nécessaires. Les acteurs de l’IA l’ont bien compris et proposent aujourd’hui des modèles plus légers, adaptés à des tâches spécifiques, à l’instar d’Aleph Alpha, avec sa famille Pharia-1-LLM et ses “seulement” 7 milliards de paramètres.

Basée à Heidelberg en Allemagne, la start-up Aleph Alpha a pour ambition de faire de l’UE un des leaders dans le domaine de l’IA et de consolider sa souveraineté numérique.

Elle se positionne comme un acteur clé de l’IA explicable et digne de confiance, ce qui est essentiel pour les agences gouvernementales et les entreprises qui cherchent à construire et à appliquer l’IA dans un environnement souverain, tout en garantissant la protection et la sécurité des données. Cette approche lui a permis de lever l’an passé près de 467 millions d’euros, un montant record pour une start-up d’IA européenne.

Des modèles optimisés pour l’Europe

Les deux modèles Pharia-1-LLM-7B-control et Pharia-1-LLM-7B-control-aligned, disponibles au public sous sa licence “Open Aleph”, autorisant la recherche non commerciale et l’utilisation éducative, ont été entraînés sur un vaste corpus multilingue et optimisés pour les langues européennes.

Le modèle Pharia-1-LLM-7B-control a été conçu pour fournir des réponses concises dont la longueur peut être contrôlée, répondant ainsi aux besoins d’une grande variété d’applications. Optimisé pour exceller dans les secteurs de l’automobile et de l’ingénierie, ce modèle se distingue par son efficacité de jeton améliorée et sa capacité à s’aligner sur les préférences des utilisateurs. Il se révèle particulièrement performant dans les applications spécifiques à un domaine, où des réponses précises et directes sont cruciales.

Le développement de Pharia-1-LLM-7B-control s’est appuyé sur un ensemble de données multilingues (anglais, allemand, Français, espagnol, italien, portugais et néerlandais) soigneusement sélectionné, en conformité avec les réglementations européennes et nationales, notamment en matière de droit d’auteur et de confidentialité des données. Le modèle a été entraîné en utilisant des techniques de pointe, notamment la Grouped Query Attention (QGA) pour améliorer les performances en temps d’inférence et une base rotative plus large pour une meilleure capacité de contexte long.

L’entraînement de Pharia-1-LLM-7B s’est déroulé en deux étapes. Dans un premier temps, le modèle a été pré-entraîné sur un ensemble de données de 4,7 billions de jetons avec une longueur de séquence de 8 192 jetons, à l’aide de 256 GPU A100. Il a ensuite entraîné sur un nouveau mélange de données de 3 billions de jetons supplémentaires, en utilisant 256 GPU H100.

La variante Pharia-1-LLM-7B-control-aligned a été développée avec des garde-fous supplémentaires, grâce à des méthodes d’alignement sophistiquées. Ce modèle est parfaitement adapté aux applications conversationnelles, telles que les chatbots et les assistants virtuels, où la sécurité et la clarté des réponses sont primordiales. Les ajustements apportés via un processus d’alignement minutieux garantissent que ce modèle respecte les intentions de l’utilisateur tout en évitant les comportements indésirables.

Évaluation et performance

Les modèles Pharia-1-LLM-7B-control et Pharia-1-LLM-7B-control-aligned ont été rigoureusement évalués par rapport aux modèles multilingues open source de taille similaire Mistral-7B-Instruct-v0.3 de Mistral AI et Llama-3.1-8b-instruct de Meta. Ils ont démontré des performances comparables, voire supérieures, à ces derniers, notamment en matière de traitement multilingue.

Les modèles et les évaluations sont disponibles sur Hugging Face.

Aleph Alpha dévoile la famille Pharia-1-LLM des modèles d'IA transparents et conformes aux exigences de L'UE

ActuIA
Snowflake annonce l’intégration de Llama 3.1 et l’open source de sa pile d’optimisation d’inférence
Snowflake annonce qu’il héberge et optimise la collection de LLM Llama 3.1 dans sa plateforme Snowflake Cortex AI, offrant aux entreprises un accès sécurisé et sans serveur au modèle open source le plus avancé de Meta, Llama 3.1 405B. Parallèlement, la société rend open source sa pile d’optimisation d’inférence et de fine-tuning pour les grands modèles de langage, démocratisant ainsi l’accès aux IA génératives pour les entreprises et la communauté open source. Lancée en novembre dernier, Snowfla

Snowflake annonce l’intégration de Llama 3.1 et l’open source de sa pile d’optimisation d’inférence

ActuIA

Par : Thomas Calvi

1 août 2024 à 11:00

Snowflake annonce qu’il héberge et optimise la collection de LLM Llama 3.1 dans sa plateforme Snowflake Cortex AI, offrant aux entreprises un accès sécurisé et sans serveur au modèle open source le plus avancé de Meta, Llama 3.1 405B. Parallèlement, la société rend open source sa pile d’optimisation d’inférence et de fine-tuning pour les grands modèles de langage, démocratisant ainsi l’accès aux IA génératives pour les entreprises et la communauté open source.

Lancée en novembre dernier, Snowflake Cortex AI est une suite de fonctionnalités d’IA entièrement gérées, conçues pour permettre aux entreprises de créer et de déployer des applications d’IA génératives de manière sécurisée et sans serveur. Le service propose une interface de développement sans code, accessible aux utilisateurs de tous niveaux techniques. Il donne accès à des LLM de pointe, notamment ceux de Mistral AI, de Google et AI21 Labs, mais également à Snowflake Arctic, à Llama 3 (8B et 70B), aux LLM Reka-Core et désormais à la famille Llama 3.1.

Une collaboration stratégique pour l’innovation

Développée en collaboration avec des acteurs clés de l’IA, dont DeepSpeed, Hugging Face et vLLM, la pile d’optimisation de Snowflake offre des outils et des technologies pour optimiser l’inférence et le fine-tuning des LLMs de manière efficace et rentable. Cette initiative s’inscrit dans le cadre de l’engagement de Snowflake à fournir des solutions de pointe en matière d’intelligence artificielle tout en favorisant l’innovation ouverte.

Caractéristiques techniques et avantages

Optimisation de l’Inférence

Réduction de la latence : La pile permet de réduire la latence d’inférence jusqu’à trois fois par rapport aux solutions open source existantes, offrant ainsi une performance en temps réel indispensable pour les applications critiques ;
Augmentation du débit : Avec une amélioration du débit de 1,4 fois, les utilisateurs peuvent traiter un volume plus important de requêtes en moins de temps, optimisant ainsi l’efficacité opérationnelle.

Fine-tuning efficace

Utilisation minimale de ressources : Le fine-tuning des modèles massifs peut désormais être réalisé en utilisant un seul nœud GPU, réduisant considérablement les coûts et la complexité.
Support de fenêtres de contexte étendu : Avec une prise en charge des fenêtres de contexte allant jusqu’à 128K, les modèles peuvent gérer des contextes plus larges et produire des résultats plus cohérents et pertinents.

Llama 3.1 405B a ainsi été optimisé pour l’inférence en temps réel et à haut débit avec une fenêtre de contexte massive de 128K à l’aide d’un seul nœud GPU au sein de Cortex AI.

Vivek Raghunathan, VP of AI Engineering chez Snowflake, commente :

“Nous ne nous contentons pas de fournir les modèles de pointe de Meta à nos clients via Snowflake Cortex AI. Nous armons les entreprises et la communauté de l’IA avec de nouvelles recherches et un code open source supportant des fenêtres de contexte de 128K, l’inférence multi-nœuds, le parallélisme de pipeline, la quantization en virgule flottante de 8 bits, et bien plus, afin de faire progresser l’intelligence artificielle pour l’écosystème global.”

Engagement en matière de sécurité et de confiance

Snowflake a également intégré des mécanismes de sécurité avancés dans sa pile open source avec Snowflake Cortex Guard. Pour développer cette nouvelle fonctionnalité, l’entreprise a utilisé Llama Guard 2 de Meta, qui recourt à des algorithmes avancés pour détecter et filtrer automatiquement les contenus potentiellement nuisibles, offensants ou inappropriés dans les sorties des modèles de langage. Les applications d’IA construites sur cette pile sont ainsi protégées contre les contenus nuisibles.

Ryan Klapper, leader IA chez Hakkoda, assure :

“La sécurité et la confiance sont des impératifs business lorsqu’il s’agit d’exploiter l’intelligence artificielle générative, et Snowflake nous offre les garanties nécessaires pour innover et utiliser à grande échelle des grands modèles de langage de pointe. La combinaison des modèles Llama de Meta au sein de Snowflake Cortex AI nous ouvre encore plus de possibilités pour des applications internes basées sur les RAG, permettant à nos parties prenantes d’accéder à des informations précises et pertinentes”.

Snowflake annonce l'intégration de Llama 3.1 et l'open source de sa pile d'optimisation d'inférence

ActuIA
Mistral AI annonce deux nouveaux modèles open source : Codestral Mamba 7B et Mathstral 7B
Mistral AI a annoncé ce 16 juillet dernier deux nouveaux LLM publiés sous licence Apache 2.0 : Codestral Mamba 7B et Mathstral 7B. Le premier utilise la nouvelle architecture Mamba introduite fin 2023 par les chercheurs de renom Albert Gu et Tri Dao, et est destiné à la génération de code comme son prédécesseur Codestral. Mathstral, basé sur Mistral 7B, est un modèle spécialisé dans les tâches mathématiques et scientifiques, développé dans le cadre de la collaboration de Mistral AI avec le Proje

Mistral AI annonce deux nouveaux modèles open source : Codestral Mamba 7B et Mathstral 7B

ActuIA

Par : Thomas Calvi

19 juillet 2024 à 14:00

Mistral AI a annoncé ce 16 juillet dernier deux nouveaux LLM publiés sous licence Apache 2.0 : Codestral Mamba 7B et Mathstral 7B. Le premier utilise la nouvelle architecture Mamba introduite fin 2023 par les chercheurs de renom Albert Gu et Tri Dao, et est destiné à la génération de code comme son prédécesseur Codestral. Mathstral, basé sur Mistral 7B, est un modèle spécialisé dans les tâches mathématiques et scientifiques, développé dans le cadre de la collaboration de Mistral AI avec le Projet Numina.

Codestral Mamba 7B : une architecture innovante

Codestral Mamba se distingue par une approche radicalement différente de celle des modèles Transformer traditionnels. Mistral AI explique :

“Contrairement aux modèles Transformer, les modèles Mamba offrent l’avantage de l’inférence temporelle linéaire et la capacité théorique de modéliser des séquences de longueur infinie. Ils permettent aux utilisateurs d’interagir de manière approfondie avec le modèle avec des réponses rapides, quelle que soit la longueur d’entrée. Cette efficacité est particulièrement pertinente pour les cas d’utilisation de la productivité du code. C’est pourquoi nous avons formé ce modèle avec des capacités avancées de code et de raisonnement, lui permettant d’être aussi performant que les modèles basés sur les transformateurs SOTA”.

Performances du modèle

Codestral Mamba a été soumis à des benchmarks détaillés, testant sa capacité de récupération contextuelle jusqu’à 256 000 jetons. Les résultats confirment son potentiel en tant qu’assistant de code local et sa capacité à gérer des tâches complexes.

Le modèle a démontré des performances supérieures aux modèles open source concurrents CodeLlama 7B, CodeGemma-1.17B et DeepSeek dans les tests HumanEval.

Disponibilité

Codestral Mamba a été publié sous la licence Apache 2.0, offrant une liberté complète d’utilisation et de modification. Il est disponible à des fins de tests sur la plateforme de Mistral AI et sur Hugging Face, où il peut être déployé en utilisant le SDK mistral-inférence, qui s’appuie sur les implémentations de référence du dépôt GitHub de Mamba. Il peut également l’être sur TensorRT-LLM pour ceux qui préfèrent cette option de déploiement et bientôt sur llama.cpp pour l’inférence locale.

Mathstral 7B : une avancée dans les problèmes mathématiques complexes

Mathstral est une contribution significative de Mistral AI à la communauté scientifique, destinée à résoudre des problèmes mathématiques avancés nécessitant un raisonnement logique complexe et multi-étapes.

Basé sur Mistral 7B, disposant d’une fenêtre contextuelle de 32 000 jetons, Mathstral excelle dans les matières STEM, atteignant des performances de pointe dans sa catégorie. Il a obtenu 56,6 % sur MATH et 63,47 % sur MMLU.

Avec un calcul plus intensif au moment de l’inférence, le modèle peut atteindre des scores encore plus élevés : MATH avec vote majoritaire: 68,37%, MATH avec un modèle de récompense fort parmi 64 candidats: 74,59%.

Mathstral illustre les excellents compromis performance/vitesse obtenus en construisant des modèles pour des objectifs spécifiques, une philosophie que Mistral AI promeut activement. Les poids de Mathstral sont disponibles sur HuggingFace, et le modèle peut être utilisé tel quel ou affiné avec mistral-inference et mistral-finetune.

Mistral AI annonce deux nouveaux modèles open source Codestral Mamba 7B et Mathstral 7B

ActuIA
HeatWave GenAI d’Oracle : vers une démocratisation de l’IA générative en entreprise
Oracle a récemment annoncé la disponibilité générale de HeatWave GenAI. Le service de base de données HeatWave intègre désormais des grands modèles de langage (LLM), un dépôt de vecteurs automatisé et évolutif, ainsi que des capacités de conversation contextuelle en langage naturel. Ces nouvelles fonctionnalités permettent aux entreprises d’exploiter la puissance de l’IA générative avec leurs propres données, sans nécessiter d’expertise en IA ni de transférer leurs données vers des bases de donn

HeatWave GenAI d’Oracle : vers une démocratisation de l’IA générative en entreprise

ActuIA

Par : Marie-Claude Benoit

11 juillet 2024 à 09:30

Oracle a récemment annoncé la disponibilité générale de HeatWave GenAI. Le service de base de données HeatWave intègre désormais des grands modèles de langage (LLM), un dépôt de vecteurs automatisé et évolutif, ainsi que des capacités de conversation contextuelle en langage naturel. Ces nouvelles fonctionnalités permettent aux entreprises d’exploiter la puissance de l’IA générative avec leurs propres données, sans nécessiter d’expertise en IA ni de transférer leurs données vers des bases de données vectorielles externes.

Une IA générative directement dans la base de données

HeatWave GenAI marque un tournant dans la manière dont les entreprises peuvent utiliser l’IA. En intégrant des LLM directement dans HeatWave, Oracle simplifie le développement d’applications d’IA génératives.

Ces LLM en base de données ont un ensemble de paramètres plus petit et sont des LLM quantifiés qui fonctionnent sur les mêmes ressources de calcul que les opérations de la base de données. Des versions quantifiées de Mistral-7B-Instruct et Llama3-8B-Instruct, par exemple, offrent un bon compromis entre coût et qualité de réponse et sont disponibles dans toutes les régions où HeatWave est disponible.

Les entreprises peuvent désormais rechercher des données, générer ou synthétiser du contenu, et effectuer des tâches de récupération augmentée par génération (RAG) sans quitter la base de données. Cette intégration permet également de combiner l’IA générative avec d’autres fonctionnalités de HeatWave, telles que AutoML, pour créer des applications encore plus riches.

Automatisation et performance avec le dépôt de vecteurs

Le dépôt de vecteurs de HeatWave GenAI permet aux entreprises d’utiliser l’IA générative avec leurs documents commerciaux sans avoir à déplacer leurs données. Toutes les étapes de création de dépôts de vecteurs et d’intégrations vectorielles sont automatisées et exécutées à l’intérieur de la base de données. Cela inclut le repérage des documents dans le stockage d’objets, leur analyse, la génération d’intégrations et leur insertion dans le dépôt de vecteurs. Cette automatisation rend HeatWave Vector Store efficace et facile à utiliser.

Traitement vectoriel évolutif pour des résultats rapides et précis

Le traitement vectoriel évolutif de HeatWave GenAI offre des résultats de recherche sémantique extrêmement rapides sans compromettre la précision. Grâce à l’implémentation optimisée de la fonction de distance et à la représentation en colonnes hybride en mémoire, les requêtes sémantiques peuvent être effectuées avec du code SQL standard. La capacité d’évoluer jusqu’à 512 nœuds HeatWave permet de maintenir des performances élevées, garantissant des réponses rapides et pertinentes aux utilisateurs.

HeatWave Chat : interaction naturelle avec les données

HeatWave Chat est un module d’extension de code visuel pour MySQL Shell, offrant une interface graphique pour HeatWave GenAI. Ce module permet aux développeurs de poser des questions en langage naturel ou en SQL, facilitant une conversation contextuelle. Le navigateur Lakehouse intégré permet aux utilisateurs de sélectionner des fichiers dans le stockage d’objets et de créer un dépôt de vecteurs. Les utilisateurs peuvent ainsi effectuer des recherches dans l’ensemble de la base de données, tout en tenant compte de l’historique des questions posées et des citations des documents sources.

Performances supérieures et réduction des coûts

Selon Oracle, les tests indépendants réalisés ont démontré des avantages significatifs en termes de performance et de coûts : HeatWave GenAI est jusqu’à 30 fois plus rapide et 25 % moins cher que Snowflake, 15 fois plus rapide et 85 % moins cher que Databricks, et 18 fois plus rapide et 60 % moins cher que Google BigQuery. La création de dépôts de vecteurs est jusqu’à 23 fois plus rapide et représente un quart du coût d’utilisation de la base de connaissances pour Amazon Bedrock.

HeatWave GenAI d’Oracle représente une avancée significative dans le domaine de l’IA générative, offrant aux entreprises des outils puissants pour exploiter leurs données sans complexité supplémentaire. Cette nouvelle solution est disponible immédiatement dans toutes les régions d’Oracle Cloud et sans frais supplémentaires pour les clients HeatWave.

HeatWave GenAI Oracle vers une démocratisation de l'IA générative en entreprise

ActuIA
Choisir un modèle d’IA générative pour son entreprise : le guide du Hub France IA
Le Hub France IA vient de publier un guide essentiel pour les organisations cherchant à intégrer des modèles d’IA générative, en particulier les “Large Language Models” (LLM), dans leurs opérations. Ce document, élaboré par le groupe de travail IA Générative du Hub France IA, offre des recommandations détaillées et une méthodologie éprouvée pour aider les entreprises, collectivités et autres entités à faire des choix éclairés. Association à but non lucratif créée en 2017, le Hub France IA fédèr

Choisir un modèle d’IA générative pour son entreprise : le guide du Hub France IA

ActuIA

Par : Marie-Claude Benoit

10 juillet 2024 à 09:30

Le Hub France IA vient de publier un guide essentiel pour les organisations cherchant à intégrer des modèles d’IA générative, en particulier les “Large Language Models” (LLM), dans leurs opérations. Ce document, élaboré par le groupe de travail IA Générative du Hub France IA, offre des recommandations détaillées et une méthodologie éprouvée pour aider les entreprises, collectivités et autres entités à faire des choix éclairés.

Association à but non lucratif créée en 2017, le Hub France IA fédère plus de 200 membres et 50 partenaires afin d’accélérer le développement de propositions et de solutions concrètes aux niveaux national et européen. Il agit pour faire émerger une IA de confiance et souveraine, respectueuse des citoyens, au service des entreprises et du secteur public.

Les actions prioritaires de l’association suivent 3 axes :

• Assurer une veille de l’écosystème, des technologies et du réglementaire en interaction étroite avec les autorités compétentes en France et en Europe ;
• Favoriser les synergies entre les différents acteurs de l’écosystème IA français et européen ;
• Accompagner l’adoption de l’IA et la montée en compétences par la production de communs utiles à tous.

Dans ce livrable, il adresse une des problématiques actuellement rencontrées par les entreprises françaises de toute taille et tout secteur : comment faire pour choisir entre les différents LLM ?

Une réponse aux besoins des organisations

Composé d’une quinzaine de membres, le groupe de travail IA Générative s’est réuni chaque semaine pendant plusieurs mois pour préparer ce guide. Leur objectif : fournir aux organisations un outil complet pour naviguer dans le paysage complexe des LLM. Ce travail fait suite à un livrable précédent publié en février 2024, qui portait sur les usages des IA génératives.

Pour élaborer ce guide, le groupe a mené une enquête approfondie auprès des organisations afin de comprendre leurs critères de choix les plus importants. Les résultats de cette enquête constituent la première partie du document.

Comment choisir son LLM ?

Le guide est structuré en cinq parties principales :

Résultats de l’enquête : Cette section présente la méthodologie et les résultats de l’enquête menée auprès des organisations, identifiant les critères cruciaux pour le choix des modèles d’IA.
Cartographie des benchmarks : Le document offre une vue d’ensemble des benchmarks de référence qui peuvent être utilisés pour tester la performance des différents modèles de LLM.
Grille d’évaluation des modèles : Basée sur les critères identifiés par l’enquête, cette grille permet d’évaluer les modèles selon divers aspects tels que la sécurité des données, la conformité légale, les infrastructures, le business model, l’accompagnement des clients et les considérations écologiques.
Échanges avec les fournisseurs : Cette partie restitue les échanges avec les principaux fournisseurs de LLM, structurés selon la grille d’évaluation, offrant ainsi une perspective pratique sur l’application des critères de choix.
Analyse détaillée des résultats : Le guide partage une analyse approfondie des résultats pour chaque fournisseur, aidant les organisations à prendre des décisions éclairées.

Principaux enseignements

Le guide met en lumière plusieurs enseignements clés :

Critères de choix multiples : La performance d’un modèle ne doit pas être le seul critère de sélection. La sécurité des données, le respect des réglementations, l’adaptation aux infrastructures existantes et le coût sont également essentiels ;
Importance des benchmarks : Bien que les benchmarks soient utiles, ils doivent être complétés par des interactions directes avec les fournisseurs de modèles ;
Absence de fournisseur parfait : Aucun fournisseur ne se distingue comme étant le meilleur dans tous les aspects.

Le guide recommande d’adopter une approche méthodologique :

Définir les cas d’usage spécifiques ;
Lister les critères de choix pertinents pour ces cas d’usage ;
Consulter les benchmarks appropriés ;
Affiner l’analyse en se référant aux critères spécifiques.

Ce guide représente un outil précieux pour les organisations souhaitant s’assurer de sélectionner le modèle le plus adapté à leurs besoins spécifiques. Vous pouvez le retrouver ici.

Choisir un modèle d’IA générative pour son entreprise le guide du Hub France IA

ActuIA
Partenariat Dassault Systèmes et Mistral AI : jumeaux numériques et LLM pour des solutions industrielles fiables et durables
Dassault Systèmes et Mistral AI ont annoncé le 1er juillet un partenariat stratégique destiné à offrir des solutions industrielles fiables basées sur l’IA générative. Combinant l’expertise en jumeaux virtuels et l’infrastructure cloud souveraine de Dassault Systèmes avec les grands modèles de langage (LLM) avancés de Mistral AI, il vise à accélérer le déploiement de l’IA générative dans le secteur industriel. Dassault Systèmes est un éditeur de logiciels spécialisé dans la conception 3D, le maq

Partenariat Dassault Systèmes et Mistral AI : jumeaux numériques et LLM pour des solutions industrielles fiables et durables

ActuIA

Par : Marie-Claude Benoit

2 juillet 2024 à 12:00

Dassault Systèmes et Mistral AI ont annoncé le 1er juillet un partenariat stratégique destiné à offrir des solutions industrielles fiables basées sur l’IA générative. Combinant l’expertise en jumeaux virtuels et l’infrastructure cloud souveraine de Dassault Systèmes avec les grands modèles de langage (LLM) avancés de Mistral AI, il vise à accélérer le déploiement de l’IA générative dans le secteur industriel.

Dassault Systèmes est un éditeur de logiciels spécialisé dans la conception 3D, le maquettisme numérique 3D et les solutions pour la gestion du cycle de vie d’un produit. Depuis 1981, il permet aux particuliers et aux entreprises de proposer des innovations durables dans les domaines de l’industrie manufacturière, des sciences de la vie et de la santé, ainsi que des villes et des territoires. Sa plateforme 3DEXPERIENCE permet aux utilisateurs de collaborer et d’innover dans un environnement virtuel.

Selon l’éditeur, “À l’ère de l’économie générative, l’industrie doit évoluer du produit vers l’expérience et la durabilité en s’appuyant sur les univers virtuels pour élargir et améliorer le monde réel”. Les grands modèles de langage (LLM) tels que ceux de Mistral AI, sont pour lui une opportunité pour accélérer ce processus.

Le partenariat formé par Dassault Systèmes et Mistral AI vise donc à proposer au marché :

Une nouvelle offre OUTSCALE baptisée « Large Language Models as a Service » (LMaaS) : s’appuyant sur l’infrastructure cloud souveraine OUTSCALE de Dassault Systèmes, cette solution permet aux LLM commerciaux de Mistral AI de se conformer aux normes de sécurité et de conformité les plus strictes, dont SecNumCloud, élaborée par l’Agence nationale de la sécurité des systèmes d’information (ANSSI), qui vise à garantir la robustesse et la sécurité des solutions cloud face aux cyberattaques.
Des expériences génératives optimisées par les LLM : ces expériences permettront aux 350 000 clients industriels de Dassault Systèmes d’accéder à de gigantesques bases de données pour transformer leurs opérations vers une approche plus durable.

Arthur Mensch, PDG et cofondateur de Mistral AI, affirme :

“Nous nous réjouissons de nouer ce partenariat avec Dassault Systèmes et de réaffirmer notre engagement mutuel en faveur des performances, de l’efficacité, de la sécurité et de la confidentialité que l’intelligence artificielle générative apporte au plus grand nombre. En nous appuyant sur l’infrastructure souveraine et les solutions industrielles de Dassault Systèmes, nous franchissons une nouvelle étape dans notre mission commune qui consiste à favoriser l’utilisation de l’IA générative de pointe par le plus grand nombre”.

Florence Hu-Aubigny, Directrice Générale Adjointe, Recherche et Développement, Dassault Systèmes, conclut :

“Nous poursuivons notre démarche en vue de réinventer les industries au niveau mondial grâce à des jumeaux virtuels alimentés par l’IA. Le partenariat avec Mistral AI, nous permettra d’offrir des expériences génératives fiables, en proposant une combinaison unique de modélisation scientifique, de simulation et d’IA — et notamment des grands modèles de langage — au sein d’un environnement souverain avec OUTSCALE. Ce partenariat souligne notre engagement à bâtir un écosystème technologique solide au bénéfice de solutions industrielles basées sur l’IA”.

Partenariat-Dassault-Systemes-Mistral AI

ActuIA
Microsoft présente Phi-3, la nouvelle génération de ses modèles de langage de petite taille
Les grands modèles de langage (LLM) présentent des capacités impressionnantes dans différents domaines mais les modèles plus petits (SLM) sont une alternative intéressante pour les entreprises qui peuvent les exploiter à moindre coût pour des tâches spécifiques. Microsoft, qui a introduit le SLM Phi-1 en juin 2023, a présenté le 23 avril dernier la famille de modèles ouverts Phi-3. Le plus petit d’entre eux, Phi-3 mini, d’ores et déjà disponible, compte 3,8 milliards de paramètres et, grâce à sa

Microsoft présente Phi-3, la nouvelle génération de ses modèles de langage de petite taille

ActuIA

Par : Pierre-yves Gerlat

25 avril 2024 à 10:30

Les grands modèles de langage (LLM) présentent des capacités impressionnantes dans différents domaines mais les modèles plus petits (SLM) sont une alternative intéressante pour les entreprises qui peuvent les exploiter à moindre coût pour des tâches spécifiques. Microsoft, qui a introduit le SLM Phi-1 en juin 2023, a présenté le 23 avril dernier la famille de modèles ouverts Phi-3. Le plus petit d’entre eux, Phi-3 mini, d’ores et déjà disponible, compte 3,8 milliards de paramètres et, grâce à sa petite taille, peut être déployé en local sur un téléphone ou un ordinateur.

Microsoft présente les modèles Phi-3 comme “les modèles de langage de petite taille les plus performants et les plus rentables disponibles”.

Phi-3 Mini est un modèle de transformateur avec décodeur dense, affiné grâce au fine-tuning supervisé (SFT) et l’optimisation directe des préférences (DPO) pour garantir l’alignement avec les préférences humaines et les directives de sécurité. Il est disponible sur Azure AI Studio, Hugging Face et Ollama.

Il a été entraîné pendant sept jours sur 512 GPU NVIDIA H100 Tensor Core, NVIDIA nous a d’ailleurs précisé qu’il était possible de l’essayer sur ai.nvidia.com où il sera packagé en tant que NVIDIA NIM, “un microservice avec une interface de programmation d’application standard qui peut être déployé n’importe où”.

Dans leur rapport technique, les chercheurs expliquent que “L’innovation réside entièrement dans notre jeu de données pour l’entraînement, une version agrandie de celle utilisée pour PHI-2, composé de données web fortement filtrées et de données synthétiques“.

Le modèle, entraîné sur 3,3 trillions de jetons, a également été aligné pour la robustesse, la sécurité et le format de chat. Sa fenêtre contextuelle, qui peut aller de 4 000 jusqu’à 128 000 jetons, lui permet d’assimiler et de raisonner sur des contenus textuels volumineux (documents, pages Web, code…). Selon Microsoft, Phi-3-mini démontre de solides capacités de raisonnement et de logique, ce qui en fait un bon candidat pour les tâches analytiques.

Des performances solides malgré une petite taille

Microsoft a partagé dans son blog les performances de Phi-3 mini, mais également celles de Phi-3-small (7B) et Phi-3-medium (14B) qui seront prochainement disponibles et ont été entraînés sur 4,8 trillions de tokens.

Les performances des modèles Phi-3 ont été comparées à celles de Phi-2, Mistral-7b, Gemma-7B, Llama-3-instruct-8b, Mixtral-8x7b, GPT-3.5 Turbo et Claude-3 Sonnet. Tous les chiffres déclarés sont produits avec le même pipeline afin qu’ils soient effectivement comparables.

Phi-3-mini surpasse Gemma-7B et Mistral-7B sur certains benchmarks de référence comme MMLU, tandis que Phi-3-small et Phi-3-medium, nettement plus performants, surpassent les modèles beaucoup plus grands, y compris GPT-3.5 Turbo. Cependant, du fait de leur petite taille, les modèles Phi-3 sont moins compétitifs pour les tâches axées sur les connaissances factuelles, telles que celles évaluées dans TriviaQA.

Toutefois, leurs capacités dans de nombreux autres domaines, les rendent particulièrement utiles dans des scénarios où la taille du modèle et les ressources disponibles sont des facteurs critiques, comme dans les environnements à ressources limitées ou les applications nécessitant des temps de réponse rapides.

ActuIA
Débloquer la puissance de l’IA mobile
Si les appareils mobiles ont considérablement évolué depuis le premier iPhone, ils n’ont toujours pas la puissance de calcul nécessaire pour exploiter pleinement les grands modèles de langage (LLM) contemporains. La solution pour maximiser le potentiel de l’IA sur mobile et en périphérie ne réside pas dans la puissance de calcul pure, mais dans une approche stratégique de l’architecture du modèle, de la gestion des données et de l’exploitation des capacités de calcul issues d’un appareil. Un clo

Débloquer la puissance de l’IA mobile

ActuIA

Par : Éric Delattre

5 avril 2024 à 10:00

Si les appareils mobiles ont considérablement évolué depuis le premier iPhone, ils n’ont toujours pas la puissance de calcul nécessaire pour exploiter pleinement les grands modèles de langage (LLM) contemporains. La solution pour maximiser le potentiel de l’IA sur mobile et en périphérie ne réside pas dans la puissance de calcul pure, mais dans une approche stratégique de l’architecture du modèle, de la gestion des données et de l’exploitation des capacités de calcul issues d’un appareil.

Un cloud indépendant pour l’IA mobile

Une véritable IA mobile ne peut pas dépendre uniquement de solutions basées sur le cloud. Il ne s’agit pas seulement d’une question de connectivité, mais aussi d’efficacité, de rapidité et de confidentialité des données. L’IA qui repose sur la transmission de données à un serveur central ne peut pas répondre en temps réel. La latence introduit des lenteurs qui compromettent la fiabilité des informations générées par l’IA, sans compter les coûts de bande passante associés à la transmission constante des données.

Les serveurs cloud sont la solution appropriée pour les applications de calcul puissant, comme l’entraînement des modèles d’apprentissage profond et des LLM. À l’inverse, les opérations nécessitant une interaction immédiate entre l’IA et les utilisateurs, ainsi que d’autres processus de Machine Learning, sont traitées plus efficacement sur l’appareil, à la périphérie du réseau. Cette approche améliore les performances tout en garantissant la confidentialité des utilisateurs grâce à une simplification de la transmission des données.

L’optimisation de la performance sur les appareils mobiles

Réduire la charge de calcul de l’appareil est une autre étape critique. Des techniques comme la quantification des modèles (« quantization » en anglais) qui simplifie les modèles d’IA en optimisant ses paramètres pour réduire l’espace de stockage requis sont essentielles pour maintenir les performances sans compromettre la fonctionnalité. Le GPTQ, qui compresse les modèles après l’entraînement, LoRA, qui affine les matrices plus petites au sein d’un modèle préentraîné, et QLoRA, qui optimise l’utilisation de la mémoire du GPU pour une plus grande efficacité, représentent des options destinées à satisfaire les besoins spécifiques de chaque application.

Confidentialité, sécurité et synchronisation des données

La confidentialité, la sécurité et la synchronisation des données sont d’autres facteurs et éléments clés à prendre en compte pour le développement de l’IA mobile. La mise en place d’un chiffrement des données solide pour la préservation de la vie privée garantit la protection des informations utilisateurs, ce qui conforte l’un des principaux avantages du traitement des données au niveau local. Parallèlement, des mécanismes de synchronisation des données entre les appareils périphériques et le cloud ou les serveurs centraux garantiront l’intégrité et la cohérence des données sur l’ensemble du réseau.

Une plateforme de données unifiée capable de gérer différents types de données et qui permet aux modèles d’IA d’accéder aux données locales et d’interagir avec elles, à la fois en ligne et hors ligne, représente ainsi un avantage significatif. Cette approche améliore non seulement les performances, mais aussi l’expérience utilisateur en garantissant que les applications d’IA sont réactives, fiables et capables de fonctionner dans divers environnements.

La meilleure architecture pour l’IA mobile — et l’IA en général — est celle qui consiste à minimiser sa complexité. Plus l’architecture est simple, plus elle peut consacrer de puissance à l’IA elle-même, ce qui est particulièrement important dans un environnement mobile.

ActuIA
Le Monde signe un partenariat pluriannuel avec OpenAI et se dote d’une charte sur l’IA
On savait OpenAI en tractations avec plusieurs médias pour entraîner ses LLM sur leurs publications. En France, c’est avec le journal Le Monde que le premier accord a été signé : OpenAI puisera en toute légalité dans le contenu du quotidien pour entraîner ses modèles et enrichir les réponses de ChatGPT. Le Monde, de son côté, s’assure d’une nouvelle source de revenus tout en protégeant ses droits d’auteur. Si 2023 a été l’année de l’IA générative, elle a été également celle de batailles judiciai

Le Monde signe un partenariat pluriannuel avec OpenAI et se dote d’une charte sur l’IA

ActuIA

Par : Marie-Claude Benoit

15 mars 2024 à 12:30

On savait OpenAI en tractations avec plusieurs médias pour entraîner ses LLM sur leurs publications. En France, c’est avec le journal Le Monde que le premier accord a été signé : OpenAI puisera en toute légalité dans le contenu du quotidien pour entraîner ses modèles et enrichir les réponses de ChatGPT. Le Monde, de son côté, s’assure d’une nouvelle source de revenus tout en protégeant ses droits d’auteur.

Si 2023 a été l’année de l’IA générative, elle a été également celle de batailles judiciaires entre les éditeurs, les écrivains, les artistes et les acteurs de l’IA comme OpenAI, Midjourney ou Meta. OpenAI a d’ailleurs été principalement la cible de plaintes comme en témoigne celle du New York Times fin décembre dernier.

Sachant pertinemment que leurs contenus vont aller enrichir les données sur lesquelles sont entraînés les modèles d’IA, leurs auteurs entendent aujourd’hui ne pas laisser les développeurs engranger des bénéfices sur leur dos sans contrepartie. Ce que ces derniers ont compris : Google a ainsi signé en février un accord de licence avec Reddit d’un montant de 60 millions de dollars annuels pour exploiter son contenu.

OpenAI s’est dit prêt à collaborer avec les éditeurs et les créateurs “afin qu’ils tirent profit d’une technologie IA avancée et d’un nouveau modèle de revenus”.

La start-up a signé un accord avec le groupe de presse allemand Axel Springer après avoir conclu un partenariat avec l’Associated Press en juillet dernier, pour partager certains contenus et technologies d’information et examiner des cas d’utilisation potentiels de l’IA générative dans les produits et services d’actualité. Mercredi, elle a annoncé cet accord avec Le Monde mais également un partenariat avec le groupe espagnol Prisa Media.

L’accord de partenariat Le Monde-OpenAI

Les équipes du Monde vont pouvoir exploiter les technologies d’OpenAI pour développer des projets et des fonctionnalités basées sur l’IA tandis que la start-up utilisera son corpus éditorial.

Louis Dreyfus, Directeur général du Monde, et Jérôme Fenoglio, Directeur du Monde, écrivent :

“L’accord prévoit que les références aux articles du Monde soient mises en évidence et systématiquement accompagnées d’un logo, d’un lien hypertexte et des titres des articles utilisés comme références. Les contenus qui nous sont fournis par les agences de presse et les photographies publiées par Le Monde sont expressément exclus”.

Tous deux rappellent qu’ils ont été parmi les premiers en France à signer des accords de droits voisins avec Facebook puis Google. Le droit voisin permet, depuis 2019, aux éditeurs de presse de recevoir une rémunération des plateformes du Web utilisant leurs publications datant de moins de deux ans. Le montant de celle-ci est déterminé à la suite de négociations entre éditeur et plateforme, comme dans le cadre de ce partenariat.

Ils ajoutent :

“Nous espérons que cet accord créera un précédent pour notre industrie. Avec cette première signature, il sera plus difficile pour les autres plateformes d’IA de se soustraire ou de refuser de négocier. De ce point de vue, nous sommes convaincus que l’accord est bénéfique pour l’ensemble de la profession”.

Précisant :

“Il va sans dire que ce nouvel accord, comme les précédents que nous avons signés, n’entravera en rien la liberté de nos journalistes d’enquêter sur le secteur de l’intelligence artificielle en général, et sur OpenAI en particulier”.

Une charte sur l’IA

Comme de nombreuses entreprises et éditeurs, Le Monde utilise des outils d’IA au quotidien, notamment l’outil de traduction de DeepL pour son site web et son application en anglais. Le quotidien teste également la transcription orale de ses articles français dans le cadre d’un accord avec Microsoft.

L’éditeur met l’accent sur la nécessité d’une supervision humaine dans l’utilisation de l’IA. Une fois les articles traduits par DeepL, ils sont ainsi relus par des traducteurs professionnels avant de l’être par des journalistes anglophones, ce qui a d’ailleurs permis de créer des emplois.

Sa charte sur l’IA, récemment adoptée, complète sa charte éthique et déontologique et stipule en autres :

“L’intelligence artificielle générative (…) ne peut en aucun cas remplacer les équipes éditoriales”

mais également :

“L’utilisation de l’IA générative n’est autorisée, que dans des conditions strictement définies, comme outil d’aide à la production éditoriale”.

Monde-signe-partenariat-pluriannuel-OpenA-charte-IA

ActuIA
IA générative : Anthropic dévoile la 3ème génération de sa famille de modèles Claude
Lundi dernier, Anthropic annonçait la dernière itération de sa famille de modèles d’IA générative : Claude 3. Le modèle se décline sous trois versions à l’instar du modèle Gemini de Google : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus, par ordre de performances. Les deux derniers modèles sont d’ores et déjà disponibles dans 159 pays, dont la France, via l’API Claude, Haiku, le plus léger, les y rejoindra prochainement. Selon Anthropic, les utilisateurs des modèles Claude 3 pourront désormai

IA générative : Anthropic dévoile la 3ème génération de sa famille de modèles Claude

ActuIA

Par : Marie-Claude Benoit

6 mars 2024 à 10:32

Lundi dernier, Anthropic annonçait la dernière itération de sa famille de modèles d’IA générative : Claude 3. Le modèle se décline sous trois versions à l’instar du modèle Gemini de Google : Claude 3 Haiku, Claude 3 Sonnet et Claude 3 Opus, par ordre de performances. Les deux derniers modèles sont d’ores et déjà disponibles dans 159 pays, dont la France, via l’API Claude, Haiku, le plus léger, les y rejoindra prochainement.

Selon Anthropic, les utilisateurs des modèles Claude 3 pourront désormais sélectionner l’équilibre optimal entre intelligence, vitesse et coût pour leur application spécifique.

Claude 3 Haiku est le modèle le plus rapide et le plus économique : 0,25$ par million de tokens (jetons) en entrée et 1,25$ par million de tokens générés, et, selon la société, le plus rentable du marché “pour sa catégorie intelligence”. Il peut lire un article de recherche dense en informations et en données sur arXiv (environ 10 000 jetons) avec des tableaux et des graphiques en moins de trois secondes.

Claude 3 Sonnet, 2 fois plus rapide que Claude 2 et Claude 2.1 avec des niveaux d’intelligence plus élevés, combine performances et vitesse pour des tâches efficaces et à haut débit. Il excellerait dans les tâches exigeant des réponses rapides, comme la récupération de connaissances ou l’automatisation des ventes. Son coût est de 3$ par million de tokens en entrée et 15$ par million de tokens générés.

Claude 3 Opus est le modèle le plus puissant des trois mais également le plus onéreux : 15$ par million de tokens en entrée, 75$ par million de tokens générés. Il peut gérer des analyses complexes, des tâches plus longues comportant plusieurs étapes, des tâches mathématiques et de codage d’ordre supérieur.

Selon Anthropic :

“Il peut naviguer dans des invites ouvertes et des scénarios invisibles avec une fluidité remarquable et une compréhension humaine. Opus nous montre les limites extérieures de ce qui est possible avec l’IA générative”.

Les trois modèles ont une fenêtre contextuelle de 200 000 jetons d’entrée, pouvant aller jusqu’à 1 million pour des cas d’utilisation spécifiques.

Evaluations des performances des modèles Claude 3

Les modèles Claude 3 présentent des capacités accrues en matière d’analyse et de prévision, de création de contenu nuancé, de génération de code et de conversation dans des langues autres que l’anglais comme l’espagnol, le japonais et le français.

Selon les comparaisons d’Anthropic que l’on retrouve dans le tableau ci-dessous, Opus surpasse ses concurrents GPT-4 et Gemini Ultra sur la plupart des benchmarks d’évaluation courants des systèmes d’IA, notamment les connaissances expertes de premier cycle ( MMLU ou Massive Multitask Language Understanding), le raisonnement expert de niveau supérieur (GPQA) et les mathématiques de base (GSM8K).

Pour la start-up, il se rapproche de l’AGI :

“Il présente des niveaux de compréhension et d’aisance quasi-humains sur des tâches complexes, à la pointe de l’intelligence générale”.

Anthropic a tenu à préciser que des scores plus élevés pour un modèle GPT-4T plus récent avaient été rapportés.

Les trois modèles peuvent traiter un large éventail de formats visuels, notamment des photos, des tableaux, des graphiques et des diagrammes techniques. Cependant, ils ne peuvent pas générer d’images, ni traiter d’audio ou de vidéo.

Par rapport aux versions précédentes, ils font preuve d’une compréhension plus nuancée des demandes, et refusent beaucoup moins souvent de répondre à des invites inoffensives. Selon Anthropic, ils sont également beaucoup plus précis et leurs réponses plus fiables. Prochainement, il suffira de pointer sur les citations pour les retrouver dans le document traité par Claude 3.

Outre l’API Claude, Sonnet est également disponible via Amazon Bedrock et en avant-première privée sur Vertex AI Model Garden de Google Cloud, Opus et Haiku le seront également.

Anthropic conclut :

“Nous ne pensons pas que l’intelligence des modèles soit proche de ses limites et nous prévoyons de publier des mises à jour fréquentes de la famille de modèles Claude 3 au cours des prochains mois. Nous sommes également ravis de publier une série de fonctionnalités visant à améliorer les capacités de nos modèles, en particulier pour les cas d’utilisation en entreprise et les déploiements à grande échelle. Ces nouvelles fonctionnalités incluront l’utilisation d’outils (alias appel de fonction), le codage interactif (alias REPL) et des capacités agentiques plus avancées”.

Google, Anthropic et Mistral AI talonnent aujourd’hui OpenAI qui a amélioré les capacités de GPT-4 avec GPT-4 Turbo avec Vision et pourrait prochainement creuser de nouveau l’écart avec GPT-5.

IA générative Anthropic dévoile la 3ème génération de sa famille de modèles Claude

ActuIA
CRAG : une méthode pour améliorer la génération de texte basée sur la récupération de connaissances
La génération de texte basée sur la récupération de connaissances (RAG) permet aux LLM de produire des textes informatifs et cohérents à partir de sources externes. Cependant, la qualité des textes générés dépend fortement de la pertinence des documents récupérés. Pour pallier à ce problème, des chercheurs proposent une méthode nommée “Corrective Retrieval Augmented Generation” (CRAG), qui améliore considérablement les performances des approches basées sur la RAG, donc la précision et la fiabili

CRAG : une méthode pour améliorer la génération de texte basée sur la récupération de connaissances

ActuIA

Par : Marie-Claude Benoit

20 février 2024 à 13:00

La génération de texte basée sur la récupération de connaissances (RAG) permet aux LLM de produire des textes informatifs et cohérents à partir de sources externes. Cependant, la qualité des textes générés dépend fortement de la pertinence des documents récupérés. Pour pallier à ce problème, des chercheurs proposent une méthode nommée “Corrective Retrieval Augmented Generation” (CRAG), qui améliore considérablement les performances des approches basées sur la RAG, donc la précision et la fiabilité des LLM.

Les avancées récentes dans le domaine des modèles de langage ont permis des progrès significatifs dans la génération automatique de texte. Cependant, ces modèles ne sont pas exempts de défis, notamment en ce qui concerne l’exactitude des informations générées. Lorsque les modèles se basent uniquement sur leurs connaissances internes, acquises au cours de l’entraînement, ils peuvent générer des résultats inexacts ou incohérents.

La Génération Augmentée par Récupération (RAG) a été introduite en 2020 pour améliorer la pertinence des informations produites par les LLM. Elle permet au modèle d’utiliser des sources de données externes pour générer des réponses plus précises et à jour, réduisant ainsi le phénomène d’hallucinations.

Pour l’équipe, composée de chercheurs de l’Université de Science et Technologie de Chine, de l’Université de Californie et de Google Research, “Bien que la génération augmentée de récupération (RAG) soit un complément pratique aux LLM, elle repose fortement sur la pertinence des documents récupérés, ce qui soulève des inquiétudes quant à la façon dont le modèle se comporte si la récupération tourne mal”.

Ils proposent donc la CRAG, ou génération de récupération corrective augmentée, pour améliorer la robustesse de la génération basée sur la RAG en affinant les documents pertinents récupérés et en corrigeant ceux qui sont inexacts avec la recherche sur le Web.

La CRAG combine la RAG avec un mécanisme de correction automatique. Tout d’abord, un évaluateur de récupération léger est utilisé pour estimer la pertinence des documents récupérés par rapport à la requête d’entrée, et déclencher différentes actions de récupération de connaissances selon le degré de confiance : Correct, Ambigu, Incorrect.

Si les réponses sont ambigües ou incorrectes, des recherches sur le web à grande échelle permettent d’enrichir ou corriger les résultats de la RAG.

Les chercheurs ont également conçu un algorithme de décomposition-recomposition pour affiner les informations pertinentes dans les documents récupérés. La méthode est plug-and-play et peut être couplée avec diverses approches basées sur RAG.

Evaluations de la méthode

CRAG a été testé sur quatre jeux de données couvrant diverses tâches de génération :

PopQA : un ensemble de données utilisé pour évaluer les modèles de génération de texte sur des tâches de réponse à des questions de format court. Il comprend une collection de questions variées auxquelles les modèles doivent répondre en utilisant des connaissances factuelles ;
Bio (Biography) : Le jeu de données Bio est destiné à évaluer les modèles de génération de texte sur des tâches de génération de biographies détaillées. Il contient des informations sur différentes entités, et les modèles doivent générer des biographies précises et informatives sur ces entité ;
Pub : un jeu de données utilisé dans le domaine de la santé pour évaluer les modèles de génération de texte sur des tâches de vérification de faits et de réponse à des questions vrai ou faux. Il contient des affirmations sur des sujets liés à la santé, et les modèles doivent déterminer si ces affirmations sont vraies ou fausses ;
ARC (Arc-Challenge) : ARC est un ensemble de données composé de questions à choix multiples sur des phénomènes scientifiques de bon sens quotidiens. Les modèles doivent sélectionner la réponse correcte parmi plusieurs choix pour chaque question, en se basant sur leur compréhension du contexte scientifique.

Les expériences couplant CRAG avec RAG standard et Self-RAG démontrent largement sa capacité d’adaptation aux approches basées sur RAG, et celles menées sur les quatre ensembles de données démontrent son applicabilité à travers des tâches de génération de forme courte et longue.

CRAG représente une avancée significative dans le domaine de la génération de texte, permettant d’améliorer la robustesse des modèles de langage et de produire des textes plus précis et plus pertinents. Son adaptabilité à différentes tâches de génération de texte en fait une solution prometteuse pour de nombreuses applications du traitement du langage naturel dans divers domaines.

Références de l’article :

“Corrective Retrieval Augmented Generation” arXiv :2401.15884v1

Auteurs: Shi-Qi Yan1, Jia-Chen Gu2, Yun Zhu3, Zhen-Hua Ling1
1 : National Engineering Research Center of Speech and Language Information Processing,
University of Science and Technology of China, Hefei, China
2 : Department of Computer Science, University of California, Los Angeles
3 : Google Research

CRAG-methode-ameliorer-generation-texte-recuperation-de-connaissances

ActuIA
MGIE, le modèle d’édition d’images à partir d’invites textuelles d’Apple
Apple semble combler son retard par rapport à Microsoft, Google ou Meta en matière de GenAI. Après le LLM multimodal Ferret open source présenté en octobre dernier, ses chercheurs ont collaboré avec ceux l’Université de Californie à Santa Barbara pour développer le modèle MGIE (MLLM-Guided Image Editing), qui permet de modifier des images à partir d’instructions textuelles. L’équipe a présenté ses travaux dans un article sur arXiv qui a été sélectionné pour la Conférence internationale sur les r

MGIE, le modèle d’édition d’images à partir d’invites textuelles d’Apple

ActuIA

Par : Pierre-yves Gerlat

9 février 2024 à 10:00

Apple semble combler son retard par rapport à Microsoft, Google ou Meta en matière de GenAI. Après le LLM multimodal Ferret open source présenté en octobre dernier, ses chercheurs ont collaboré avec ceux l’Université de Californie à Santa Barbara pour développer le modèle MGIE (MLLM-Guided Image Editing), qui permet de modifier des images à partir d’instructions textuelles. L’équipe a présenté ses travaux dans un article sur arXiv qui a été sélectionné pour la Conférence internationale sur les représentations de l’apprentissage 2024 (ICLR).

Les modèles de langage multimodaux de grande taille (MLLMs) peuvent comprendre naturellement les images en entrée et fournir des réponses qui tiennent compte de la visualisation, agissant ainsi comme des assistants multimodaux.

Pour trouver une solution au défi rencontré lorsque les instructions données aux modèles d’édition d’image ne sont pas assez détaillées ou précises pour produire les résultats souhaités, MGIE utilise un MLLM et un modèle de diffusion pour dériver des instructions précises et fournir un guidage visuel explicite. En s’appuyant sur l’imagination visuelle, MGIE interprète l’intention derrière les invites ambiguës pour produire rapidement des modifications d’image cohérentes et pertinentes.

Par exemple, il peut comprendre une invite telle que “sain” en se basant sur le contexte pour effectuer des éditions appropriées, comme ajouter des garnitures de légumes à une pizza.

Il est également possible d’ajuster le contraste d’une image, d’en supprimer des éléments ou d’y en ajouter, et d’effectuer des modifications plus courantes telles que le recadrage, le redimensionnement, la rotation, le retournement et l’ajout de filtres.

Le MLLM est initialisé à partir de LLaVA-7B , tandis que le modèle de diffusion est initialisé à partir de StableDiffusion-v1.5. Les chercheurs mettent ensuite à jour conjointement ces deux modèles pour la tâche spécifique de l’édition d’image.

Vue d’ensemble de l’Édition d’Image Guidée par MLLM (MGIE), qui exploite les MLLMs pour améliorer la modification d’image basée sur les instructions. MGIE apprend à dériver des instructions expressives concises et fournit un guidage explicite lié à la visualisation pour l’objectif visé. Le modèle de diffusion est entraîné conjointement et réalise la modification d’image avec l’imagination latente à travers la tête de modification de manière bout à bout. et montre que le module est entraînable et figé, respectivement.

Evalué sur différents aspects de l’édition d’images, tels que la modification de style Photoshop, l’optimisation globale de la photo et l’altération locale des objets, sur plusieurs jeux de données, MGIE montre des améliorations significatives par rapport aux méthodes de base en termes de métriques automatiques et d’évaluation humaine.

Pour les chercheurs, il permet une retouche d’image raisonnable et peut contribuer à de futures recherche sur la vision et le langage.

Il est accessible sur GitHub et une démo web sur Hugging Face Spaces.

Références de l’article :

“Guiding instruction-based image editing via multimodal large language models”

arXiv :2309.17102v2

Auteurs :

Tsu-Jui Fu1, Wenze Hu2, Xianzhi Du2, William Yang Wang1, Yinfei Yang2, Zhe Gan2
1Université de Californie à Santa Barbara, 2 Apple

MGIE-modele-edition-images-invites-textuelles-Apple

ActuIA
Open AI annonce un GPT-4 turbo moins paresseux et des réductions de prix pour GPT-3,5 turbo
OpenAI a récemment partagé sur son blog plusieurs améliorations concernant ses modèles d’incrustation et de modération de texte, ainsi que des mises à jour de ses modèles phares GPT-4 turbo et GPT-3,5 turbo. Ces innovations visent à offrir aux développeurs plus de performance, d’efficacité, de personnalisation et de sécurité dans leurs applications basées sur le langage naturel ou le code. OpenAI avait publié la première version de GPT-4 en mars 2023, mise à la disposition de tous les développeu

Open AI annonce un GPT-4 turbo moins paresseux et des réductions de prix pour GPT-3,5 turbo

ActuIA

Par : Thomas Calvi

30 janvier 2024 à 11:00

OpenAI a récemment partagé sur son blog plusieurs améliorations concernant ses modèles d’incrustation et de modération de texte, ainsi que des mises à jour de ses modèles phares GPT-4 turbo et GPT-3,5 turbo. Ces innovations visent à offrir aux développeurs plus de performance, d’efficacité, de personnalisation et de sécurité dans leurs applications basées sur le langage naturel ou le code.

OpenAI avait publié la première version de GPT-4 en mars 2023, mise à la disposition de tous les développeurs au mois de juillet suivant. Lors de sa première conférence des développeurs, OpenAI DevDay, le 6 novembre dernier, la société lançait un aperçu de la prochaine génération de ce modèle : GPT-4 Turbo.

Différents utilisateurs se sont plaints du fait que ChatGPT refusait de répondre à leurs requêtes ou ne le faisait que partiellement, les invitant à compléter les réponses.

OpenAI postait sur X le 8 décembre dernier :

“Nous avons entendu tous vos commentaires sur le fait que GPT4 devient plus paresseux ! nous n’avons pas mis à jour le modèle depuis le 11 novembre, et ce n’est certainement pas intentionnel. Le comportement du modèle peut être imprévisible, et nous cherchons à y remédier”.

OpenAI a donc publié le 25 janvier dernier un modèle d’aperçu GPT-4 Turbo mis à jour, “gpt-4-0125-preview”, indiquant que “ce modèle effectue des tâches telles que la génération de code de manière plus approfondie que le modèle d’aperçu précédent et est destiné à réduire les cas de « paresse » lorsque le modèle n’effectue pas une tâche”.

Les bugs dus aux difficultés rencontrées par le précédent modèle d’aperçu lors de la génération de texte dans des langues autres que l’anglais sont également corrigés.

Mise à jour du modèle GPT-3.5 turbo

OpenAI a également annoncé la sortie cette semaine d’un nouveau modèle GPT-3.5 Turbo, avec des prix réduits (coût des requêtes divisé par 2) et des améliorations de performance. Cette mise à jour vise à fournir une précision accrue des réponses et à corriger les problèmes de codage rencontrés dans la version antérieure, offrant ainsi une expérience améliorée aux utilisateurs.

Deux nouveaux modèles d’embedding à des prix inférieurs

Un embedding est une séquence de chiffres qui représente les concepts d’un contenu tel que le langage naturel ou le code. Les intégrations permettent aux modèles d’apprentissage automatique et à d’autres algorithmes de comprendre facilement les relations entre le contenu et d’effectuer des tâches telles que le regroupement ou la recherche. Ils alimentent des applications telles que la récupération de connaissances dans ChatGPT et l’API Assistants, ainsi que de nombreux outils de développement de génération augmentée de récupération (RAG).

OpenAI lance deux nouveaux modèles d’incrustation de texte : un modèle plus petit et très efficace, embedding-3-small, et un modèle plus grand et plus puissant, embedding-3-large. Ces modèles, plus performants et moins coûteux que leur prédécesseur, embedding-ada-002, offrent aux développeurs la possibilité de choisir la taille des incrustations en fonction des besoins spécifiques de leurs applications. Cette flexibilité accrue permet aux développeurs d’optimiser les performances tout en maîtrisant les coûts associés à l’utilisation des modèles d’IA.

Une meilleure gestion des clés API

Les développeurs bénéficient désormais de nouvelles fonctionnalités de gestion des clés API, leur permettant d’attribuer des autorisations spécifiques et de suivre l’utilisation des API de manière plus détaillée. Ces améliorations offrent un meilleur contrôle et une meilleure visibilité sur l’utilisation des ressources d’IA, facilitant ainsi la gestion des projets et des budgets.

OpenAI précise qu’il prévoit les mois prochains d’améliorer encore la capacité des développeurs à afficher leur utilisation des API et à gérer les clés d’API, en particulier dans les grandes entreprises.

Mise à jour du modèle de modération

OpenAI a introduit un nouveau modèle de modération plus robuste, permettant d’identifier les textes potentiellement dangereux avec une plus grande précision. Selon OpenAI, cette mise à jour témoigne de son engagement envers la sécurité et la fiabilité de ses produits, assurant ainsi une expérience utilisateur sûre et positive.

Vue normale

Soutenir la compétitivité et la souveraineté numérique de l’UE

Un consortium d’acteurs clés

Transparence et collaboration avec la communauté Open Source

Des applications pour divers secteurs

Une stratégie de diffusion ouverte et collaborative

Projets de recherche

Les avantages de la quantification

Le cadre d’inférence BitNet.cpp

Comparaisons de performances

Disponibilité et tarification

Les performances annoncées

La désillusion

Des modèles optimisés pour l’Europe

Évaluation et performance

Une collaboration stratégique pour l’innovation

Caractéristiques techniques et avantages

Optimisation de l’Inférence

Fine-tuning efficace

Engagement en matière de sécurité et de confiance

Codestral Mamba 7B : une architecture innovante

Performances du modèle

Disponibilité

Mathstral 7B : une avancée dans les problèmes mathématiques complexes

Une IA générative directement dans la base de données

Automatisation et performance avec le dépôt de vecteurs

Traitement vectoriel évolutif pour des résultats rapides et précis

HeatWave Chat : interaction naturelle avec les données

Performances supérieures et réduction des coûts

Une réponse aux besoins des organisations

Comment choisir son LLM ?

Principaux enseignements

Des performances solides malgré une petite taille

Un cloud indépendant pour l’IA mobile

L’optimisation de la performance sur les appareils mobiles

Confidentialité, sécurité et synchronisation des données

L’accord de partenariat Le Monde-OpenAI

Une charte sur l’IA

Evaluations des performances des modèles Claude 3

Evaluations de la méthode

Mise à jour du modèle GPT-3.5 turbo

Deux nouveaux modèles d’embedding à des prix inférieurs

Une meilleure gestion des clés API

Mise à jour du modèle de modération