ActuIA
Alibaba : l’équipe Qwen annonce l’ajout de deux nouveaux modèles open source à Qwen2.5-1M
L’avancement des LLMs repose souvent sur leur capacité à traiter des volumes croissants de données dans des contextes plus longs et plus complexes. Avec le lancement des modèles open source Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M, l’équipe Qwen d’Alibaba Cloud place la barre très haut. Pour permettre aux développeurs de déployer plus efficacement les modèles de la série Qwen2.5-1M, ceux-ci sont accompagnés d’un cadre d’inférence innovant, intégrant une méthode d’extrapolation de longu

Alibaba : l’équipe Qwen annonce l’ajout de deux nouveaux modèles open source à Qwen2.5-1M

Par : Marie-Claude Benoit

29 janvier 2025 à 11:00

L’avancement des LLMs repose souvent sur leur capacité à traiter des volumes croissants de données dans des contextes plus longs et plus complexes. Avec le lancement des modèles open source Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M, l’équipe Qwen d’Alibaba Cloud place la barre très haut.

Pour permettre aux développeurs de déployer plus efficacement les modèles de la série Qwen2.5-1M, ceux-ci sont accompagnés d’un cadre d’inférence innovant, intégrant une méthode d’extrapolation de longueur et une méthode d’attention clairsemée, visant à réduire les coûts d’inférence et à améliorer la précision.

Les avancées techniques de Qwen2.5-1M

L’entraînement avec des séquences aussi longues représente un défi monumental en termes de calcul. L’équipe Qwen a adopté une approche progressive :

Augmentation graduelle : les modèles passent de 4K à 256K jetons au pré-entraînement, grâce à l’ajustement de la fréquence de base RoPE ;
Fine-tuning supervisé : une stratégie en deux étapes combine des instructions courtes (32K jetons) et longues (jusqu’à 256K jetons), garantissant une performance équilibrée ;
Extrapolation à 1 M : l’intégration de l’attention à double bloc (DCA) permet de gérer des distances de position relative invisibles pendant l’entraînement classique, tout en évitant une dégradation des performances.

Optimisations de l’inférence

Les besoins matériels pour traiter des contextes longs sont élevés, mais l’attention clairsemée et d’autres améliorations ont permis de réduire ces contraintes :

Chunked Prefill : cette méthode divise les séquences en blocs pour diminuer l’utilisation de la mémoire vive (VRAM) d’activation jusqu’à 96,7 % ;
Optimisation du parallélisme : une meilleure gestion des ressources GPU assure une exécution fluide même sur des dispositifs limités ;
Efficacité accrue : ces optimisations aboutissent à une augmentation de la vitesse de traitement, qui peut être jusqu’à 6,7 fois supérieures à celle des modèles classiques.

Performances de la famille de modèles Qwen2.5-1M

Tâches à contexte long

La série Qwen2.5-1M comprend actuellement les modèles open source Qwen2.5-7B-Instruct-1M et Qwen2.5-14B-Instruct-1M, ainsi que le modèle accessible via API Qwen2.5-Turbo, qui alimente désormais Qwen Chat.

Les modèles Qwen2.5-1M excellent sur des benchmarks complexes comme RULER, LV-Eval et LongBenchChat, souvent utilisés pour tester la compréhension de longs contextes, où ils surpassent leurs homologues 128K dans la plupart des tâches à contexte long, en particulier pour les séquences de plus de 64 Ko.

Le modèle 14B-Instruct-1M surpasse non seulement Qwen2.5-Turbo, mais aussi des modèles concurrents comme GPT-4o-mini, offrant une alternative open-source robuste pour les tâches à contexte long.

Évalués sur la tâche Passkey Retrieval, leurs résultats démontrent qu’ils peuvent récupérer avec précision des informations cachées dans des documents contenant jusqu’à 1 million de jetons, avec seulement des erreurs mineures observées dans le modèle 7B.

Tâches à contexte court

L’équipe a comparé les performances des modèles Qwen2.5-1M sur des séquences courtes par rapport à celles de leurs versions 128K et de GPT-4o-mini. Ils ont constaté que les versions 1M sont aussi précises que leurs homologues 128K sur des tâches classiques et qu’avec une longueur de contexte huit fois supérieure à celle de GPT-4o-mini, les modèles Qwen2.5-14B-Instruct-1M et Qwen2.5-Turbo atteignent des performances similaires au modèle d’OpenAI.

Le lancement de Qwen2.5-1M marque un tournant pour les modèles à contexte long, repoussant les limites techniques tout en élargissant le champ des possibles pour les applications qui nécessitent un traitement contextuel étendu telles que l’analyse juridique ou la gestion documentaire.

Pour plus d’informations sur les modèles, cliquer ici.

Alibaba, l'équipe Qwen annonce l'ajout de deux nouveaux modèles open source

ActuIA
GenAI : Europrop International opte pour la solution Paradigm de LightOn
LightOn, acteur européen majeur dans le domaine de l’IA générative, et Europrop International GmbH (EPI), consortium regroupant quatre leaders européens des moteurs d’avions (MTU Aero Engines, Safran Aircraft Engines, Rolls-Royce, et Industria de Turbo Propulsores), annoncent un partenariat stratégique pour déployer la plateforme d’IA générative Paradigm auprès de toutes les équipes d’EPI. Fondée en 2016 par Igor Carron, Laurent Daudet, Florent Krzakala et Sylvain Gigan, la start-up parisienne L

GenAI : Europrop International opte pour la solution Paradigm de LightOn

ActuIA

Par : Marie-Claude Benoit

10 janvier 2025 à 11:00

LightOn, acteur européen majeur dans le domaine de l’IA générative, et Europrop International GmbH (EPI), consortium regroupant quatre leaders européens des moteurs d’avions (MTU Aero Engines, Safran Aircraft Engines, Rolls-Royce, et Industria de Turbo Propulsores), annoncent un partenariat stratégique pour déployer la plateforme d’IA générative Paradigm auprès de toutes les équipes d’EPI.

Fondée en 2016 par Igor Carron, Laurent Daudet, Florent Krzakala et Sylvain Gigan, la start-up parisienne LightOn, plutôt que de se concentrer sur des applications grand public, cible le secteur professionnel. Première société européenne de la GenAI à être cotée sur Euronext Growth, ses deux produits phares sont Forge lancé en 2022 et Paradigm, lancé l’année suivante, une plateforme d’IA générative à destination des entreprises européennes, qui peut être directement intégrée dans les infrastructures existantes,(on premise, Air Gapped), garantissant ainsi la sécurité des données des organisations utilisatrices.

Paradigm : la technologie au service des données stratégiques

Cette solution, qui repose sur la RAG (Retrieval Augmented Generation), est régulièrement mise à jour avec de nouveaux LLMs, à l’instar de ModernBERT, fruit d’une collaboration avec le laboratoire de R&D Answer.AI. Adoptée par des acteurs de divers secteurs, notamment le SEO, la défense, la santé et l’aéronautique, pour interroger des bases de données complexes et volumineuses, générant des réponses précises et contextuelles, elle vient d’être choisie par Europrop International.

Créé en 2002, issu d’un programme de collaboration entre les quatre motoristes européens ITP Aero, MTU Aero Engines, Rolls-Royce et Safran Aircraft Engines, EPI est responsable de la conception, du développement et de la fabrication du moteur TP400-D6. Ce turbopropulseur, le plus puissant au monde, est destiné à l’Airbus A400M de transport militaire construit par Airbus Defence and Space. Les 2 500 personnes chargées à travers l’Europe de gérer le programme TP400-D6 pourront bénéficier de la technologie avancée de LightOn pour optimiser la gestion des connaissances tout en répondant aux enjeux de confidentialité propres à cette industrie.

GenAI : Europrop International opte pour la solution Paradigm de LightOn

ActuIA
DeepSeek-V3 : quand l’open source chinois défie les LLMs américains de pointe
C’est sous la licence MIT, l’une des licences open source les plus permissives, que DeepSeek, acteur chinois de la GenAI, a publié ce jeudi 26 décembre la dernière version de son modèle éponyme. L’annonce de DeepSeek-V3 a d’autant plus suscité l’attention que les performances du modèle seraient comparables, voire supérieures à celles de principaux modèles à source fermée, comme GPT-4o ou Claude 3.5 Sonnet, et ce, malgré un coût d’entraînement drastiquement réduit. Alors que la guerre technologiq

DeepSeek-V3 : quand l’open source chinois défie les LLMs américains de pointe

ActuIA

Par : Marie-Claude Benoit

2 janvier 2025 à 10:00

C’est sous la licence MIT, l’une des licences open source les plus permissives, que DeepSeek, acteur chinois de la GenAI, a publié ce jeudi 26 décembre la dernière version de son modèle éponyme. L’annonce de DeepSeek-V3 a d’autant plus suscité l’attention que les performances du modèle seraient comparables, voire supérieures à celles de principaux modèles à source fermée, comme GPT-4o ou Claude 3.5 Sonnet, et ce, malgré un coût d’entraînement drastiquement réduit.

Alors que la guerre technologique autour de l’IA entre les Etats-Unis et la Chine continue de s’intensifier avec l’annonce il y a moins d’un mois de nouvelles restrictions, DeepSeek démontre qu’il est néanmoins possible de développer des LLMs capables de rivaliser avec les meilleurs modèles américains.

Créée en mai 2023 à Hangzhou, la start-up, dirigée par Liang Wenfeng, est une filiale du fonds spéculatif High-Flyer. Son ambition est la même que celle affichée par OpenAI : développer une IA au service de l’humanité et atteindre l’IAG, des systèmes d’IA qui dépassent les capacités cognitives des êtres humains dans de nombreux domaines.

Tout juste un an plus tard, l’entreprise lançait DeepSeek-V2, un modèle de langage performant proposé à un coût compétitif, déclenchant une guerre des prix sur le marché chinois de l’IA et amenant ses principaux concurrents notamment Zhipu AI, ByteDance, Alibaba, Baidu, Tencent à revoir leurs prix à la baisse.

La semaine dernière, elle a présenté son successeur, DeepSeek-V3, comptant 671 milliards de paramètres, entraîné durant un peu moins de deux mois grâce aux GPU H 800 que les USA autorisaient NVIDIA à lui vendre jusqu’à l’an passé. Un total de 2 788 000 heures estimé à un coût de 5 576 000 par million de tokens en entrée, 1,10 $ par million de tokens en sortie.

Le modèle est téléchargeable sur Hugging Face. Le code complet ainsi qu’une documentation technique détaillée sont quant à eux disponibles sur GitHub.

DeepSeek-V3 : quand l'open source chinois défie les LLMs américains de pointe

ActuIA
Etude EPFL : les limites des LLMs face aux attaques adaptatives
Une récente étude menée par des chercheurs de l’École Polytechnique fédérale de Lausanne (EPFL), présentée lors de l’atelier sur la sécurité de l’IA à la conférence internationale sur l’apprentissage automatique 2024, met en évidence les vulnérabilités des LLMs les plus récents, malgré leur alignement sur des critères de sécurité avancés. L’étude “Jailbreaking leading safety-aligned LLMs with simple adaptive attacks” s’appuie sur la thèse de doctorat de son auteur principal, Maksym Andriushchen

Etude EPFL : les limites des LLMs face aux attaques adaptatives

ActuIA

Par : Thierry Maubant

23 décembre 2024 à 13:00

Une récente étude menée par des chercheurs de l’École Polytechnique fédérale de Lausanne (EPFL), présentée lors de l’atelier sur la sécurité de l’IA à la conférence internationale sur l’apprentissage automatique 2024, met en évidence les vulnérabilités des LLMs les plus récents, malgré leur alignement sur des critères de sécurité avancés.

L’étude “Jailbreaking leading safety-aligned LLMs with simple adaptive attacks” s’appuie sur la thèse de doctorat de son auteur principal, Maksym Andriushchenko. Il y explore les moyens d’évaluer la résilience des réseaux neuronaux face à de petites perturbations d’entrée, ainsi que l’impact de ces changements sur les résultats générés par les modèles.

Les garde-fous mis à l’épreuve

Les chercheurs Maksym Andriushchenko, Francesco Croce et Nicolas Flammarion du Laboratoire de théorie en apprentissage machinent (TML) de l’EPFL ont démontré que de simples manipulations des prompts permettent de contourner les mécanismes de sécurité des LLMs, ce qui pourrait les amener à se comporter de manière involontaire ou préjudiciable.

En ajustant les prompts en fonction des particularités de chaque modèle, ils ont réussi à provoquer des réponses contraires aux consignes de sécurité. Avec un ensemble de données de 50 requêtes nuisibles, ils ont obtenu un score de jailbreak parfait (100 %) sur Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, Claude-3/3.5 et le R2D2 entraîné de façon adverse.

Nicolas Flammarion, responsable du TML et coauteur de l’article, explique :

“Nous montrons qu’il est possible d’exploiter les informations disponibles sur chaque modèle pour créer des attaques adaptatives simples, que nous définissons comme des attaques spécifiquement conçues pour cibler une défense donnée. Nous espérons que nos travaux constitueront une précieuse source d’informations sur la robustesse des LLM frontières”.

L’importance de l’adaptabilité pour évaluer la robustesse

Le point commun derrière ces attaques est l’adaptabilité : elles exploitent les spécificités de chaque modèle pour contourner leurs mécanismes de sécurité. Les résultats de l’EPFL soulignent ainsi l’importance d’étendre les tests au-delà des scénarios prédéterminés, afin de mieux comprendre les limites et les failles des LLMs.

Maksym Andriushchenko souligne :

“Nos travaux montrent que l’application directe des attaques existantes est insuffisante pour évaluer avec précision la robustesse adverse des LLM et conduit généralement à une surestimation significative de la robustesse. Dans notre étude de cas, aucune approche n’a fonctionné suffisamment bien. Il est donc essentiel de tester à la fois les techniques statiques et adaptatives”.

Vers des modèles plus sûrs et responsables

Alors que les principaux acteurs de l’IA se dirigent vers l’ère agentique, où les agents autonomes exploitent les capacités des LLMs, les résultats de cette recherche mettent en évidence la nécessité de renforcer la sécurité de ces modèles pour garantir leur utilisation sûre et éthique.

Maksym Andriushchenko souligne :

“Si nous voulons déployer ces modèles en tant qu’agents autonomes, il est important de s’assurer qu’ils sont correctement entraînés pour se comporter de manière responsable et réduire au minimum le risque de causer des dommages graves”.

Concluant :

“Nos résultats mettent en évidence une lacune critique dans les approches actuelles de la sécurité des LLM. Nous devons trouver des moyens de rendre ces modèles plus robustes, afin qu’ils puissent être intégrés en toute confiance dans notre vie quotidienne, en veillant à ce que leurs capacités de pointe soient utilisées de manière sûre et responsable”.

Les vulnérabilités identifiées par les chercheurs témoignent de l’importance de poursuivre les recherches sur la sécurité des modèles.

Source de l’article : Tanya Petersen, EPFL

les limites des LLMs face aux attaques adaptatives

ActuIA
AI Decision Matrix : un outil d’AI Builders pour évaluer les assistants applicatifs
Les assistants applicatifs, comme Google Gemini ou Notion AI, incarnent une nouvelle ère de productivité. Ils ne se contentent plus de prédire des résultats : ils orchestrent des actions planifiées et automatisées. L’AI Decision Matrix d’AI Builders Research, le cabinet d’analystes d’AI Builders, en cartographiant et analysant les solutions des principaux acteurs de ce marché, permet aux entreprises de choisir la solution la plus adaptée à leurs besoins spécifiques. Les LLMs : des orchestrateurs

AI Decision Matrix : un outil d’AI Builders pour évaluer les assistants applicatifs

ActuIA

Par : Thierry Maubant

17 décembre 2024 à 12:00

Les assistants applicatifs, comme Google Gemini ou Notion AI, incarnent une nouvelle ère de productivité. Ils ne se contentent plus de prédire des résultats : ils orchestrent des actions planifiées et automatisées. L’AI Decision Matrix d’AI Builders Research, le cabinet d’analystes d’AI Builders, en cartographiant et analysant les solutions des principaux acteurs de ce marché, permet aux entreprises de choisir la solution la plus adaptée à leurs besoins spécifiques.

Les LLMs : des orchestrateurs

Les LLMs, dotés de milliards de paramètres, agissent comme des orchestrateurs, capables de :

Décomposer les tâches : ils identifient les étapes nécessaires pour répondre à une requête complexe ;
Planifier : ils structurent et ordonnent ces étapes pour proposer une exécution cohérente ;
Attribuer des outils : ils assignent des ressources spécifiques à chaque étape, permettant une action directe et adaptée.

Ces modèles fonctionnent comme des Large Action Models (LAM), transformant une requête en une série d’actions réalisables.

Du réactif à l’actionnable

Le machine learning a permis aux systèmes d’IA d’évoluer du réactif au prédictif, l’IA générative du prescriptif à l’actionnable planifié.

Stéphane Roder, PDG d’AI Builders commente :

“L’actionnabilité est certainement la vraie révolution de l’IA Générative. Ces assistants d’un nouveau genre, capables de réaliser des actions, semblent devenir un nouveau standard d’interaction avec nos applications du quotidien”.

Typologie des assistants applicatifs

Les assistants applicatifs sont des chatbots intégrés à des logiciels ou à des suites logicielles qui utilisent des agents pour actionner les applications de la suite dans laquelle ils opèrent, permettant ainsi une automatisation efficaces des tâches.

Il peut s’agir d’assistants bureautiques comme Microsoft Copilot ou Gemini de Google ou d’assistants dédiés aux suites métiers comme Agentforce de Salesforce ou Joule de SAP.

L’AI Decision Matrix (AIDM)

L’AIDM se veut un outil évolutif, AI Builders prévoit déjà une nouvelle publication d’ici 6 mois. Il ne pouvait tenir compte lors de sa publication de la décision par Microsoft de retirer son assistant Copilot pour les utilisateurs professionnels, annoncée ce 16 décembre.

L’AIDM évalue les solutions selon leur performance et leur maturité. La performance inclut des critères comme la qualité des réponses, la personnalisation, la sécurité des données et la complexité des tâches réalisées tandis que pour la maturité, l’AIDM analyse l’adoption sur le marché, les intégrations possibles, la facilité d’utilisation et la scalabilité.

Les solutions étudiées sont classées en quatre catégories :

Best in Class : solutions leaders, combinant haute performance et intégration fiable ;
Safe Bet : options solides et matures, adaptées à un large spectre de besoins ;
Next Gen : technologies performantes mais exigeant une maturité accrue pour leur exploitation ;
Rising Star : Solutions prometteuses encore en phase de développement.

Exemples d’assistants applicatifs évalués par l’AIDM

AI Builder a évalué quinze assistants applicatifs. Parmi ceux-ci :

Microsoft Copilot

Points forts : Intégration avec des outils tiers comme SAP et ServiceNow, possibilité de créer des agents spécialisés.

Catégorie : Best in Class.

Google Gemini

Performances : Nombreuses fonctionnalités grâce à une intégration
totale avec l’écosystème Google, notamment les outils BigQuery, Workspace et Colab.

Catégorie : Best in Class.

SAP Joule

Particularités : Dashboards automatiques, création d’agents personnalisés via Joule Studio.

Catégorie : Next Gen.

Notion AI

Atouts : Simple d’utilisation, capable de générer des tableaux et de rechercher dans plusieurs bases de données.

Catégorie : Safe Bet.

On retrouve dans le tableau ci-dessous les catégories attribuées à chacun des assistants analysés.

ActuIA
Amazon dévoile NOVA, sa première famille de modèles de fondation
Le PDG d’Amazon, Andy Jassy, a dévoilé lors de la conférence AWS re:Invent, sa première famille de modèles de fondation : NOVA. Celle-ci comprend plusieurs modèles, conçus chacun pour des tâches spécifiques comme le traitement du texte, des images et des vidéos, qui ont été intégrés à Amazon Bedrock. Cette plateforme, lancée en avril 2023 et accessible en France depuis avril dernier, permet à ses utilisateurs de personnaliser des LLMs en fonction de leurs besoins et de leurs données au lieu d’ut

Amazon dévoile NOVA, sa première famille de modèles de fondation

ActuIA

Par : Marie-Claude Benoit

6 décembre 2024 à 09:30

Le PDG d’Amazon, Andy Jassy, a dévoilé lors de la conférence AWS re:Invent, sa première famille de modèles de fondation : NOVA. Celle-ci comprend plusieurs modèles, conçus chacun pour des tâches spécifiques comme le traitement du texte, des images et des vidéos, qui ont été intégrés à Amazon Bedrock.

Cette plateforme, lancée en avril 2023 et accessible en France depuis avril dernier, permet à ses utilisateurs de personnaliser des LLMs en fonction de leurs besoins et de leurs données au lieu d’utiliser des modèles prêts à l’emploi. Jusqu’à présent, Amazon Bedrock leur permettait d’accéder à une variété de modèles d’IA de différents fournisseurs, ils ont désormais accès aux modèles Nova.

La gamme Amazon Nova comprend plusieurs versions qui prennent en charge un large éventail de tâches dans 200 langues. Chacune est optimisée pour des applications spécifiques :

Amazon Nova Micro : un modèle uniquement textuel conçu pour offrir des réponses à faible latence à des coûts minimaux ;
Amazon Nova Lite : un modèle multimodal économique capable de traiter du texte, des images et des vidéos ;
Amazon Nova Pro : une version multimodale avancée, à la fois rapide et précise, idéale pour des tâches variées ;
Amazon Nova Premier : un modèle haut de gamme destiné aux tâches complexes de raisonnement et au perfectionnement d’autres modèles (disponible dès le premier trimestre 2025) ;
Amazon Nova Canvas : un modèle de génération d’images ;
Amazon Nova Reel : un modèle de génération de vidéos d’une durée de 6 secondes actuellement, mais celle-ci devrait passer à 2 minutes en 2025.

Outre le fine-tuning, les modèles prennent en charge la distillation, une technique permettant de transférer des connaissances spécifiques d’un « modèle enseignant » plus grand et très performant vers un modèle plus petit, plus efficace et moins coûteux à exécuter. Amazon Nova Micro, Nova Lite et Nova Pro sont ainsi, selon Amazon, “au moins 75 % moins chers que les modèles les plus performants dans leurs classes d’intelligence respectives dans Amazon Bedrock“.

Amazon présente une publicité vidéo générée par Amazon Nova Reel pour une marque fictive de pâtes, illustrant son potentiel créatif de haute qualité pour les annonceurs.

Dans la vidéo ci-dessous, l’entreprise démontre les capacités de compréhension vidéo d’Amazon Nova Pro, à qui elle a demandé d’examiner et de décrire un bref clip vidéo muet d’un match de football.

Prompt : “Décrivez la vidéo.”

Sortie : “La vidéo montre un match de football en cours sur un terrain vert. Des joueurs de deux équipes, l’un en uniforme jaune et l’autre en blanc, sont engagés dans un jeu. Le quart-arrière de l’équipe jaune lance une passe à un receveur, qui attrape le ballon et commence à courir sur le terrain. Les défenseurs de l’équipe blanche le poursuivent, tentant de le plaquer. Le jeu se termine par un plaqué, qui fait tomber le receveur sur le terrain”.

De nouveaux modèles Nova en prévision

Amazon prévoit de lancer deux autres modèles en 2025, notamment un modèle de synthèse vocale avancée et un modèle multimodal capable de traiter texte, images, audio et vidéos en entrée comme en sortie.

Vue normale

Les avancées techniques de Qwen2.5-1M

Optimisations de l’inférence

Performances de la famille de modèles Qwen2.5-1M

Tâches à contexte long

Tâches à contexte court

Paradigm : la technologie au service des données stratégiques

Les garde-fous mis à l’épreuve

L’importance de l’adaptabilité pour évaluer la robustesse

Vers des modèles plus sûrs et responsables

Les LLMs : des orchestrateurs

Du réactif à l’actionnable

Typologie des assistants applicatifs

L’AI Decision Matrix (AIDM)

Exemples d’assistants applicatifs évalués par l’AIDM

De nouveaux modèles Nova en prévision