Anthropic, la société derrière Claude 3.5, présente Model Context Protocol (MCP), une nouvelle norme open source permettant de connecter efficacement les modèles d’IA aux systèmes de données existants, tout en facilitant leur intégration dans des environnements professionnels variés.
Les assistants d’IA, malgré leur sophistication croissante, restent souvent isolés des données critiques. Les intégrations sur mesure entre modèles et systèmes de données fragmentent les flux de travail, créant des
Anthropic, la société derrière Claude 3.5, présente Model Context Protocol (MCP), une nouvelle norme open source permettant de connecter efficacement les modèles d’IA aux systèmes de données existants, tout en facilitant leur intégration dans des environnements professionnels variés.
Les assistants d’IA, malgré leur sophistication croissante, restent souvent isolés des données critiques. Les intégrations sur mesure entre modèles et systèmes de données fragmentent les flux de travail, créant des silos d’information coûteux à entretenir et peu évolutifs.
Connecter les assistants d’IA aux données dont ils ont besoin
Le Model Context Protocol vient répondre à ce défi avec une architecture universelle.
“Que vous créiez un IDE alimenté par l’IA, que vous amélioriez une interface de chat ou que vous créiez des flux de travail d’IA personnalisés, MCP fournit un moyen standardisé de connecter les LLM au contexte dont ils ont besoin”, peut-on lire sur la page Github de MCP.
Cette norme ouverte permet aux développeurs d’établir des connexions bidirectionnelles sécurisées entre leurs sources de données et les LLMs. L’architecture est simple : les développeurs peuvent soit exposer leurs données via des serveurs MCP, soit créer des applications d’IA (clients MCP) qui se connectent à ces serveurs.
Ce protocole de contextualisation compte trois composants principaux :
la spécification du protocole et les kits de développement logiciel (SDK) ;
la prise en charge du serveur MCP local dans les applications Claude Desktop ;
un référentiel open source de serveurs MCP.
Pour les encourager à l’adopter, Anthropic propose des serveurs MCP préconçus pour les outils d’entreprise les plus répandus, comme Google Drive, Slack, GitHub, Postgres et Puppeteer.
Des cas d’usage concrets
Des entreprises comme Block et Apollo ont déjà intégré MCP dans leurs systèmes, tandis que des acteurs tels que Zed, Replit ou Codeium s’appuient sur ce protocole pour enrichir leurs plateformes. Ces usages permettent :
Un meilleur contexte pour des tâches complexes comme le codage, avec une génération de code plus précise.
Une réduction des efforts liés aux intégrations spécifiques, au profit d’une approche standard.
Block, par exemple, voit dans MCP un moyen de favoriser une innovation transparente et collaborative. Selon Dhanji R. Prasanna, CTO de Block :
“Les technologies ouvertes comme le Model Context Protocol sont les ponts qui relient l’IA aux applications du monde réel, garantissant que l’innovation est accessible, transparente et ancrée dans la collaboration. Nous sommes ravis de nous associer à un protocole et de l’utiliser pour construire des systèmes agentiques, qui éliminent le fardeau de la mécanique afin que les gens puissent se concentrer sur la création”.
Comment débuter avec MCP ?
Les développeurs peuvent explorer MCP dès aujourd’hui grâce à :
Des serveurs MCP prédéfinis, disponibles via Claude Desktop ;
Un guide de démarrage rapide pour créer un serveur MCP personnalisé ;
Des contributions open source aux connecteurs et référentiels disponibles.
Les clients existants de Claude for Work peuvent commencer à tester les serveurs MCP localement, en connectant Claude aux systèmes et ensembles de données internes. Anthropic fournira prochainement des kits d’outils de développement pour le déploiement de serveurs MCP de production à distance.
Lors de sa conférence annuelle Universe, GitHub a annoncé la semaine dernière une série d’innovations pour son outil de développement basé sur l’IA : GitHub Copilot, qui intègre désormais des modèles de pointe d’Anthropic, Google et OpenAI. GitHub a également dévoilé sa dernière avancée pour démocratiser la création de logiciels, permettant aux développeurs, qu’ils soient novices ou expérimentés, de concevoir des micro-applications à partir d’instructions en langage naturel : GitHub Spark.
GitH
Lors de sa conférence annuelle Universe, GitHub a annoncé la semaine dernière une série d’innovations pour son outil de développement basé sur l’IA : GitHub Copilot, qui intègre désormais des modèles de pointe d’Anthropic, Google et OpenAI. GitHub a également dévoilé sa dernière avancée pour démocratiser la création de logiciels, permettant aux développeurs, qu’ils soient novices ou expérimentés, de concevoir des micro-applications à partir d’instructions en langage naturel : GitHub Spark.
GitHub Copilot multi-modèle : vers plus de flexibilité
Créé par GitHub en collaboration avec OpenAI, l’outil d’assistance à la programmation basé sur l’IA, Copilot, était initialement alimenté par Codex, une version d’OpenAI GPT-3 spécialement conçue pour les tâches de codage. Copilot a évolué au fil des mises à jour pour inclure GPT 3.5-turbo et, récemment, les modèles GPT 4o et 4o-mini, pour répondre à différentes exigences de latence et de qualité. GitHub a décidé d’intégrer de nouveaux modèles d’IA de pointe pour permettre aux développeurs et aux entreprises de l’utiliser en fonction de leurs politiques internes, préférences technologiques et besoins en matière de sécurité.
Claude 3.5 Sonnet d’Anthropic, o1-preview et o1-mini d’OpenAi ont ainsi été déployés dans Copilot Chat, Gemini 1.5 Pro de Google devrait les y rejoindre dans les semaines à venir. Les développeurs peuvent basculer entre les modèles au cours d’une conversation.
Thomas Dohmke, PDG de GitHub, commente :
“En 2024, nous avons connu un boom des modèles de langage de haute qualité, grands et petits, qui excellent chacun individuellement dans différentes tâches de programmation. Il n’y a pas de modèle unique pour régir tous les scénarios, et les développeurs s’attendent à ce que l’agence construise avec les modèles qui leur conviennent le mieux. Il est clair que la prochaine phase de génération de code d’IA ne sera pas seulement définie par une fonctionnalité multimodèle, mais aussi par un choix multimodèle. Aujourd’hui, c’est exactement ce que nous offrons”.
Créer des applications en langage naturel
GitHub a l’ambition d’atteindre 1 milliard de développeurs : Spark, développé dans le laboratoire GitHub Next, est sa dernière avancée pour démocratiser la création de logiciels, permettant aux utilisateurs de tous niveaux de concevoir des micro-applications ou “Sparks” via des instructions en langage naturel. Avec une interface intuitive et une boucle de feedback en temps réel, GitHub Spark permet d’itérer, tester et partager des applications, offrant une flexibilité maximale tant pour les novices que pour les développeurs expérimentés.
Spark repose sur les modèles d’OpenAI et Anthropic. Les développeurs expérimentés peuvent apporter directement des modifications au code sous-jacent, tandis que les utilisateurs ou les développeurs novices peuvent itérer entièrement en langage naturel. Une fois satisfaits de leur spark, ils peuvent l’exécuter automatiquement sur leur ordinateur de bureau, leur tablette ou leur appareil mobile. Ils peuvent également choisir de partager leur micro-application avec un contrôle d’accès personnalisé, ainsi que permettre à d’autres de la remixer et de s’appuyer sur leur création.
L’expérience IA native s’étend à toute la plateforme GitHub
En plus du multi-modèle, GitHub introduit de nouvelles fonctionnalités, telles que :
Copilot dans VS Code : les développeurs peuvent désormais appliquer des modifications sur plusieurs fichiers simultanément grâce à des instructions en langage naturel ;
Extensions de Copilot : elles permettent d’intégrer des outils externes et des fonctionnalités personnalisées dans l’environnement de développement ;
Copilot Autofix et campagnes de sécurité : les développeurs bénéficient d’une correction automatisée des vulnérabilités et de nouveaux outils pour la gestion des campagnes de sécurité.
GitHub Octoverse 2024 : tendances en IA et adoption de Python
Le rapport Octoverse 2024 montre que Python a dépassé JavaScript en termes d’utilisation, en raison de sa polyvalence dans les projets d’IA. De plus, GitHub enregistre une augmentation de 98 % des projets d’IA générative, une tendance propulsée par l’adoption mondiale de l’IA, notamment en Inde, en Allemagne et au Japon.
Le rapport souligne également une croissance significative de la communauté des développeurs, en particulier en Afrique, en Amérique latine et en Asie.
Principales annonces Universe 2024 : GitHub Copilot devient multi-modèles, introduction de Spark pour créer des micro-applications en langage naturel
En juin dernier, Anthropic lançait Claude 3.5 Sonnet, la première version de sa famille de modèles Claude 3.5. Mardi dernier, l’entreprise a présenté les améliorations apportées à ce modèle, notamment en matière de codage, et son dernier ajout à la famille : Claude 3.5 Haiku, un modèle qui égale les performances de Claude 3 Opus, son modèle le plus puissant. Elle a également introduit Computer Use, une fonctionnalité expérimentale d’interaction avec les ordinateurs qui fait, selon elle, de Claud
En juin dernier, Anthropic lançait Claude 3.5 Sonnet, la première version de sa famille de modèles Claude 3.5. Mardi dernier, l’entreprise a présenté les améliorations apportées à ce modèle, notamment en matière de codage, et son dernier ajout à la famille : Claude 3.5 Haiku, un modèle qui égale les performances de Claude 3 Opus, son modèle le plus puissant. Elle a également introduit Computer Use, une fonctionnalité expérimentale d’interaction avec les ordinateurs qui fait, selon elle, de Claude 3.5 Sonnet “le premier modèle d’IA de pointe à offrir une utilisation informatique en version bêta publique”.
Cette fonctionnalité d’utilisation de l’ordinateur, disponible en version bêta, permet aux développeurs de demander au modèle d’interagir avec des interfaces graphiques en simulant les actions humaines, telles que déplacer le curseur ou cliquer sur un bouton.
Claude traduit ainsi les instructions comme “utiliser les données de mon ordinateur et les données en ligne pour remplir ce formulaire” en commandes informatiques : “vérifier une feuille de calcul, déplacer le curseur pour ouvrir un navigateur Web, naviguer vers les pages Web pertinentes, remplir un formulaire avec les données de ces pages…”.
Anthropic explique :
“Lorsqu’un développeur charge Claude d’utiliser un logiciel informatique et lui donne l’accès nécessaire, Claude regarde des captures d’écran de ce qui est visible par l’utilisateur, puis compte le nombre de pixels verticalement ou horizontalement dont il a besoin pour déplacer un curseur afin de cliquer au bon endroit. Il était essentiel d’apprendre à Claude à compter les pixels avec précision. Sans cette compétence, le modèle a du mal à donner des commandes à la souris, de la même manière que les modèles ont souvent du mal à répondre à des questions simples telles que « combien de A dans le mot « banane » ?”
Des entreprises comme Asana, Canva, Cognition, DoorDash, Replit et The Browser Company, exploitent déjà cette capacité pour automatiser des processus complexes qui peuvent nécessiter des dizaines, voire des centaines d’étapes.
Sur OSWorld, qui évalue la capacité des modèles d’IA à utiliser les ordinateurs comme le font les humains, Claude 3.5 Sonnet a obtenu un score de 14,9 % dans la catégorie des captures d’écran uniquement, ce qui est nettement mieux que le score de 7,8 % du meilleur système d’IA. Lorsqu’on lui a donné plus d’étapes pour accomplir la tâche, Claude a obtenu un score de 22,0 %.
Les développeurs peuvent l’essayer via l’API d’Anthropic, Amazon Bedrock et la plateforme Vertex AI de Google Cloud. Anthropic avertit toutefois qu’à ce stade expérimental, le modèle peut être sujet aux erreurs et recommande de ne pas lui donner accès à des données sensibles. L’entreprise a fait le choix de le publier pour recueillir leurs commentaires.
Claude 3.5 Sonnet : des gains en codage et en usage d’outils
Le modèle Claude 3.5 Sonnet montre des améliorations notables par rapport à ses versions précédentes, notamment dans des domaines critiques tels que le codage et l’utilisation d’outils. Selon les benchmarks de l’industrie, Sonnet a amélioré son score sur SWE-bench Verified, un test évaluant les capacités de codage agentique, passant de 33,4 % à 49 %. Cette progression est également visible sur TAU-bench, un benchmark évaluant l’utilisation d’outils en situation réelle, où Sonnet a amélioré ses performances dans les secteurs de la vente au détail et de l’aviation.
Des entreprises comme GitLab et The Browser Company, qui ont testé Sonnet pour des tâches complexes de développement logiciel et d’automatisation de processus web, ont signalé une meilleure capacité à suivre des instructions et à résoudre des problèmes sans augmenter les délais d’exécution.
Claude 3.5 Haiku : rapidité et performance
Claude 3.5 Haiku, de son côté, se positionne comme un modèle plus rapide, tout en offrant des performances similaires à celles de Claude 3 Opus, un modèle plus volumineux de la génération précédente. Il est particulièrement efficace pour les tâches nécessitant une génération rapide de texte, ainsi que pour l’analyse et l’exploitation de grandes bases de données. Haiku se distingue par sa faible latence et son coût maîtrisé, en faisant un choix adapté pour des produits interactifs ou des tâches spécialisées à grande échelle.
Anthropic annonce une version améliorée de Claude 3.5 Sonnet, une nouvelle fonctionnalité "Computer Use" et le nouveau modèle Claude 3.5 Haiku
L’Agence nationale de la sécurité des systèmes d’information (ANSSI) et le Bundesamt für Sicherheit in der Informationstechnik (BSI) ont publié récemment un rapport conjoint détaillant les risques de sécurité associés aux assistants de codage basés sur l’IA. Ce document met en lumière les opportunités et les dangers potentiels de ces outils de plus en plus populaires dans le développement logiciel et fournit une série de recommandations de sécurité à destination des responsables et développeurs.
L’Agence nationale de la sécurité des systèmes d’information (ANSSI) et le Bundesamt für Sicherheit in der Informationstechnik (BSI) ont publié récemment un rapport conjoint détaillant les risques de sécurité associés aux assistants de codage basés sur l’IA. Ce document met en lumière les opportunités et les dangers potentiels de ces outils de plus en plus populaires dans le développement logiciel et fournit une série de recommandations de sécurité à destination des responsables et développeurs.
Les assistants de programmation basés sur l’IA sont de plus en plus utilisés, tant dans le secteur public que privé. Ils peuvent générer du code, mais également aider au débogage, créer des cas de test, expliquer le code, le formater et le documenter ou encore le traduire entre différents langages de programmation. Ils augmentent ainsi la productivité des développeurs et simplifient la gestion de projets complexes, devenant ainsi des éléments essentiels dans les environnements de développement. Cependant, leur utilisation soulève des questions cruciales de sécurité.
Le rapport souligne que ces outils, bien qu’efficaces, peuvent être manipulés par des attaquants pour générer des bibliothèques malveillantes, insérer du code vulnérable ou divulguer des informations sensibles à partir des données d’entrée. Les modèles IA, qui sont formés sur de vastes corpus de code source, peuvent également proposer des suggestions erronées ou des méthodes inexistantes, ce que les experts appellent des “hallucinations de paquets”.
Les principales menaces identifiées
Le rapport de l’ANSSI et du BSI identifie plusieurs vecteurs d’attaques liés à l’utilisation des assistants de codage IA, notamment :
Les hallucinations de méthodes et de paquets : Les assistants IA peuvent suggérer des méthodes ou des classes inexistantes, résultant en une confusion de paquets. Les attaquants peuvent créer des bibliothèques avec des noms similaires et y injecter du code malveillant, compromettant ainsi toute la chaîne d’approvisionnement logicielle ;
Les injections indirectes de prompts : Ces attaques consistent à insérer des entrées malveillantes dans les demandes faites aux modèles IA. Cela peut amener le modèle à générer des commandes ou du code nuisible, ou à divulguer des informations sensibles ;
Empoisonnement de données et du modèle : Les attaquants peuvent publier du code malveillant sur des plateformes ouvertes comme GitHub, visant à contaminer les ensembles de données d’entraînement des assistants IA. Ces attaques peuvent compromettre les modèles eux-mêmes et produire du code non sécurisé.
Mesures d’atténuation recommandées
Pour chaque menace identifiée, l’ANSSI et le BSI proposent des mesures d’atténuation visant à réduire les risques associés à l’utilisation des assistants de codage IA. Parmi ces recommandations figurent :
Vérification du code généré : Il est essentiel que les développeurs vérifient minutieusement le code produit par les assistants IA, notamment en validant les bibliothèques suggérées et en s’assurant de leur authenticité et sécurité ;
Hébergement local des modèles IA : Afin de protéger les données sensibles, les entreprises devraient envisager d’héberger localement des modèles open source plutôt que de recourir à des services cloud tiers, souvent moins contrôlables ;
Formation et sensibilisation des développeurs : Une sensibilisation accrue des développeurs aux risques de sécurité liés aux outils IA est cruciale. Les entreprises doivent fournir des formations sur la manière d’utiliser ces outils de manière sécurisée, tout en garantissant la protection des données sensibles ;
Analyse des données d’entraînement : Les concepteurs d’assistants de codage IA doivent renforcer la sélection des données d’entraînement pour éviter l’empoisonnement. Une documentation rigoureuse des composants utilisés (SBOM – Software Bill of Materials) aidera à identifier rapidement les failles potentielles en cas d’incident.
Les implications pour les entreprises et les développeurs
Les entreprises sont invitées à effectuer des analyses de risques avant d’intégrer des outils IA d’assistance au codage dans leurs processus de développement. Le rapport recommande également de mettre en place des politiques claires sur l’utilisation de ces outils, notamment en ce qui concerne les données sensibles et les bibliothèques autorisées.
Les développeurs, quant à eux, doivent adopter une approche critique face aux suggestions des assistants IA, en s’assurant que chaque morceau de code généré est fiable et sûr. Les hallucinations de paquets, bien qu’elles puissent sembler être de simples erreurs, peuvent avoir des conséquences graves sur la sécurité des systèmes.
Perspectives de recherche et recommandations finales
Le rapport conclut en appelant à la poursuite des recherches dans ce domaine. Il est primordial d’améliorer la qualité des ensembles de données d’entraînement pour réduire les vulnérabilités dans le code généré par les IA, d’utiliser des ensembles de données spécifiquement conçus pour la traduction d’un langage de programmation à un autre afin d’assurer une traduction automatisée précise du code source. De plus, les études futures devraient se pencher sur la manière dont les assistants IA peuvent réellement augmenter la productivité sans compromettre la sécurité.
Enfin, l’ANSSI et le BSI insistent sur l’importance d’une approche collaborative entre les développeurs, les entreprises et les organismes de régulation pour s’assurer que les outils d’IA, bien que prometteurs, ne deviennent pas une porte d’entrée pour des cyberattaques sophistiquées.
Lors de sa 1ère conférence des développeurs, il y a un peu moins d’un an, les annonces principales d’OpenAI étaient consacrées à GPT-4 turbo, GPT Builder et au GPT Store. Cette année, toujours pas de GPT-5, mais il n’était pas réellement attendu après la présentation d‘OpenAI o1, il y a 3 semaines. Le Devday 2024 a été un événement plus technique, entièrement dédié aux développeurs et à l’exploitation des modèles existants de la start-up, avec de nouveaux ajouts à la plateforme API.
Parmi la sér
Lors de sa 1ère conférence des développeurs, il y a un peu moins d’un an, les annonces principales d’OpenAI étaient consacrées à GPT-4 turbo, GPT Builder et au GPT Store. Cette année, toujours pas de GPT-5, mais il n’était pas réellement attendu après la présentation d‘OpenAI o1, il y a 3 semaines. Le Devday 2024 a été un événement plus technique, entièrement dédié aux développeurs et à l’exploitation des modèles existants de la start-up, avec de nouveaux ajouts à la plateforme API.
Parmi la série d’outils et fonctionnalités destinés à améliorer l’utilisation et la personnalisation des solutions d’IA d’OpenAI au sein des applications professionnelles, présentés, on retrouve : Realtime API, Vision fine-tuning pour GPT-4o, Model distillation et Prompt caching.
Realtime : Une API conçue pour des expériences vocales instantanées
Realtime a été déployée ce 1er octobre en version bêta publique pour tous les développeurs payants. Ses capacités audio sont alimentées par le nouveau modèle GPT-4o. Elle permet aux développeurs de créer des applications multimodales en temps réel, avec les six voix prédéfinies prises en charge par l’API, distinctes de celles de ChatGPT.
Voici quelques avantages notables de l’API qui prend actuellement en charge le texte et l’audio en entrée et en sortie, (la vision et la vidéo sont déjà prévues), mais également l’appel de fonctions :
Parole à parole native : L’absence d’intermédiaire de texte signifie une faible latence et une sortie nuancée ;
Voix naturelles et orientables : Les modèles ont une inflexion naturelle et peuvent rire, chuchoter et adhérer à la direction du ton ;
Sortie multimodale simultanée : Le texte est utile pour la modération, l’audio plus rapide que le temps réel assure une lecture stable.
OpenAI va également introduire l’audio dans l’API de complétion de chat pour “les cas d’utilisation qui ne nécessitent pas les avantages de faible latence de l’API en temps réel”.
La start-up prévoit également d’augmenter progressivement les limites de débit actuelles (environ 100 sessions simultanées pour les développeurs de niveau 5). L’API Realtime sera intégrée dans les SDK OpenAI pour Python et Node.js et prendra en charge GPT-4o mini dans les futures versions.
Vision Fine-tuning
Cette nouvelle API permet aux développeurs de personnaliser des modèles basés sur GPT-4o en affinant leur compréhension des images. Des applications dans des domaines tels que la détection d’objets pour les véhicules autonomes ou l’analyse d’images médicales sont désormais possibles. OpenAI a cependant précisé que l’utilisation d’images protégées par des droits d’auteur reste interdite.
La start-up a présenté quelques cas d’utilisation pratiques :
Amélioration de la cartographie routière : Grab, une entreprise de covoiturage et de livraison alimentaire en Asie du Sud-Est, a utilisé la nouvelle fonctionnalité de vision pour améliorer sa cartographie urbaine. En ajustant GPT-4o avec seulement 100 images, l’entreprise a amélioré de 20 % la précision du comptage des voies et de 13 % la localisation des panneaux de signalisation par rapport à un modèle de base. Cela permet à Grab d’automatiser davantage la création de cartes routières, un processus auparavant manuel ;
Automatisation des processus d’affaires : Automat, spécialisé dans l’automatisation des processus métier, a formé GPT-4o pour reconnaître des éléments d’interface utilisateur via des captures d’écran, augmentant le taux de réussite de son système de 272 %. Ce réglage fin a également permis à Automat d’améliorer la précision d’extraction de données à partir de documents non structurés ;
Optimisation des sites web : Coframe, une plateforme d’ingénierie de croissance numérique, a affiné GPT-4o pour générer du code à partir d’images existantes d’un site web. Ce réglage fin a permis à GPT-4o de produire des sites web avec une cohérence visuelle accrue de 26 % par rapport au modèle de base.
Vision Fine-Tuning est d’ores et déjà disponible, OpenAI offre gratuitement 1 million de jetons d’entraînement par jour jusqu’au 31 octobre 2024 pour affiner GPT-4o avec des images.
Prompt Caching
La mise en cache des invites, déjà en place chez des concurrents comme Anthropic, permet d’améliorer la latence des réponses et de réduire les coûts d’utilisation des API, en réutilisant les jetons d’entrée récemment utilisés, et ce, sans compromettre la performance.
OpenAI explique : “De nombreux développeurs utilisent le même contexte à plusieurs reprises dans le cadre de plusieurs appels d’API lorsqu’ils créent des applications d’IA, par exemple lorsqu’ils apportent des modifications à une base de code ou qu’ils ont de longues conversations à plusieurs tours avec un chatbot”.
Les appels d’API aux modèles GPT-4o, GPT-4o mini, o1-preview et o1-mini, ainsi qu’aux versions affinées de ces modèles, bénéficieront automatiquement de la mise en cache des invites de plus de 1 024 jetons.
Le système met en cache le préfixe le plus long déjà traité, en commençant à 1 024 jetons et augmente par incréments de 128 jetons. Les développeurs n’ont donc pas besoin de modifier leur intégration API pour bénéficier de cette fonctionnalité. Les caches sont généralement effacés après 5 à 10 minutes d’inactivité et supprimés au plus tard dans l’heure qui suit la dernière utilisation du cache.
Model Distillation
La distillation de modèle consiste à entraîner un modèle plus petit et plus économique en utilisant les résultats d’un modèle plus performant. Cela permet aux développeurs d’obtenir des performances proches de celles du modèle initial (comme GPT-4o) sur des tâches spécifiques, tout en réduisant considérablement les coûts et la latence, en particulier avec des modèles comme GPT-4o mini. OpenAI annonce plusieurs nouveautés pour sa plateforme de distillation de modèles, notamment : Stored completions, Evals et Fine-tuning
Achèvements stockés : Capture automatique des paires entrée-sortie générées par des modèles comme GPT-4o, stockées via l’API pour créer des ensembles de données en vue du réglage fin. Cela facilite la création d’ensembles de données issus de la production pour améliorer et évaluer les modèles ;
Évaluations (bêta) : Permet de créer et d’exécuter des évaluations sur la plateforme OpenAI pour mesurer la performance des modèles sur des tâches spécifiques. Cela offre un moyen intégré d’évaluer la qualité des modèles sans avoir à créer des scripts manuellement ;
Réglage fin : L’intégration complète avec les achèvements stockés et les évaluations permet d’affiner les modèles plus petits avec des ensembles de données réels, tout en mesurant les performances de manière continue.
Model Distillation est disponible pour tous les développeurs sur la plateforme OpenAI. Jusqu’au 31 octobre, OpenAI offre 2 millions de jetons gratuits par jour pour entraîner GPT-4o mini et 1 million de jetons gratuits pour GPT-4o.
En marge du DevDay, OpenAI a également annoncé l’introduction de son nouveau modèle de modération multimodale, omni-modération-latest, qui est intégré dans l’API de modération. Ce modèle, construit sur GPT-4o, améliore considérablement la détection de contenus préjudiciables, notamment dans les langues non-anglophones, avec deux nouvelles catégories de détection.
OpenAI Devday 2024 : Vision Fine-tuning, Model Distillation, Prompt Caching et Realtime API au cœur des annonces
Après avoir annoncé le fine-tuning de GPT-4o mini fin juillet dernier avec une offre de 2 millions de jetons gratuits par jour jusqu’au 23 septembre prochain, OpenAI propose depuis mardi dernier aux développeurs d’affiner son LLM multimodal phare GPT-4o.
GPT-4o, introduit en mai dernier par OpenAI, fusionne le traitement de l’audio, de la vision et du texte en temps réel. Comparé à GPT-4 Turbo, il est deux fois plus rapide, deux fois moins cher et propose des limites de débit cinq fois plus éle
Après avoir annoncé le fine-tuning de GPT-4o mini fin juillet dernier avec une offre de 2 millions de jetons gratuits par jour jusqu’au 23 septembre prochain, OpenAI propose depuis mardi dernier aux développeurs d’affiner son LLM multimodal phare GPT-4o.
GPT-4o, introduit en mai dernier par OpenAI, fusionne le traitement de l’audio, de la vision et du texte en temps réel. Comparé à GPT-4 Turbo, il est deux fois plus rapide, deux fois moins cher et propose des limites de débit cinq fois plus élevées. Les développeurs vont pouvoir l’affiner en utilisant des ensembles de données personnalisés à un coût réduit pour leurs cas d’utilisation spécifiques.
Le fine-tuning, l’une des fonctionnalités les plus demandées par les développeurs, permet d’améliorer la précision, la structure, et le ton des réponses du modèle, ainsi que sa capacité à suivre des instructions complexes propres à certains domaines, même avec de petits ensembles de données. Selon OpenAI, quelques dizaines d’exemples peuvent suffire pour obtenir des améliorations significatives.
La nouvelle fonctionnalité est disponible pour tous les développeurs, quel que soit leur niveau d’utilisation. Le coût de l’entraînement est fixé à 25 par million de jetons d’entrée et 15 $ par million de jetons de sortie.
Comme pour GPT-4o mini, son lancement est assorti d’une offre de fine-tuning gratuit jusqu’au 23 septembre mais plus restreinte : chaque organisation bénéficie d’un million de jetons d’entraînement gratuits par jour.
De premiers cas d’utilisation convaincants
Depuis deux mois, plusieurs partenaires de confiance d’OpenAI ont pu tester le fine-tuning de GPT-4o avec des résultats impressionnants.
Parmi ceux-ci :
Cosine a utilisé GPT-4o pour affiner son assistant d’ingénierie logicielle, Genie. En intégrant des exemples réels d’ingénieurs logiciels, Genie a été en mesure de détecter et corriger des bogues, créer de nouvelles fonctionnalités et refactoriser du code avec une précision accrue. Grâce à ce réglage fin, Genie a atteint un score record de 43,8 % sur le banc d’essai SWE-bench, établissant un nouveau standard de performance ;
Distyl : ce partenaire spécialisé dans les solutions d’IA pour les entreprises du Fortune 500 a utilisé GPT-4o pour améliorer ses capacités de traitement SQL. Le modèle affiné a obtenu un score de 71,83 % au benchmark BIRD-SQL, surpassant ses concurrents et démontrant une compétence exceptionnelle dans la reformulation de requêtes et la génération SQL.
Sécurité et contrôle des données
Les modèles affinés via GPT-4o restent entièrement sous le contrôle des développeurs. Les données d’entreprise, y compris les entrées et sorties, sont protégées et ne sont jamais partagées ou utilisées pour entraîner d’autres modèles. De plus, des mesures de sécurité rigoureuses, incluant des évaluations automatisées et une surveillance continue de l’utilisation, sont en place pour prévenir tout usage abusif.
Comment commencer le fine-tuning de GPT-4o ?
Les développeurs intéressés par cette nouvelle fonctionnalité peuvent suivre ces étapes simples :
Se connecter à leur tableau de bord de fine-tuning sur la plateforme OpenAI ou s’enregistrer pour ceux qui n’ont pas encore de compte ;
Cliquer sur “créer”;
Sélectionner gpt-4o-2024-08-06 dans le menu déroulant des modèles de fondation.
OpenAI propose un guide dédié aux étapes du fine-tuning pour les non-initiés ici.
La start-up commente :
“Du codage à l’écriture créative, la mise au point peut avoir un impact important sur les performances du modèle dans divers domaines. Ce n’est qu’un début : nous continuerons d’investir dans l’élargissement de nos options de personnalisation de modèle pour les développeurs”.
OpenAI lance le fine-tuning de GPT-4o avec une offre gratuite limitée
Fondée en 2005 par Daniel Dines et Marius Tirca à Bucarest, en Roumanie, UiPath est devenue l’un des leaders mondiaux dans le domaine de l’automatisation des processus robotiques (RPA). A l’occasion de son évènement DevCon 2024 qui s’est déroulé vendredi dernier à Bangladore, en Inde, elle a annoncé à sa communauté de développeurs ses dernières innovations visant à augmenter leur productivité grâce à l’IA.
Les logiciels d’automatisation d’entreprise de UiPath permettent aux organisations d’autom
Fondée en 2005 par Daniel Dines et Marius Tirca à Bucarest, en Roumanie, UiPath est devenue l’un des leaders mondiaux dans le domaine de l’automatisation des processus robotiques (RPA). A l’occasion de son évènement DevCon 2024 qui s’est déroulé vendredi dernier à Bangladore, en Inde, elle a annoncé à sa communauté de développeurs ses dernières innovations visant à augmenter leur productivité grâce à l’IA.
Les logiciels d’automatisation d’entreprise de UiPath permettent aux organisations d’automatiser un large éventail de processus, des tâches simples et répétitives aux workflows complexes. Sa plateforme a été classée en 2023 dans la catégorie très convoitée « leaders » du Magic Quadrant pour la cinquième année consécutive.
Au fil des ans, UiPath a élargi son offre pour inclure une gamme de produits et de solutions destinés à différentes industries et fonctions commerciales, notamment UiPath Business Automation Platform, une suite complète de produits et de fonctionnalités pour permettre aux entreprises d’automatiser leurs processus métier de bout en bout.
Daniel Dines, cofondateur et directeur de l’innovation de UiPath, souligne :
“La communauté de développeurs UiPath compte plus de 2 millions de personnes, avec des développeurs et apprenants répartis dans 43 pays. Nous leur proposons des innovations absolument essentielles à l’ère de l’IA et de l’automatisation. Pour construire des automatisations modernes, il ne suffit pas de piloter l’interface utilisateur. Les développeurs ont également besoin d’intégrations d’API, de données et de solutions d’IA. Nous permettons aux développeurs d’accéder à toutes ces constructions au sein d’une plateforme intégrée”.
UiPath Autopilot for Test Suite
UiPath a annoncé la disponibilité en preview d’Autopilot for Test Suite, une série de fonctionnalités d’IA avancées conçues pour améliorer la productivité des testeurs tout au long du cycle de vie des tests. Ces fonctionnalités comprennent des contrôles qualité pilotés par l’IA, une conception de tests assistée par l’IA, une automatisation des tests grâce à l’IA et des AI-Powered Test Insights fournissant des informations exploitables en temps réel sur le portefeuille de cas de test.
UiPath Automation Marketplace et Solution Accelerators
UiPath Automation Marketplace est une plateforme en ligne qui offre aux utilisateurs de UiPath un accès à une vaste collection de ressources prêtes à l’emploi pour accélérer et simplifier le processus d’automatisation. Cette marketplace permet aux développeurs de trouver, d’explorer et de télécharger une variété de composants, de modèles, de workflows et frameworks d’automatisation, créés par UiPath, ses partenaires ou sa communauté.
UiPath a également annoncé des investissements importants dans les Solution Accelerators proposés par sa marketplace, des cadres d’automatisation préconstruits basés sur des cas d’utilisation à fort impact définis par des experts du secteur et des clients. Les Solution Accelerators permettent aux développeurs de gagner du temps et de réduire les coûts, en leur fournissant des solutions clés en main, personnalisables et évolutives.
Connecteurs GenAI
UiPath a étendu sa gamme de connecteurs Generative AI qui permettent aux développeurs d’accéder facilement à des activités d’IA sélectionnées, conçues pour intégrer l’IA dans chaque cas d’utilisation, transaction et interaction comme la génération de contenu textuel et de synthèse pour les ventes, le marketing ou le support client.
Chaque connecteur UiPath permet aux développeurs d’exploiter un ou plusieurs des fournisseurs de LLM leaders du marché, notamment OpenAI, Amazon SageMaker, Amazon Bedrock, Google Vertex, Anthropic …
Integration Service : des capacités renforcées pour les développeurs
Les récentes améliorations apportées à Connector Builder facilitent la création d’intégrations API personnalisées. De plus, un nouveau concepteur d’activités permet aux développeurs de créer et de gérer les activités de leur processus d’automatisation plus efficacement grâce à une interface à faible code.
Pour soutenir la croissance mondiale de ses services cloud, UiPath a également annoncé l’ouverture d’un nouveau data center en Inde à partir d’avril 2024. Cette expansion vise à répondre à la demande croissante de services cloud tout en garantissant une haute disponibilité et une faible latence pour les clients.
En parallèle à l’événement UiPath DevCon, UiPath a organisé le UiPath Academic Summit à Bangalore, dévoilant des projets visant à fournir des compétences en matière d’IA et d’automatisation à 500 000 Indiens d’ici 2027, dans le cadre du programme UiPath Academic Alliance.
DevCon 2024 L IA au coeur des nouvelles fonctionnalités annoncées pour la plateforme d'UiPath