C’est sous la licence MIT, l’une des licences open source les plus permissives, que DeepSeek, acteur chinois de la GenAI, a publié ce jeudi 26 décembre la dernière version de son modèle éponyme. L’annonce de DeepSeek-V3 a d’autant plus suscité l’attention que les performances du modèle seraient comparables, voire supérieures à celles de principaux modèles à source fermée, comme GPT-4o ou Claude 3.5 Sonnet, et ce, malgré un coût d’entraînement drastiquement réduit.
Alors que la guerre technologiq
C’est sous la licence MIT, l’une des licences open source les plus permissives, que DeepSeek, acteur chinois de la GenAI, a publié ce jeudi 26 décembre la dernière version de son modèle éponyme. L’annonce de DeepSeek-V3 a d’autant plus suscité l’attention que les performances du modèle seraient comparables, voire supérieures à celles de principaux modèles à source fermée, comme GPT-4o ou Claude 3.5 Sonnet, et ce, malgré un coût d’entraînement drastiquement réduit.
Alors que la guerre technologique autour de l’IA entre les Etats-Unis et la Chine continue de s’intensifier avec l’annonce il y a moins d’un mois de nouvelles restrictions, DeepSeek démontre qu’il est néanmoins possible de développer des LLMs capables de rivaliser avec les meilleurs modèles américains.
Créée en mai 2023 à Hangzhou, la start-up, dirigée par Liang Wenfeng, est une filiale du fonds spéculatif High-Flyer. Son ambition est la même que celle affichée par OpenAI : développer une IA au service de l’humanité et atteindre l’IAG, des systèmes d’IA qui dépassent les capacités cognitives des êtres humains dans de nombreux domaines.
Tout juste un an plus tard, l’entreprise lançait DeepSeek-V2, un modèle de langage performant proposé à un coût compétitif, déclenchant une guerre des prix sur le marché chinois de l’IA et amenant ses principaux concurrents notamment Zhipu AI, ByteDance, Alibaba, Baidu, Tencent à revoir leurs prix à la baisse.
La semaine dernière, elle a présenté son successeur, DeepSeek-V3, comptant 671 milliards de paramètres, entraîné durant un peu moins de deux mois grâce aux GPU H 800 que les USA autorisaient NVIDIA à lui vendre jusqu’à l’an passé. Un total de 2 788 000 heures estimé à un coût de 5 576 000 par million de tokens en entrée, 1,10 $ par million de tokens en sortie.
Le modèle est téléchargeable sur Hugging Face. Le code complet ainsi qu’une documentation technique détaillée sont quant à eux disponibles sur GitHub.
DeepSeek-V3 : quand l'open source chinois défie les LLMs américains de pointe
Depuis l’émergence des grands modèles de langage (LLMs), certains ont été qualifiés d’“ouverts”, ce qui a pu prêter à confusion avec le terme “open source” lors de leur présentation. En février dernier, l’Allen Institute for Artificial Intelligence (Ai2), a publié la première version d’OLMo, (Open Language Model), un LLM qui répond aux critères stricts de l’OSAID, la définition de l’IA open source de l’OSI. Le modèle a depuis été mis à jour en avril et dernièrement avec OLMo 2 qu’il présente com
Depuis l’émergence des grands modèles de langage (LLMs), certains ont été qualifiés d’“ouverts”, ce qui a pu prêter à confusion avec le terme “open source” lors de leur présentation. En février dernier, l’Allen Institute for Artificial Intelligence (Ai2), a publié la première version d’OLMo, (Open Language Model), un LLM qui répond aux critères stricts de l’OSAID, la définition de l’IA open source de l’OSI. Le modèle a depuis été mis à jour en avril et dernièrement avec OLMo 2 qu’il présente comme “le meilleur modèle de langage entièrement ouvert à ce jour”.
AI2 est un institut de recherche à but non-lucratif fondé en 2014 par Paul Allen, philanthrope et cofondateur de Microsoft, décédé en 2018. Son objectif est de favoriser le développement de l’intelligence artificielle au service de la société, en mettant l’accent sur des applications responsables et éthiques. L’institut collabore avec des universités, des entreprises et d’autres institutions de recherche pour stimuler l’innovation dans ce domaine.
AI2 se concentre sur des domaines variés tels que la compréhension du langage naturel, la vision par ordinateur, l’apprentissage automatique et la robotique. Parmi ses contributions majeures, on trouve Semantic Scholar, un moteur de recherche avancé destiné à aider les chercheurs à accéder et à analyser des articles scientifiques, ainsi que AllenNLP, une bibliothèque open source dédiée au traitement du langage naturel.
OLMo 2
Dans le domaine de la GenAI, AI2 milite également pour l’open source. Après Molmo, une famille de modèles d’IA multimodaux, il présente OLMo2, sa dernière famille de modèles de langage.
Dans le cadre de la validation et de la mise à l’essai de l’OSAID, la première version d’OLMo a été considérée comme réellement open source tout comme Pythia (Eleuther AI), Amber et CrystalCoder (LLM360) et T5 (Google) contrairement à Llama de Meta ou Grok de xAI. OLMo 2 correspond lui aussi pleinement aux critères exigés.
AI2 écrit sur son blog :
“Parce que la science entièrement ouverte nécessite plus que des poids ouverts, nous sommes ravis de partager une nouvelle série de mises à jour d’OLMo, y compris des poids, des données, du code, des recettes, des points de contrôle intermédiaires et des modèles optimisés pour les instructions, avec la communauté plus large de la modélisation du langage !”
Une architecture améliorée et un pré-entraînement optimisé
OLMo 2 est une nouvelle famille de modèles de langage de 7 et 13 milliards de paramètres, le premier a été entraîné sur environ 4,05 milliards de tokens tandis que le second l’a été sur un total de 5 000 milliards de tokens.
Les modifications architecturales principales apportées à OLMo incluent l’intégration de RMSNorm pour une meilleure stabilité et l’utilisation de plongements positionnels rotatifs.
AI2 a utilisé une approche en 2 étapes. Pour la 1ère, les modèles ont été pré-entraînés avec OLMo-Mix-1124, une collection d’environ 3,9 milliards de jetons. Les modèles ont, dans un second temps, été affinés avec un mélange composé à part égale de données web filtrées et de données spécifiques à un domaine (contenu académique, forums de questions-réponses, données d’instructions et cahiers d’exercices mathématiques, à la fois synthétiques et générés par l’homme) provenant de Dolmino-Mix-1124. L’Institut a ensuite échantillonné les 843 milliards de tokens obtenus pour optimiser leurs performances lors des étapes finales d’entraînement.
Performance et comparaison de OLMo 2
Selon les évaluations d’AI2, OLMo 2 7B et 13B sont les meilleurs modèles entièrement ouverts à ce jour, surpassant souvent les modèles de “poids ouverts” de taille équivalente, tout en égalant voire dépassant certains modèles partiellement propriétaires. Par exemple, OLMo-2-7B surpasse Llama 3.1 8B de Meta tandis qu’OLMo-2-13B dépasse Qwen 2.5 7B d’Alibaba Cloud malgré un coût de calcul moindre.
AI2 a utilisé Tülu 3, sa famille de modèles de suivi d’instructions, pour les variantes Instruct d’OLMo 2. Celles-ci ont été évaluées sur leurs capacités de suivi d’instructions, de rappel des connaissances, de mathématiques et de raisonnement général. Elles se sont révélées compétitives avec les meilleurs modèles à poids ouverts, OLMo 2 13B Instruct surpassant les modèles Qwen 2.5 14B instruct, Tülu 3 8B et Llama 3.1 8B instruct.
C’est lors de l’AWS Summit Paris 2024, que Julien Groues (General Manager – Europe South, AWS) a annoncé hier l’arrivée en France d’Amazon Bedrock, un service qui permet de créer et de mettre à l’échelle des applications d’IA génératives à l’aide de modèles de fondation. Il donne désormais accès au dernier modèle de Mistral AI, Mistral Large, ainsi qu’à Claude 3 Haiku et Claude 3 Sonnet d’Anthropic.
Lancé en avril 2023, Amazon Bedrock permet à ses utilisateurs de personnaliser des LLM en fonctio
C’est lors de l’AWS Summit Paris 2024, que Julien Groues (General Manager – Europe South, AWS) a annoncé hier l’arrivée en France d’Amazon Bedrock, un service qui permet de créer et de mettre à l’échelle des applications d’IA génératives à l’aide de modèles de fondation. Il donne désormais accès au dernier modèle de Mistral AI, Mistral Large, ainsi qu’à Claude 3 Haiku et Claude 3 Sonnet d’Anthropic.
Lancé en avril 2023, Amazon Bedrock permet à ses utilisateurs de personnaliser des LLM en fonction de leurs besoins et de leurs données au lieu d’utiliser des modèles prêts à l’emploi. A l’origine, ceux-ci avaient le choix entre les modèles de fondation des start-ups AI21 Labs, Anthropic, Stability AI et les modèles Titan d’Amazon, Titan Text Lite et Titan Text Express. En septembre dernier, AWS enrichissait ce service avec l’ajout de Claude 2 d’Anthropic, Stable Diffusion XL 1.0 de Stability AI, le modèle phare “Command” de la start-up canadienne Cohere ainsi que son modèle “Embed”.
AWS souligne qu’aucune des données du client n’est utilisée pour former les modèles sous-jacents, et comme toutes les données sont chiffrées et ne quittent pas le Virtual Private Cloud (VPC) d’un client, les clients peuvent être sûrs que leurs données resteront privées et confidentielles. Le service est facturé en fonction de son utilisation.
Lors de la keynote de cette conférence dédiée au cloud, à la data et l’IA, Julien Groues, accompagné de Mai-Lan Tomsen-Bukovec (VP of Technology, AWS), a expliqué comment les technologies AWS permettent aux clients de tirer parti de la puissance de l’IA générative. Après les témoignages clients de Fabien Mangeant (Chief Data and AI Officer, Air Liquide) et Raphaëlle Deflesselle (CTO, Groupe TF1), Arthur Mensch (cofondateur et CEO, Mistral AI), est monté sur scène où il a expliqué que la plateforme d’AWS est un canal de distribution particulièrement efficace. Thomas Wolf (cofondateur de Hugging Face) et Tom Brown (cofondateur d’Anthropic), deux start-ups qui ont bénéficié des investissements d’Amazon, Hugging Face lors de sa dernière levée de fonds, et Anthropic dans le cadre d’une collaboration élargie avec le géant du cloud qui pourrait lui rapporter jusqu’à 4 milliards, sont également intervenus.
Les 3 cofondateurs ont rappelé l’importance de l’infrastructure cloud d’AWS qui leur donne un accès aux puces AWS Trainium et Inferentia, conçues pour accélérer l’entraînement des modèles d’IA, améliorer le temps d’inférence et réduire les coûts.
AWS annonce la disponibilité d'Amazon Bedrock en France
L’Allen Institute for Artificial Intelligence (Ai2), organisation à but non lucratif, a été créé en 2014 par Paul Allen, co-fondateur de Microsoft dans le but de participer activement au développement de l’intelligence artificielle pour le bien commun. Il franchit un pas décisif dans cette direction avec la publication du LLM OLMo. Alors que certains modèles open source incluent les codes et les poids, Ai2 rend le modèle OLMo véritablement ouvert en fournissant non seulement les codes et les poi
L’Allen Institute for Artificial Intelligence (Ai2), organisation à but non lucratif, a été créé en 2014 par Paul Allen, co-fondateur de Microsoft dans le but de participer activement au développement de l’intelligence artificielle pour le bien commun. Il franchit un pas décisif dans cette direction avec la publication du LLM OLMo. Alors que certains modèles open source incluent les codes et les poids, Ai2 rend le modèle OLMo véritablement ouvert en fournissant non seulement les codes et les poids, mais aussi le code d’entraînement, les données d’entraînement et les boîtes à outils associées, le tout sous licence Apache 2.0.
Avec la publication du modèle de pointe OLMo et du cadre qui l’accompagne, l’objectif d’Ai2 est de favoriser l’innovation et la collaboration sur les modèles de langage, tout en sensibilisant aux enjeux éthiques et sociétaux qu’ils soulèvent.
Hanna Hajishirzi, Cheffe de projet OLMo, Directrice principale de la recherche en NLP à AI2 et professeure à l’Allen School de l’UW, explique:
“De nombreux modèles de langage sont aujourd’hui publiés avec une transparence limitée. Sans avoir accès aux données d’entraînement, les chercheurs ne peuvent pas comprendre scientifiquement le fonctionnement d’un modèle. C’est l’équivalent de la découverte de médicaments sans essais cliniques ou de l’étude du système solaire sans télescope. Grâce à notre nouveau cadre, les chercheurs seront enfin en mesure d’étudier la science des LLM, ce qui est essentiel pour construire la prochaine génération d’IA sûre et digne de confiance”.
OLMo est le fruit d’une collaboration avec le Kempner Institute for the Study of Natural and Artificial Intelligence de l’Université Harvard et des partenaires tels qu’AMD, CSC, la Paul G. Allen School of Computer Science & Engineering de l’Université de Washington et Databricks.
Les modèles OLMo 7B et 1B ont été développés sur le supercalculateur LUMI du CSC (Centre de technologie de l’information pour la science), alimenté par des processeurs AMD EPYC™ et des accélérateurs AMD Instinct™ et ont été entraînés grâce à la plateforme MosaicML de Datbricks.
Le cadre comprend une suite d’outils de développement d’IA entièrement ouverts, notamment :
Données de pré-entraînement complètes : le modèle est construit sur l’ensemble Dolma d’AI2 qui comprend un corpus ouvert de trois billions de jetons pour le pré-entraînement du modèle de langage, y compris le code qui produit les données d’apprentissage.
Le cadre OLMo comprend des pondérations de modèle complètes pour quatre variantes de modèle à l’échelle 7B, chacune entraînée à au moins 2T tokens. Le code d’inférence, les métriques d’entraînement et les journaux d’entraînement sont tous fournis.
Evaluation : Ai2 a publié la suite d’évaluation utilisée dans le développement, avec plus de 500 points de contrôle par modèle, toutes les 1000 étapes du processus de formation et le code d’évaluation sous l’égide du projet Catwalk.
Eric Horvitz, directeur scientifique de Microsoft et membre fondateur du conseil consultatif scientifique d’AI2, déclare :
“Je suis enthousiaste à l’idée de mettre OLMo entre les mains des chercheurs en IA. La nouvelle offre s’inscrit dans la tradition d’Allen AI de fournir des modèles, des outils et des données ouverts de valeur, qui ont stimulé de nombreuses avancées dans le domaine de l’IA dans la communauté mondiale”.
Avec OLMo, les chercheurs et développeurs en IA feront l’expérience de :
Plus de précision : Grâce à une connaissance complète des données d’entraînement qui sous-tendent le modèle, les chercheurs seront en mesure de travailler plus rapidement et n’auront plus besoin de dépendre d’hypothèses qualitatives sur la façon dont le modèle fonctionne, mais pourront le tester scientifiquement.
Moins de carbone : À l’heure actuelle, une séance d’entraînement équivaut aux émissions de neuf foyers américains pendant un an, selon l’EPA, l’agence américaine de protection de l’environnement. En offrant un accès complet à l’écosystème de formation et d’évaluation, Ai2 diminue considérablement les répétitions dans le processus de développement, ce qui est crucial pour la réduction des émissions de carbone dans le domaine de l’intelligence artificielle.
Des résultats durables : Le fait de garder les modèles et leurs ensembles de données ouverts et non derrière les API permet aux chercheurs d’apprendre et de s’appuyer sur des modèles et des travaux antérieurs.
Ai2 prévoit d’ajouter prochainement différentes tailles de modèles, modalités, ensembles de données et capacités à la famille OLMo.
Noah Smith, chef de projet OLMo, directeur principal de la recherche en NLP à AI2 et professeur à l’Allen School de l’UW, conclut :
“Avec OLMo, ouvert signifie en fait « ouvert » et tous les membres de la communauté de recherche en IA auront accès à tous les aspects de la création de modèles, y compris le code d’entraînement, les méthodes d’évaluation, les données, etc…L’IA était autrefois un domaine ouvert centré sur une communauté de recherche active, mais à mesure que les modèles se sont développés, sont devenus plus chers et ont commencé à se transformer en produits commerciaux, le travail sur l’IA a commencé à se dérouler derrière des portes closes. Avec OLMo, nous espérons aller à l’encontre de cette tendance et donner à la communauté des chercheurs les moyens de se réunir pour mieux comprendre et s’engager avec les modèles de langage de manière scientifique, ce qui conduira à une technologie d’IA plus responsable qui profite à tous”.
Le modèle OLMo et son framework sont accessibles en téléchargement direct sur Hugging Face et GitHub.
Un an après le lancement de ChatGPT, OpenAI annonçait en novembre dernier lors de sa première conférence des développeurs, OpenAI DevDay, ouvrir l’accès à ses abonnés ChatGPT Plus et Enterprise à GPT-Builder, un outil leur permettant de créer des versions personnalisées de ChatGPT, les GPT. Le GPT-Store où ils peuvent les partager publiquement, et éventuellement recevoir une rémunération, est, avec un peu de retard sur le programme initial, disponible.
Dans son blog, OpenAI assure que plus de 3
Un an après le lancement de ChatGPT, OpenAI annonçait en novembre dernier lors de sa première conférence des développeurs, OpenAI DevDay, ouvrir l’accès à ses abonnés ChatGPT Plus et Enterprise à GPT-Builder, un outil leur permettant de créer des versions personnalisées de ChatGPT, les GPT. Le GPT-Store où ils peuvent les partager publiquement, et éventuellement recevoir une rémunération, est, avec un peu de retard sur le programme initial, disponible.
Dans son blog, OpenAI assure que plus de 3 millions de versions personnalisées de ChatGPT ont été créées depuis la conférence. La société annonce également avoir commencé à déployer le GPT Store pour les utilisateurs de ChatGPT Plus, Enterprise mais également pour ceux de sa nouvelle offre ChatGPT Team.
GPT-Builder a simplifié la création des GPT puisqu’il ne nécessite aucune connaissance en programmation, il suffit à ses utilisateurs de donner leurs instructions en langage naturel pour créer un chatbot personnalisé.
Le GPT-Store
Les GPT sont pour l’instant répartis en 7 catégories dans le “magasin” : DALL-E, rédaction, productivité, recherche et analyse, programmation, éducation et mode de vie. OpenAI prévoit de mettre de nouveaux GPT en avant chaque semaine, ceux qui seront considérés comme les plus “utiles” et les plus “percutants”.
La société présente quelques-uns des GPT mis en vedette : des recommandations personnalisées de sentiers d’AllTrails, la synthèse d’articles académiques avec Consensus, des tutoriels de programmation de Khan Academy, la conception de présentations avec Canva.
“Une fois dans le magasin, les GPT deviennent consultables et peuvent grimper dans les classements. Nous mettrons également en lumière les GPT les plus utiles et les plus agréables que nous rencontrons dans des catégories telles que la productivité, l’éducation et style de vie”.
OpenAI lancera prochainement un programme de rémunération en fonction de l’utilisation des GPT. Il s’adressera dans un premier temps aux créateurs américains dans le cours de ce 1er trimestre 2024. OpenAI ne précise pas ce qu’il entend faire par la suite.
La nouvelle offre ChatGPT Team
OpenAI profite du lancement de GPT-Store pour introduire Team qui permet d’accéder à ses modèles de pointe : GPT-4 avec une fenêtre contextuelle de 32K, GPT-4 Vision et DALL-E 3 , ainsi qu’à des outils comme l’analyse de données avancée. L’offre comprend également un espace de travail collaboratif dédié et des outils d’administration pour une gestion efficace de l’équipe. L’objectif est également d’améliorer la qualité du travail d’équipe en intégrant l’IA dans les flux de travail organisationnels quotidiens.
Comme avec ChatGPT Enterprise, les utilisateurs ont un contrôle total sur leurs données commerciales, avec des garanties de confidentialité. ChatGPT Team est proposé à 25 $ par mois, s’il est facturé annuellement, il est également possible de souscrire à l’offre sans engagement de 30 $ mensuelle.