Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal
  • ✇ActuIA
  • Les chercheurs de Hugging Face invitent la communauté open source à contribuer au projet Open-R1
    Dix jours après son lancement, DeepSeek R1, qui a suscité l’émoi de la Silicon Valley et perturbé le marché de Wall Street, continue d’alimenter la une des médias internationaux. L’entreprise éponyme qui dit l’avoir mis open source pour soutenir la communauté IA n’a cependant pas révélé tous les éléments qui lui ont permis de développer ce modèle, notamment les ensembles de données et le code d’entraînement. Hugging Face, loin des polémiques, lance le projet Open-R1 et propose à la communauté de

Les chercheurs de Hugging Face invitent la communauté open source à contribuer au projet Open-R1

30 janvier 2025 à 14:00

Dix jours après son lancement, DeepSeek R1, qui a suscité l’émoi de la Silicon Valley et perturbé le marché de Wall Street, continue d’alimenter la une des médias internationaux. L’entreprise éponyme qui dit l’avoir mis open source pour soutenir la communauté IA n’a cependant pas révélé tous les éléments qui lui ont permis de développer ce modèle, notamment les ensembles de données et le code d’entraînement. Hugging Face, loin des polémiques, lance le projet Open-R1 et propose à la communauté de l’aider à construire les pièces manquantes du pipeline R1.

Mené par Leandro von Werra, directeur de la recherche chez Hugging Face, Elie Bakouch et Lewis Tunstall, le projet Open-R1 se veut un exemple de transparence et de partage des connaissances, permettant à chacun de contribuer et d’améliorer le modèle pour des applications variées, allant de la médecine à l’éducation, en passant par la recherche fondamentale.

Ils expliquent le but de leur démarche dans un blog :

“Le projet Open-R1 est une initiative visant à reconstruire systématiquement le pipeline de données et de formation de DeepSeek-R1, à valider ses affirmations et à repousser les limites des modèles de raisonnement ouvert. En créant Open-R1, nous visons à fournir de la transparence sur la façon dont l’apprentissage par renforcement peut améliorer le raisonnement, partager des informations reproductibles avec la communauté open source et créer une base pour de futurs modèles permettant d’exploiter ces techniques.”

Un plan en trois étapes

Pour les trois hommes, “la sortie de DeepSeek-R1 est une aubaine incroyable pour la communauté”.

DeepSeek-R1 est un modèle de raisonnement construit sur la base de DeepSeek-V3, présenté par la start-up chinoise fin décembre dernier, dont les performances sont comparables, à celles de principaux modèles à source fermée, comme GPT-4o ou Claude 3.5 Sonnet, et ce, malgré un coût d’entraînement nettement inférieur.

Le modèle compte 2 versions : DeepSeek-R1-Zero, entraîné par apprentissage par renforcement (RL) sans réglage fin supervisé (SFT), a montré de solides performances. Cependant, il présente des défis tels que la répétition sans fin et la mauvaise lisibilité. Pour résoudre ces problèmes, DeepSeek-R1 intègre des données de démarrage à froid avant l’application du RL et de plusieurs étapes de raffinement qui rejettent les résultats de mauvaise qualité et produisent des réponses polies et cohérentes.

DeepSeek a mis ces 2 versions et six modèles denses distillés à partir de DeepSeek-R1 basés sur Llama et Qwen à la disposition de la communauté.

Les chercheurs de Hugging Face proposent à ceux qui voudront contribuer au projet de les aider à :

  • Étape 1 : Répliquer les modèles R1-Distill en distillant un ensemble de données de raisonnement de haute qualité à partir de DeepSeek-R1.
  • Étape 2 : Répliquer le pipeline RL pur que DeepSeek a utilisé pour créer R1-Zero. Cela impliquera la conservation de nouveaux ensembles de données à grande échelle pour les mathématiques, le raisonnement et le code.
  • Étape 3 : Montrer qu’il est possible de passer du modèle de base → SFT (Supervised Fine-Tuning)→ RL via une formation en plusieurs étapes.

Les chercheurs d’Hugging Face concluent :

“Cette initiative ne consiste pas seulement à reproduire les résultats, mais aussi à partager des idées avec la communauté. En documentant ce qui fonctionne, ce qui ne fonctionne pas et pourquoi, nous espérons éviter à d’autres de perdre du temps et de calculer sur des chemins improductifs.”

Le projet, hébergé sur GitHub, compte plus de 12 000 étoiles, ce qui démontre l’intérêt qu’il suscite.

Les chercheurs de Hugging Face invitent la communauté open source à contribuer au projet Open-R1
  • ✇ActuIA
  • Llama 3.3 70B : Meta dévoile son dernier ajout à la famille Llama 3, un modèle particulièrement efficace
    Alors que Meta prépare le lancement des premiers modèles Llama 4 pour le début de l’année prochaine, l’entreprise a dévoilé en fin de semaine dernière son dernier ajout à la famille Llama 3 : Llama 3.3 70B. Ce modèle, qui comme son nom l’indique compte 70 milliards de paramètres, est aussi performant que Llama 3 405B mais nécessite beaucoup moins de ressources. LLama 3.3 70B a été annoncé par Meta sur X le 6 décembre dernier : “Alors que nous continuons à explorer de nouvelles techniques de post

Llama 3.3 70B : Meta dévoile son dernier ajout à la famille Llama 3, un modèle particulièrement efficace

9 décembre 2024 à 10:26

Alors que Meta prépare le lancement des premiers modèles Llama 4 pour le début de l’année prochaine, l’entreprise a dévoilé en fin de semaine dernière son dernier ajout à la famille Llama 3 : Llama 3.3 70B. Ce modèle, qui comme son nom l’indique compte 70 milliards de paramètres, est aussi performant que Llama 3 405B mais nécessite beaucoup moins de ressources.

LLama 3.3 70B a été annoncé par Meta sur X le 6 décembre dernier :

“Alors que nous continuons à explorer de nouvelles techniques de post-formation, nous lançons aujourd’hui Llama 3.3 – un nouveau modèle open source qui offre des performances et une qualité de pointe dans les cas d’utilisation basés sur du texte, tels que la génération de données synthétiques à une fraction du coût d’inférence”.

Il est distribué sous la “Llama 3.3 Community License Agreement”, qui permet l’utilisation, la reproduction, la distribution, la création d’œuvres dérivées et les modifications du modèle. Cependant, cette licence impose certaines conditions, comme l’obligation de fournir une copie de l’accord de licence avec toute distribution du modèle et d’afficher “Built with Llama” sur les produits dérivés. Les organisations comptant plus de 700 millions d’utilisateurs actifs mensuels devront quant à elles demander une licence commerciale.

S’il n’est pas open source au sens strict de l’OSAID, comme les modèles Llama 3.1 8B, 70B et 405 B, Llama 3.3 70B est un modèle “ouvert” exclusivement textuel. A leur instar, il est multilingue (anglais, allemand, français, italien, portugais, hindi, espagnol et thaïlandais), dispose d’une fenêtre contextuelle pouvant aller jusqu’à 128 000 tokens et de capacités de raisonnement renforcées.

Il a été pré-entraîné sur 15 000 milliards de tokens à partir de données accessibles au public avant d’être affiné sur plus de 25 millions d’exemples générés synthétiquement. Ses connaissances s’arrêtent en décembre 2023. Il utilise l’apprentissage par renforcement avec retour humain (RLHF) et le réglage fin supervisé (SFT), ce qui lui permet de générer des réponses sûres et utiles.

Llama 3.3 70B innove en utilisant la technique Grouped Query Attention (GQA) ce qui lui permet de traiter des tâches complexes de manière plus efficace tout en nécessitant moins de ressources informatiques.

Performances du modèle

Meta a évalué les performances du modèle par rapport à celles de ses prédécesseurs Llama 3.1 70B et 405B et celles de ses concurrents Gemini 1.5 Pro de Google, GPT-4o d’OpenAI et Nova Pro d’Amazon.

Les scores obtenus par LLama 3.3 70B  montrent qu’il est particulièrement adapté pour des cas d’utilisation nécessitant un bon suivi des instructions, une prise en charge multilingue efficace et le traitement de données volumineuses ou complexes :

  • Pour le suivi d’instructions (Instruction Following – IFEval), qui évalue la capacité des modèles à comprendre et exécuter des instructions complexes, il a obtenu un score de 92.1, égal à Amazon Nova Pro mais supérieur à GPT-4o (89.6) et Gemini 1.5 Pro (89.4) ;
  • Multilinguisme (MGSM – 0-shot) : avec un score de 91.1, il excelle dans le traitement multilingue. Ce résultat est proche de LLama 3.1 405B (91,6), inférieur à Claude 3.5 Sonnet (92.8) mais meilleur que Gemini 1.5 Pro (90.6) ;
  • Gestion de longs contextes (Long-context – NIH/Multi-needle) : il obtient 97.5, démontrant une très bonne capacité à traiter de grandes quantités d’informations sur des contextes étendus, surpassant Gemini 1.5 Pro (94.7).

Le modèle peut être téléchargé sur MetaHugging FaceGitHub.

Llama 3.3 70B

Anthropic annonce une version améliorée de Claude 3.5 Sonnet, une nouvelle fonctionnalité “Computer Use” et le nouveau modèle Claude 3.5 Haiku

24 octobre 2024 à 10:12

En juin dernier, Anthropic lançait Claude 3.5 Sonnet, la première version de sa famille de modèles Claude 3.5. Mardi dernier, l’entreprise a présenté les améliorations apportées à ce modèle, notamment en matière de codage, et son dernier ajout à la famille : Claude 3.5 Haiku, un modèle qui égale les performances de Claude 3 Opus, son modèle le plus puissant. Elle a également introduit Computer Use, une fonctionnalité expérimentale d’interaction avec les ordinateurs qui fait, selon elle, de Claude 3.5 Sonnet “le premier modèle d’IA de pointe à offrir une utilisation informatique en version bêta publique”.

Cette fonctionnalité d’utilisation de l’ordinateur, disponible en version bêta, permet aux développeurs de demander au modèle d’interagir avec des interfaces graphiques en simulant les actions humaines, telles que déplacer le curseur ou cliquer sur un bouton.

Claude traduit ainsi les instructions comme “utiliser les données de mon ordinateur et les données en ligne pour remplir ce formulaire” en commandes informatiques : “vérifier une feuille de calcul, déplacer le curseur pour ouvrir un navigateur Web, naviguer vers les pages Web pertinentes, remplir un formulaire avec les données de ces pages…”.

Anthropic explique :

“Lorsqu’un développeur charge Claude d’utiliser un logiciel informatique et lui donne l’accès nécessaire, Claude regarde des captures d’écran de ce qui est visible par l’utilisateur, puis compte le nombre de pixels verticalement ou horizontalement dont il a besoin pour déplacer un curseur afin de cliquer au bon endroit. Il était essentiel d’apprendre à Claude à compter les pixels avec précision. Sans cette compétence, le modèle a du mal à donner des commandes à la souris, de la même manière que les modèles ont souvent du mal à répondre à des questions simples telles que « combien de A dans le mot « banane » ?”

Des entreprises comme Asana, Canva, Cognition, DoorDash, Replit et The Browser Company, exploitent déjà cette capacité pour automatiser des processus complexes qui peuvent nécessiter des dizaines, voire des centaines d’étapes.

Sur OSWorld, qui évalue la capacité des modèles d’IA à utiliser les ordinateurs comme le font les humains, Claude 3.5 Sonnet a obtenu un score de 14,9 % dans la catégorie des captures d’écran uniquement, ce qui est nettement mieux que le score de 7,8 % du meilleur système d’IA. Lorsqu’on lui a donné plus d’étapes pour accomplir la tâche, Claude a obtenu un score de 22,0 %.

Les développeurs peuvent l’essayer via l’API d’Anthropic, Amazon Bedrock et la plateforme Vertex AI de Google Cloud. Anthropic avertit toutefois qu’à ce stade expérimental, le modèle peut être sujet aux erreurs et recommande de ne pas lui donner accès à des données sensibles. L’entreprise a fait le choix de le publier pour recueillir leurs commentaires.

Claude 3.5 Sonnet : des gains en codage et en usage d’outils

Le modèle Claude 3.5 Sonnet montre des améliorations notables par rapport à ses versions précédentes, notamment dans des domaines critiques tels que le codage et l’utilisation d’outils. Selon les benchmarks de l’industrie, Sonnet a amélioré son score sur SWE-bench Verified, un test évaluant les capacités de codage agentique, passant de 33,4 % à 49 %. Cette progression est également visible sur TAU-bench, un benchmark évaluant l’utilisation d’outils en situation réelle, où Sonnet a amélioré ses performances dans les secteurs de la vente au détail et de l’aviation.

Des entreprises comme GitLab et The Browser Company, qui ont testé Sonnet pour des tâches complexes de développement logiciel et d’automatisation de processus web, ont signalé une meilleure capacité à suivre des instructions et à résoudre des problèmes sans augmenter les délais d’exécution.

Claude 3.5 Haiku : rapidité et performance

Claude 3.5 Haiku, de son côté, se positionne comme un modèle plus rapide, tout en offrant des performances similaires à celles de Claude 3 Opus, un modèle plus volumineux de la génération précédente. Il est particulièrement efficace pour les tâches nécessitant une génération rapide de texte, ainsi que pour l’analyse et l’exploitation de grandes bases de données. Haiku se distingue par sa faible latence et son coût maîtrisé, en faisant un choix adapté pour des produits interactifs ou des tâches spécialisées à grande échelle.

Anthropic annonce une version améliorée de Claude 3.5 Sonnet, une nouvelle fonctionnalité "Computer Use" et le nouveau modèle Claude 3.5 Haiku
  • ✇ActuIA
  • RunwayML présente Gen-3 Alpha, son dernier modèle de fondation pour la génération de vidéos
    RunwayML, pionnier dans les outils de création multimédia alimentés par l’IA, a récemment annoncé la prochaine sortie de Gen-3 Alpha. Ce modèle de fondation, offrant des améliorations majeures en termes de fidélité, de cohérence et de mouvement par rapport à son prédécesseur, Gen-2, est présenté par la start-up comme le premier d’une série de modèles entraînés sur une nouvelle infrastructure conçue pour l’entraînement multimodal à grande échelle. Gen-3 Alpha, dont le prédécesseur a été lancé en

RunwayML présente Gen-3 Alpha, son dernier modèle de fondation pour la génération de vidéos

Par : Thomas Calvi
25 juin 2024 à 12:30

RunwayML, pionnier dans les outils de création multimédia alimentés par l’IA, a récemment annoncé la prochaine sortie de Gen-3 Alpha. Ce modèle de fondation, offrant des améliorations majeures en termes de fidélité, de cohérence et de mouvement par rapport à son prédécesseur, Gen-2, est présenté par la start-up comme le premier d’une série de modèles entraînés sur une nouvelle infrastructure conçue pour l’entraînement multimodal à grande échelle.

Gen-3 Alpha, dont le prédécesseur a été lancé en juin 2023, a été entraîné conjointement sur des vidéos et des images. Il alimentera, selon Runway, ses outils Text-to-Video, Image-to-Video et Text-to-Image, les modes de contrôle existants tels que Motion Brush, les commandes avancées de la caméra, le mode réalisateur ainsi que les outils à venir pour un contrôle plus précis de la structure, du style et du mouvement.

Une étape vers la construction de modèles généraux du monde

Gen-3 Alpha est, selon la start-up, une avancée vers ce qu’elle appelle un “General World Model”, un système d’IA qui construit une représentation interne d’un environnement et l’utilise pour simuler des événements futurs dans cet environnement. Un tel modèle sera capable de représenter et de simuler un large éventail de situations et d’interactions, comme celles rencontrées dans le monde réel.

Il devra non seulement capturer la dynamique du monde, mais aussi la dynamique de ses habitants, ce qui implique également de construire des modèles réalistes du comportement humain.

L’entraînement de Gen-3 Alpha est le fruit d’une collaboration entre une équipe interdisciplinaire de chercheurs, d’ingénieurs et d’artistes.

Gen-3 Alpha permet la génération de vidéos de 5 à 10 secondes basées sur des invites créatives complexes, comme celles-ci :

  • Reflets subtils d’une femme sur la fenêtre d’un train roulant à grande vitesse dans une ville japonaise ;
  • Travelling à l’épaule la nuit, suivant un ballon bleu sale flottant au-dessus du sol dans une vieille rue européenne abandonnée.

Il a été entraîné avec des légendes très descriptives et temporellement denses, ce qui lui permet de passer d’une scène à une autre de manière créative et fluide, tout en maintenant une narration cohérente par rapport à l’invite. Le modèle est également très bon dans la génération  de personnages humains photoréalistes, expressifs et dotés d’un large éventail d’actions, de gestes et d’émotions, offrant ainsi des opportunités pour la narration immersive.

Sécurité et intégrité du contenu généré renforcées

Runway a intégré des mesures de protection robustes dans Gen-3 Alpha. La start-up a amélioré son système de modération visuelle interne pour surveiller et filtrer le contenu généré, afin de s’assurer qu’il respecte les normes éthiques et ne contienne pas de matériel inapproprié ou offensant. Elle a également adopté les normes C2PA (Coalition for Content Provenance and Authenticity) qui attestent de l’origine et de l’authenticité d’un contenu.

Des modèles Gen-3 personnalisés

Runway dit avoir établi des partenariats avec des organisations de divertissement et de médias de premier plan pour créer des versions personnalisées de Gen-3 Alpha, qui permettent d’obtenir des personnages plus cohérents et plus contrôlés sur le plan stylistique, et ciblent des exigences artistiques et narratives spécifiques, entre autres fonctionnalités.

La start-up n’a toutefois pas précisé la date de sortie du modèle.

RunwayML-presente-Gen-3-Alpha-modele-fondation-generation-videos

Nouvelle avancée d’OpenAI avec GPT-4o, un modèle qui fusionne le traitement de l’audio, de la vision et du texte en temps réel

14 mai 2024 à 13:50

Alors que les spéculations allaient bon train sur l’arrivée prochaine de GPT-5, OpenAI crée une fois de plus la surprise en présentant ce 13 mai GPT-4o (“o” pour omni) qu’il présente comme son “nouveau modèle phare qui peut raisonner sur l’audio, la vision et le texte en temps réel”.

GPT-4o, qui fait de ChatGPT un assistant vocal, représente une avancée vers des interactions plus naturelles et fluides entre les humains et les machines. Avec une capacité de traitement des commandes audio en seulement 232 millisecondes et de 320 millisecondes en moyenne, il se rapproche de la vitesse de réaction humaine dans les échanges verbaux.

Il offre des performances comparables à celles de GPT-4 Turbo pour le traitement du texte en anglais et du code, mais des performances nettement améliorées pour les autres langues, le tout à une vitesse accrue. En termes de reconnaissance visuelle et de compréhension audio, GPT-4o dépasse, selon les tests réalisés par OpenAI, les modèles existants.

Les fonctionnalités de traitement de texte et d’image de GPT-4o intégrées dans ChatGPT sont accessibles aux utilisateurs de la version gratuite et, avec des limites de messages jusqu’à cinq fois plus élevées, à ceux de ChatGPT Plus. Les utilisateurs gratuits pourront par exemple lui demander de créer des graphiques, d’analyser les données ou des photos. Il  leur sera également possible de télécharger des fichiers et obtenir de l’aide pour les résumer, rédiger ou les analyser et  d’accéder aux GPT et au GPT Store.

OpenAI prévoit de déployer le mode vocal de GPT-4o en version alpha dans ChatGPT Plus dans les prochaines semaines.

Les développeurs peuvent désormais accéder à GPT-4o via l’API pour le traitement de texte et d’image. Comparé à GPT-4 Turbo, GPT-4o est deux fois plus rapide, deux fois moins cher et propose des limites de débit cinq fois plus élevées. La prise en charge des nouvelles capacités audio et vidéo de GPT-4o dans l’API sera déployée par la start-up à un petit groupe de partenaires de confiance dans les semaines à venir.

La start-up a présenté le nouveau modèle sur son blog et lors d’une vidéo en direct dont elle a partagé des extraits sur X.

Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN

Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx

— OpenAI (@OpenAI) May 13, 2024

Live demo of coding assistance and desktop app pic.twitter.com/GlSPDLJYsZ

— OpenAI (@OpenAI) May 13, 2024

gpt4o
  • ✇Intelligence artificielle
  • L’IA du MIT qui prédit les actions humaines
    Imaginez un monde où les ordinateurs pourraient prédire ce que vous allez faire avant même que vous ne le fassiez. Ça peut sembler tout droit sorti d’un film de science-fiction du style de Minority Report, mais les chercheurs du célèbre MIT (Massachusetts Institute of Technology) sont en train de rendre ça possible ! En effet, ils ont mis au point un modèle d’IA (intelligence artificielle) qui est capable d’analyser les limitations d’un agent, qu’il soit humain ou artificiel, pour en déduire se

L’IA du MIT qui prédit les actions humaines

Par : Korben
24 avril 2024 à 20:00

Imaginez un monde où les ordinateurs pourraient prédire ce que vous allez faire avant même que vous ne le fassiez. Ça peut sembler tout droit sorti d’un film de science-fiction du style de Minority Report, mais les chercheurs du célèbre MIT (Massachusetts Institute of Technology) sont en train de rendre ça possible ! En effet, ils ont mis au point un modèle d’IA (intelligence artificielle) qui est capable d’analyser les limitations d’un agent, qu’il soit humain ou artificiel, pour en déduire ses actions futures les plus probables.

Dingue, non ?

Mais comment ce modèle s’y prend-il pour jouer les madame Irma ? En fait, tout est une question de limites. Nan, je ne parle pas des limites de vitesse ou des dates de péremption, hein. Je parle des contraintes qui pèsent sur un agent peu importe sa nature, biologique ou numérique.

Prenons un exemple concret : Vous êtes en train de jouer aux échecs contre un ordinateur. Vous avez vos propres contraintes : votre niveau de jeu, votre connaissance des ouvertures et des fins de partie, votre capacité à anticiper les coups de l’adversaire… Bref, tout un tas de facteurs qui limitent vos possibilités d’action. Eh bien, c’est exactement ce que le modèle d’IA du MIT analyse !

En se basant sur ces fameuses limites, il est capable d’inférer les coups que vous avez le plus de chances de jouer. Pas besoin d’être Garry Kasparov pour comprendre à quel point c’est bluffant. Votre ordinateur sera bientôt meilleur que vous aux échecs… et dans plein d’autres domaines !

Mais attention, le modèle du MIT ne prétend pas prédire l’avenir avec une précision de 100%. Il s’agit plutôt d’identifier des tendances et des schémas de comportement en fonction des limitations d’un agent. Ça reste néanmoins un outil très puissant pour anticiper les actions les plus probables.

D’ailleurs, les applications de cette technologie vont bien au-delà des jeux de société. Je pense par exemple au voitures autonomes qui pourraient anticiper les mouvements des piétons et des autres véhicules, des assistants virtuels qui sauraient exactement ce que vous allez leur demander avant même que vous n’ouvriez la bouche, des robots industriels capables de s’adapter en temps réel aux changements de leur environnement… Les possibilités sont infinies !

Bien sûr, tout cela soulève aussi son lot de questions éthiques. Est-ce qu’on a vraiment envie que les machines lisent dans nos pensées comme dans un livre ouvert ? Est-ce que ça ne risque pas de créer de sacrés problèmes de vie privée et de manipulation ? Imaginez que votre enceinte connectée décide de vous commander une pizza quatre fromages parce qu’elle a deviné que vous aviez un petit creux… Flippant, non ?

Mais bon, on n’en est pas encore là. Pour l’instant, les chercheurs du MIT sont encore en train de plancher sur leur modèle pour le perfectionner et étendre ses capacités. Et croyez-moi, c’est loin d’être un long fleuve tranquille ! L’IA a beau faire des progrès de géant, prédire le comportement humain reste un sacré défi. On est tellement imprévisibles et irrationnels, nous autres mortels…

En attendant de pouvoir déléguer toutes nos décisions à une machine, le modèle du MIT nous offre un aperçu de ce que pourrait être le futur de l’interaction homme-machine. Un futur où les ordinateurs nous comprendraient mieux que nous-mêmes, pour le meilleur et pour le pire. Perso, j’oscille entre fascination et inquiétude.

Et vous ?

Source

❌
❌