ActuIA
Microsoft présente Phi-4, son dernier SLM optimisé pour le raisonnement complexe
Avec Phi-4, Microsoft démontre une nouvelle fois qu’il est possible de concilier performance et compacité. Ce SLM de 14 milliards de paramètres qui selon l’entreprise “excelle dans le raisonnement complexe dans des domaines tels que les mathématiques, en plus du traitement du langage conventionnel”, a réussi à surpasser sur certains benchmarks des modèles de pointe tels que Gemini Pro 1.5, GPT-4o ou Claude 3.5 Sonnet. Alors qu’on a pu voir arriver des LLMs affichant un nombre de paramètres de p

Microsoft présente Phi-4, son dernier SLM optimisé pour le raisonnement complexe

Par : Thomas Calvi

17 décembre 2024 à 11:00

Avec Phi-4, Microsoft démontre une nouvelle fois qu’il est possible de concilier performance et compacité. Ce SLM de 14 milliards de paramètres qui selon l’entreprise “excelle dans le raisonnement complexe dans des domaines tels que les mathématiques, en plus du traitement du langage conventionnel”, a réussi à surpasser sur certains benchmarks des modèles de pointe tels que Gemini Pro 1.5, GPT-4o ou Claude 3.5 Sonnet.

Alors qu’on a pu voir arriver des LLMs affichant un nombre de paramètres de plus en plus impressionnant, certains acteurs de l’IA comme Mistral AI ou Google proposent désormais des modèles beaucoup plus compacts. Microsoft, avec ses modèles Phi, s’est intéressé au potentiel des SLMs dès avril 2023. Alors qu’il a dévoilé les modèles Phi-3,5 : Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct, et Phi-3.5-vision-instruct, optimisé chacun pour des tâches spécifiques, en août dernier, il introduit Phi-4.

Selon Microsoft, si Phi-4 surpasse des modèles comparables et plus grands sur le raisonnement lié aux mathématiques, c’est grâce aux progrès réalisés depuis le développement de Phi-3.5. Il explique cette avancée par :

L’usage de données synthétiques de haute qualité, qui enrichissent les capacités du modèle ;
Des processus de post-formation innovants, optimisant ses réponses pour des tâches spécifiques ;
Une conservation rigoureuse des données organiques pour maintenir la pertinence linguistique.

On peut voir dans l’image ci-dessous qu’il surpasse largement LLama-3.1-8B_Instruct et que ses performances sont légèrement en deçà de celles de LLama-3.3-70B-Instruct.

Microsoft a évalué ses performances sur des benchmarks de compétitions mathématiques organisées par la Mathematical Association of America (MAA), notamment les tests AMC 10/12, conçus pour évaluer les compétences en trigonométrie, algèbre, géométrie et probabilité des élèves du secondaire.

Phi-4 a obtenu des résultats impressionnants, surpassant des modèles plus grands comme Gemini Pro 1.5, Claude 3.5 Sonnet et GPT-4o, comme on peut le constater dans ce graphique.

Phi-4 est disponible sous un accord de licence de recherche via Azure AI Foundry. Présentée à Ignite 2024, le mois dernier, cette plateforme fournit des outils robustes pour évaluer, atténuer et gérer les risques liés à l’IA, ce qui garantit une utilisation sûre du modèle. Celui-ci sera également accessible sur Hugging Face dans les prochains jours.

ActuIA
Phi-3.5 : Microsoft présente la dernière génération de ses SLM, optimisée pour des tâches spécifiques
Les modèles de langage de petite taille (SLM) sont une alternative intéressante aux LLMs pour les entreprises qui peuvent les exploiter à moindre coût pour des tâches spécifiques. Microsoft après avoir introduit le SLM Phi-1 en juin 2023 et présenté le 23 avril dernier la famille de modèles open source Phi-3, dévoile à présent les modèles Phi-3,5 : Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct, et Phi-3.5-vision-instruct. Chacun de ces modèles est optimisé pour des tâches spécifiques, tout en part

Phi-3.5 : Microsoft présente la dernière génération de ses SLM, optimisée pour des tâches spécifiques

ActuIA

Par : Thierry Maubant

23 août 2024 à 09:30

Les modèles de langage de petite taille (SLM) sont une alternative intéressante aux LLMs pour les entreprises qui peuvent les exploiter à moindre coût pour des tâches spécifiques. Microsoft après avoir introduit le SLM Phi-1 en juin 2023 et présenté le 23 avril dernier la famille de modèles open source Phi-3, dévoile à présent les modèles Phi-3,5 : Phi-3.5-mini-instruct, Phi-3.5-MoE-instruct, et Phi-3.5-vision-instruct.

Chacun de ces modèles est optimisé pour des tâches spécifiques, tout en partageant une longueur de contexte de 128 000 jetons, permettant une manipulation efficace des données complexes.

Phi-3.5-mini-instruct : un modèle compact et puissant pour environnements restreints

Le Phi-3.5-mini-instruct est le plus petit modèle de la série, conçu pour offrir des performances robustes dans des environnements où les ressources informatiques sont limitées. Avec 3,8 milliards de paramètres, ce modèle est parfaitement adapté aux tâches nécessitant un raisonnement logique solide, telles que la génération de code et la résolution de problèmes mathématiques.

Malgré sa taille réduite, ce modèle a été entraîné sur un impressionnant ensemble de 3,4 billions de jetons à l’aide de 512 GPU H100-80G pendant 10 jours. Les performances de Phi-3.5 Mini Instruct dans les tâches conversationnelles multilingues et multi-tours sont remarquables. Le modèle est compétitif avec d’autres modèles ouverts beaucoup plus grands tels que Llama-3.1-8B-instruct, Mistral-7B-instruct-v0.3 et Mistral-Nemo-12B-instruct-2407. Il a notamment surpassé Llama-3.1-8B-instruct et Mistral-7B-instruct-v0.3 dans le benchmark RepoQA (compréhension du code à contexte long).

Phi-3.5-MoE-instruct : une architecture de mélange d’experts

Le modèle Phi-3.5-MoE (Mixture of Experts) représente une avancée significative dans l’architecture de l’IA. Ce modèle utilise une approche sophistiquée qui active différents “experts” en fonction de la tâche à accomplir, optimisant ainsi les performances pour des tâches spécifiques. Avec 42 milliards de paramètres, dont 6,6 milliards activés à chaque utilisation, le Phi-3.5 MoE est conçu pour gérer des tâches de raisonnement complexes, la compréhension de code et le traitement multilingue.

Il prend en charge les langues suivantes : Allemand, Anglais, Arabe, Chinois, Coréen, Danois, Espagnol, Finnois, Français, Hébreu, Hongrois, Italien, Japonais, Norvégien, Néerlandais, Polonais, Portugais, Russe, Suédois, Thaï, Turc et Ukrainien.

Entraîné sur 4,9 billions de jetons, dont 10 % multilingues, en utilisant 512 GPU H100-80G pendant 23 jours, le modèle MoE a montré une supériorité notable dans les tests de performance spécifiques. Il a surpassé les modèles plus grands Llama 3.1-8B-instruct, Gemma 2-9B-It et Gemini 1.5-Flash mais s’est incliné face à GPT-4o-mini d’OpenAI, dans la majorité des cas. Cependant, dans le test MMLU (Massive Multitask Language Understanding) à 5 coups, il a réussi à prendre l’avantage sur ce dernier.

Microsoft commente :

“Il est encore fondamentalement limité par sa taille pour certaines tâches. Le modèle n’a tout simplement pas la capacité de stocker trop de connaissances factuelles, par conséquent, les utilisateurs peuvent rencontrer des inexactitudes factuelles. Cependant, nous pensons qu’une telle faiblesse peut être résolue en augmentant Phi-3.5 avec un moteur de recherche, en particulier lors de l’utilisation du modèle sous les paramètres RAG”.

Le modèle a fait l’objet d’un processus d’amélioration rigoureux, intégrant un réglage fin supervisé, une optimisation des politiques proximales et une optimisation des préférences directes pour garantir une adhésion précise aux instructions et des mesures de sécurité robustes.

Phi-3.5-vision-instruct : pour les tâches multimodales

Le Phi-3.5-vision-instruct est conçu pour les tâches multimodales, intégrant à la fois des données textuelles et visuelles. Avec 4,15 milliards de paramètres, ce modèle est spécialement adapté pour des applications telles que la reconnaissance optique de caractères (OCR), la compréhension de graphiques et de tableaux, et le résumé vidéo.

Il a été entraîné sur 500 milliards de jetons avec 256 GPU A100-80G sur une période de 6 jours. Son aptitude à traiter et à intégrer des données complexes, combinée à sa capacité à gérer plusieurs images, en fait un outil extrêmement polyvalent pour les tâches nécessitant une analyse détaillée des informations visuelles et textuelles.

Open source pour une adoption généralisée

Les trois modèles de la série Phi-3.5 sont disponibles sous licence MIT, ce qui permet aux développeurs de les utiliser, de les modifier et de les distribuer sans restriction. Ils sont disponibles sur Hugging Face, Phi-3.5 Vision Instruct est également accessible via Azure AI Studio.

Phi-3.5 Microsoft présente la dernière génération de ses SLM, optimisée pour des tâches spécifiques

ActuIA
Microsoft présente Phi-3, la nouvelle génération de ses modèles de langage de petite taille
Les grands modèles de langage (LLM) présentent des capacités impressionnantes dans différents domaines mais les modèles plus petits (SLM) sont une alternative intéressante pour les entreprises qui peuvent les exploiter à moindre coût pour des tâches spécifiques. Microsoft, qui a introduit le SLM Phi-1 en juin 2023, a présenté le 23 avril dernier la famille de modèles ouverts Phi-3. Le plus petit d’entre eux, Phi-3 mini, d’ores et déjà disponible, compte 3,8 milliards de paramètres et, grâce à sa

Microsoft présente Phi-3, la nouvelle génération de ses modèles de langage de petite taille

ActuIA

Par : Pierre-yves Gerlat

25 avril 2024 à 10:30

Les grands modèles de langage (LLM) présentent des capacités impressionnantes dans différents domaines mais les modèles plus petits (SLM) sont une alternative intéressante pour les entreprises qui peuvent les exploiter à moindre coût pour des tâches spécifiques. Microsoft, qui a introduit le SLM Phi-1 en juin 2023, a présenté le 23 avril dernier la famille de modèles ouverts Phi-3. Le plus petit d’entre eux, Phi-3 mini, d’ores et déjà disponible, compte 3,8 milliards de paramètres et, grâce à sa petite taille, peut être déployé en local sur un téléphone ou un ordinateur.

Microsoft présente les modèles Phi-3 comme “les modèles de langage de petite taille les plus performants et les plus rentables disponibles”.

Phi-3 Mini est un modèle de transformateur avec décodeur dense, affiné grâce au fine-tuning supervisé (SFT) et l’optimisation directe des préférences (DPO) pour garantir l’alignement avec les préférences humaines et les directives de sécurité. Il est disponible sur Azure AI Studio, Hugging Face et Ollama.

Il a été entraîné pendant sept jours sur 512 GPU NVIDIA H100 Tensor Core, NVIDIA nous a d’ailleurs précisé qu’il était possible de l’essayer sur ai.nvidia.com où il sera packagé en tant que NVIDIA NIM, “un microservice avec une interface de programmation d’application standard qui peut être déployé n’importe où”.

Dans leur rapport technique, les chercheurs expliquent que “L’innovation réside entièrement dans notre jeu de données pour l’entraînement, une version agrandie de celle utilisée pour PHI-2, composé de données web fortement filtrées et de données synthétiques“.

Le modèle, entraîné sur 3,3 trillions de jetons, a également été aligné pour la robustesse, la sécurité et le format de chat. Sa fenêtre contextuelle, qui peut aller de 4 000 jusqu’à 128 000 jetons, lui permet d’assimiler et de raisonner sur des contenus textuels volumineux (documents, pages Web, code…). Selon Microsoft, Phi-3-mini démontre de solides capacités de raisonnement et de logique, ce qui en fait un bon candidat pour les tâches analytiques.

Des performances solides malgré une petite taille

Microsoft a partagé dans son blog les performances de Phi-3 mini, mais également celles de Phi-3-small (7B) et Phi-3-medium (14B) qui seront prochainement disponibles et ont été entraînés sur 4,8 trillions de tokens.

Les performances des modèles Phi-3 ont été comparées à celles de Phi-2, Mistral-7b, Gemma-7B, Llama-3-instruct-8b, Mixtral-8x7b, GPT-3.5 Turbo et Claude-3 Sonnet. Tous les chiffres déclarés sont produits avec le même pipeline afin qu’ils soient effectivement comparables.

Phi-3-mini surpasse Gemma-7B et Mistral-7B sur certains benchmarks de référence comme MMLU, tandis que Phi-3-small et Phi-3-medium, nettement plus performants, surpassent les modèles beaucoup plus grands, y compris GPT-3.5 Turbo. Cependant, du fait de leur petite taille, les modèles Phi-3 sont moins compétitifs pour les tâches axées sur les connaissances factuelles, telles que celles évaluées dans TriviaQA.

Toutefois, leurs capacités dans de nombreux autres domaines, les rendent particulièrement utiles dans des scénarios où la taille du modèle et les ressources disponibles sont des facteurs critiques, comme dans les environnements à ressources limitées ou les applications nécessitant des temps de réponse rapides.

Vue normale

Phi-3.5-mini-instruct : un modèle compact et puissant pour environnements restreints

Phi-3.5-MoE-instruct : une architecture de mélange d’experts

Phi-3.5-vision-instruct : pour les tâches multimodales

Open source pour une adoption généralisée

Des performances solides malgré une petite taille