ActuIA
Llama 3.2 : Meta présente ses premiers modèles multimodaux à Meta Connect 2024
Meta a dévoilé hier, lors de sa conférence annuelle Meta Connect, la dernière itération de sa famille Llama 3, Llama 3.2. Celle-ci se compose de quatre modèles : les deux plus grands (11B et 90B), multimodaux, peuvent traiter les images, tandis que les deux plus légers (1B et 3B) sont uniquement textuels, comme leurs prédécesseurs. Destinés aux smartphones et aux périphériques, ces modèles de petite taille sont disponibles pour l’Europe, contrairement aux modèles de vision, du moins jusqu’à ce q

Llama 3.2 : Meta présente ses premiers modèles multimodaux à Meta Connect 2024

Par : Thomas Calvi

26 septembre 2024 à 14:00

Meta a dévoilé hier, lors de sa conférence annuelle Meta Connect, la dernière itération de sa famille Llama 3, Llama 3.2. Celle-ci se compose de quatre modèles : les deux plus grands (11B et 90B), multimodaux, peuvent traiter les images, tandis que les deux plus légers (1B et 3B) sont uniquement textuels, comme leurs prédécesseurs. Destinés aux smartphones et aux périphériques, ces modèles de petite taille sont disponibles pour l’Europe, contrairement aux modèles de vision, du moins jusqu’à ce que Meta et l’UE trouvent un terrain d’entente.

Pour rappel, c’est en juillet dernier que Meta avait dévoilé la famille de modèles Llama 3.1 : Llama 3.1 8B et Llama 3.1 70B, deux versions améliorées de Llama 3 7B et Llama 3 70B présentés en avril dernier, mais également Llama 3.1 405B. Ce nombre impressionnant de paramètres fait de ce dernier le plus grand modèle open source à ce jour.

Comme les modèles Llama 3.1, les quatre versions Llama 3.2 sont multilingues et disposent d’une fenêtre contextuelle pouvant aller jusqu’à 128 000 jetons.

Les modèles de vision 11B et 90B

Pour la première fois, les modèles Llama intègrent des capacités de traitement d’images grâce à une nouvelle architecture intégrant un encodeur d’image au modèle de langage. Ils prennent en charge les entrées de texte et d’image ainsi que la sortie de texte, ce qui les rend adaptés à des tâches comme l’analyse de graphiques, la génération de légendes d’images, ou le “visual grounding” comme la localisation directionnelle d’objets dans des images à partir de descriptions en langage naturel.

Les modèles sont prêts à l’emploi pour de nombreux cas d’usage dès leur téléchargement, sans avoir besoin d’entraînements supplémentaires complexes. Sinon, ils peuvent être peaufinés facilement avec TorchTune, puis déployés localement avec TorchChat, ce qui offre une flexibilité maximale pour des applications spécifiques tout en assurant un contrôle local des données et des ressources.

Les SLM 1B et 3B

Ces modèles compacts sont conçus pour fonctionner de manière optimale sur des appareils légers, tels que les téléphones mobiles ou les dispositifs embarqués. Meta a utilisé des techniques d’élagage (pruning) et de distillation pour maintenir des performances élevées sur des tâches telles que la synthèse, le suivi d’instructions et la réécriture, tout en réduisant leur taille pour une meilleure efficacité sur ces appareils.

Disponibles en versions pré-entraînées ou adaptées pour le suivi d’instructions, ils permettent une personnalisation facile pour diverses applications. Optimisés pour les processeurs basés sur l’architecture Arm, ils sont d’ores et déjà disponibles pour les appareils équipés de puces Qualcomm et MediaTek.

Évaluation des modèles Llama 3.2

Les modèles de vision Llama 3.2 (11B et 90B) sont compétitifs avec des modèles leaders comme Claude 3 Haiku et GPT4o-mini sur des tâches de reconnaissance d’image et de compréhension visuelle.

Le modèle 3B surpasse des concurrents comme Gemma 2.6B et Phi 3.5-mini dans des tâches comme le suivi d’instructions, la synthèse et l’utilisation d’outils. Le modèle 1B, plus léger, reste compétitif avec Gemma.

Meta continue de promouvoir une approche ouverte pour encourager l’innovation. Les modèles Llama 3.2 sont disponibles au téléchargement via llama.com et Hugging Face, et peuvent être utilisés directement sur un large éventail de plateformes partenaires.

Llama Stack Distribution

Meta a également introduit les premières distributions de Llama Stack, une suite d’outils conçus pour simplifier le déploiement de ces modèles dans différents environnements y compris en mode nœud unique, sur site, dans le cloud et sur appareil. La distribution sur appareil se fait via PyTorch ExecuTorch, et la distribution en mode nœud unique via Ollama.

Les distributions regroupent plusieurs fournisseurs d’API pour offrir aux développeurs un point d’accès unique. Elles incluent une interface en ligne de commande (CLI), du code client en plusieurs langages (Python, Node, Kotlin, Swift), ainsi que des conteneurs Docker pour simplifier l’intégration. Elles offrent une solution clé en main pour travailler avec les modèles Llama 3.2 dans des contextes variés.

Llama 3.2 : Meta présente ses premiers modèles multimodaux à Meta Connect 2024

ActuIA
Open source : Mistral AI annonce Pixtral 12B, son premier LLM multimodal
C’est sur X que Mistral AI a choisi d’annoncer Pixtral 12B, à l’aide d’un lien magnet Torrent. Ce premier LLM multimodal de la jeune licorne qui peut traiter à la fois le texte et les images est disponible sur GitHub et Hugging Face. Il peut être téléchargé, affiné et utilisé sous la licence open source Apache 2.0 qui permet son utilisation pour la recherche ainsi que le développement commercial. Les 12 milliards de paramètres de Pixtral, basé sur Mistral Nemo 12B présenté en juillet dernier par

Open source : Mistral AI annonce Pixtral 12B, son premier LLM multimodal

ActuIA

Par : Marie-Claude Benoit

16 septembre 2024 à 14:51

C’est sur X que Mistral AI a choisi d’annoncer Pixtral 12B, à l’aide d’un lien magnet Torrent. Ce premier LLM multimodal de la jeune licorne qui peut traiter à la fois le texte et les images est disponible sur GitHub et Hugging Face. Il peut être téléchargé, affiné et utilisé sous la licence open source Apache 2.0 qui permet son utilisation pour la recherche ainsi que le développement commercial.

Les 12 milliards de paramètres de Pixtral, basé sur Mistral Nemo 12B présenté en juillet dernier par la start-up avec NVIDIA, sont répartis sur 40 couches, lui conférant une grande capacité de traitement des données textuelles et visuelles.

Pixtral 12B intègre un adaptateur de vision de 400 millions de paramètres, ce qui permet aux utilisateurs de soumettre des images via des URL ou encodées en base64,un schéma d’encodage binaire-texte. Il peut gérer des images de haute résolution (1024 x 1024 pixels), découpées en patchs de 16 x 16 pixels pour une analyse détaillée. En outre, le modèle peut également reconnaître et traiter plus de 131 000 jetons, cette taille de vocabulaire étendue permet une plus grande flexibilité dans la gestion des données textuelles.

Grâce à ces caractéristiques, Pixtral 12B peut générer des descriptions textuelles détaillées à partir d’images et est particulièrement efficace pour des tâches telles que le sous-titrage d’images, la classification d’images, ou encore le comptage d’objets dans une scène visuelle.

Amélioration de la compréhension visuelle grâce à 2D RoPE

L’une des forces de Pixtral 12B réside dans l’utilisation de la technologie 2D RoPE (Rotary Position Embeddings) pour son encodeur de vision, qui renforce la capacité du modèle à comprendre les relations spatiales dans les images. Cela permet une interprétation précise des éléments visuels dans leur contexte spatial, une fonction cruciale pour les applications nécessitant une compréhension détaillée des images.

Mistral AI devrait donner prochainement plus de détails sur le modèle qu’on devrait bientôt pouvoir tester sur Le Chat et Le Plateforme de la start-up.

ActuIA
GILL, le LLM multimodal de l’Université Carnegie Mellon
Des chercheurs du département d’apprentissage automatique (MLD) et de l’Institut des technologies linguistiques (LTI) de l’Université Carnegie Mellon ont développé en un modèle de langage multimodal à grande échelle (MLLM) nommé Generating Images With Large Language Models (GILL). GILL est l’un des premiers modèles qui accepte à la fois des images et du texte en entrée, et peut superposer du texte et des images dans ses réponses. Les chercheurs ont adapté un modèle de langage autoregressif (LLM

GILL, le LLM multimodal de l’Université Carnegie Mellon

ActuIA

Par : Thierry Maubant

17 janvier 2024 à 12:00

Des chercheurs du département d’apprentissage automatique (MLD) et de l’Institut des technologies linguistiques (LTI) de l’Université Carnegie Mellon ont développé en un modèle de langage multimodal à grande échelle (MLLM) nommé Generating Images With Large Language Models (GILL). GILL est l’un des premiers modèles qui accepte à la fois des images et du texte en entrée, et peut superposer du texte et des images dans ses réponses.

Les chercheurs ont adapté un modèle de langage autoregressif (LLM) pré-entraîné sur du texte afin qu’il traite simultanément des entrées d’images et de texte, tout en produisant des sorties d’images et de texte. Dans cette approche, la majorité des poids du modèle, y compris ceux du générateur d’images, Stable Diffusion, sont maintenus figés. En revanche, un nombre restreint de paramètres est finement ajusté en utilisant des données de légendes d’images pour obtenir une diversité étendue de capacités.

La méthode s’articule autour de plusieurs étapes. Tout d’abord, le modèle doit apprendre à traiter le contenu image-et-texte, une étape essentielle dans son adaptation à une tâche multimodale. Ensuite, le modèle doit être capable de générer des images, qu’elles soient récupérées à partir d’une source existante ou nouvellement créées, et il doit prendre des décisions pour déterminer s’il doit produire du texte ou des images à chaque étape du processus.

Leurs résultats montrent qu’il est possible de mapper efficacement l’espace d’incorporation de sortie d’un modèle de langage pré-entraîné gelé spécifique au texte sur celui d’un modèle de génération text-to-image figé, bien que les deux modèles utilisent des encodeurs de texte entièrement différents.

Le modèle multimodal GILL peut ainsi traiter des entrées d’images et de texte entrelacées arbitrairement pour générer du texte, récupérer des images et générer de nouvelles images.

Aperçu de l’architecture du modèle GILL. Il est entraîné avec une perte de légende pour apprendre à traiter les images (à gauche), et avec des pertes pour la récupération d’image et la génération d’image pour apprendre à produire des images (à droite).

Les chercheurs ont entraîné l’encodeur d’image ViT-L, dérivé de CLIP, à aligner ses embeddings avec ceux générés par le modèle texte-vers-image, et ce dernier à identifier les requêtes demandant une image, permettant ainsi au système de produire ou de récupérer des images.

Ils ont également construit un classificateur linéaire pour permettre au modèle GILL de déterminer quand une image devrait être récupérée ou générée. Pour l’entraîner, ils ont collecté des annotations humaines sur PartiPrompts P2, une collection de 1632 invites utilisée pour évaluer les modèles de génération d’images. Pour chacune d’entre elles, ils ont généré une image et récupéré l’image la plus similaire de CC3M, un ensemble de données composé de ~3,3 millions d’images annotées avec des légendes.

Cinq annotateurs humains ont ensuite sélectionné parmi ces 2 images, celle qui correspondait le mieux à l’invite.

Lors de l’inférence, le modèle prend en compte les entrées d’image et de texte entrelacées arbitrairement et produit du texte entrelacé avec des plongements d’image. Après avoir décidé de récupérer ou de générer pour un ensemble particulier de jetons, il renvoie les sorties d’image appropriées (récupérées ou générées).

GILL peut être invité à générer du texte de type dialogue, comme ci-dessous :

Limitations

Les chercheurs soulignent que malgré ses capacités intéressantes, GILL est un prototype de recherche précoce et présente plusieurs limites, notamment celles des LLM. Ils concluent toutefois :

“Notre approche est modulaire et peut bénéficier de modèles de langage multimodaux ou visuels plus puissants qui seront publiés à l’avenir. L’extension de la dorsale du modèle de langage multimodal, de la dorsale de génération d’images ou du modèle de traitement visuel constitue des orientations prometteuses qui devraient probablement renforcer davantage les capacités vision-langage”.

Références de l’article : Generating Images with Large Language Models class=”arxivid”>arXiv :2305.17216v3

Auteurs : Jing Yu Koh, Daniel Fried, Ruslan Salakhutdinov, Université Carnegie Mellon

Vue normale