Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal
  • ✇ActuIA
  • NVIDIA AI Foundry intègre Llama 3.1 pour aider les entreprises à créer des modèles personnalisés
    NVIDIA annonce le lancement d’un nouveau service NVIDIA AI Foundry qui permettra aux entreprises d’utiliser la nouvelle famille Llama 3.1 pour créer des modèles personnalisés avec leurs données propriétaires ainsi que des données synthétiques générées par Llama 3.1 405B et le modèle NVIDIA Nemotron. Le service couvre la curation, la génération de données synthétiques, le réglage fin, la récupération, les garde-fous et l’évaluation pour déployer des microservices NVIDIA NIM Llama 3.1 personnalisé

NVIDIA AI Foundry intègre Llama 3.1 pour aider les entreprises à créer des modèles personnalisés

Par : Thomas Calvi
25 juillet 2024 à 11:00

NVIDIA annonce le lancement d’un nouveau service NVIDIA AI Foundry qui permettra aux entreprises d’utiliser la nouvelle famille Llama 3.1 pour créer des modèles personnalisés avec leurs données propriétaires ainsi que des données synthétiques générées par Llama 3.1 405B et le modèle NVIDIA Nemotron.

Le service couvre la curation, la génération de données synthétiques, le réglage fin, la récupération, les garde-fous et l’évaluation pour déployer des microservices NVIDIA NIM Llama 3.1 personnalisés avec les nouveaux microservices NVIDIA NeMo Retriever introduits le 23 juillet dernier pour des réponses précises.

NVIDIA avait lancé NVIDIA AI Foundry, une plateforme permettant de créer des modèles d’IA génératifs personnalisés avec des données d’entreprise et des connaissances spécifiques à un domaine, en novembre dernier sur Microsoft Azure. Ce service rassemblait trois éléments : une collection de modèles de base d’IA NVIDIA, le cadre et les outils NeMo de NVIDIA ainsi que les services de calcul intensif d’IA dans le cloud NVIDIA DGX, afin d’offrir aux entreprises une solution de bout en bout pour créer des modèles d’IA génératifs personnalisés.

Aujourd’hui, les entreprises peuvent utiliser le nouveau service AI Foundry pour personnaliser les modèles communautaires y compris la nouvelle collection Llama 3.1, ainsi que NVIDIA Nemotron, CodeGemma de Google DeepMind, CodeLlama, Gemma de Google DeepMind, Mistral, Mixtral, Mistral NeMo 12b, présenté il y a quelques jours, Phi-3, StarCoder2 et d’autres.

Les clients peuvent générer leurs modèles AI Foundry sous forme de microservices d’inférence NVIDIA NIM (NeMo Inference Microservices), qui incluent le modèle personnalisé, des moteurs optimisés et une API standard, pour s’exécuter sur l’infrastructure accélérée de leur choix. Ces microservices permettent une exécution rapide et efficace des modèles d’IA en production, avec des améliorations significatives des performances par rapport aux méthodes d’inférence traditionnelles.

Comment fonctionne NVIDIA AI Foundry ?

NVIDIA AI Foundry utilise des données d’entreprise, ainsi que des données générées synthétiquement, pour augmenter et modifier les connaissances générales contenues dans un modèle de fondation pré-entraîné. Une fois que le modèle est personnalisé, évalué et doté de garde-fous, il est généré en tant que microservice d’inférence NIM de la plateforme NVIDIA AI Enterprise 5.0 introduite en mars dernier lors de la GTC 2024. Les développeurs utilisent l’API standard du NIM pour créer des applications génératives alimentées par l’IA. Les connaissances acquises à partir des applications en cours de déploiement peuvent être réinjectées dans AI Foundry afin d’améliorer encore les modèles personnalisés.

Accenture, Aramco, AT&T, Uber sont parmi les premiers à utiliser les nouveaux microservices Llama NVIDIA NIM.

NVIDIA AI Foundry intègre Llama 3.1 pour aider les entreprises à créer des modèles personnalisés
  • ✇ActuIA
  • Meta publie la famille Llama 3.1, dont Llama 3.1 405B, le plus grand de ses modèles open source
    Meta a présenté hier la famille de modèles Llama 3.1 : Llama 3.1 8B et Llama 3.1 70B, deux versions améliorées de Llama 3 7B et Llama 3 70B présentés en avril dernier, mais également Llama 3.1 405B. Ce nombre impressionnant de paramètres, alors que la tendance ces derniers temps est aux modèles plus légers, fait de ce dernier le plus grand modèle open source à ce jour. Meta Llama 3.1 405B est, comme les deux précédents modèles de la famille Llama 3, un modèle textuel. Pour l’entraînement, Meta a

Meta publie la famille Llama 3.1, dont Llama 3.1 405B, le plus grand de ses modèles open source

24 juillet 2024 à 09:30

Meta a présenté hier la famille de modèles Llama 3.1 : Llama 3.1 8B et Llama 3.1 70B, deux versions améliorées de Llama 3 7B et Llama 3 70B présentés en avril dernier, mais également Llama 3.1 405B. Ce nombre impressionnant de paramètres, alors que la tendance ces derniers temps est aux modèles plus légers, fait de ce dernier le plus grand modèle open source à ce jour.

Meta Llama 3.1 405B est, comme les deux précédents modèles de la famille Llama 3, un modèle textuel. Pour l’entraînement, Meta a utilisé le même ensemble de données publiques, totalisant plus de 15 000 milliards de jetons, soit 7 fois plus que celui de Llama 2. Il compte également plus de données non anglaises, plus de données mathématiques et de code ainsi que de données Web récentes.

Les trois versions de la nouvelle famille sont aujourd’hui multilingues (anglais, allemand, français, italien, portugais, hindi, espagnol et thaïlandais), disposent d’une fenêtre contextuelle pouvant aller jusqu’à 128 000 jetons et de capacités de raisonnement renforcées. Meta a également apporté des modifications à sa licence, permettant aux développeurs d’utiliser les résultats des modèles Llama, y ​​compris le 405B, pour améliorer d’autres modèles.

Les trois modèles sont à la disposition de la communauté en téléchargement sur llama.meta.com et Hugging Face.

Optimisations techniques

L’entraînement de Llama 3.1 405B a représenté un défi technique majeur en raison de sa taille. Pour mener à bien ce processus, Meta a optimisé sa pile d’entraînement complète et utilisé plus de 16 000 GPU H100. Cette infrastructure massive a permis d’entraîner le modèle sur une échelle sans précédent et d’obtenir des résultats en un délai raisonnable.

Meta a opté pour une architecture de modèle de transformateur standard uniquement avec décodeur avec des adaptations mineures pour maximiser la stabilité de la formation. Cette approche a été préférée à celle des modèles composés d’experts, qui peuvent être plus complexes à gérer et moins stables.

Amélioration des procédures de post-entraînement

Meta a adopté une procédure de post-entraînement itérative, où chaque cycle utilise un réglage fin supervisé et une optimisation directe des préférences. Cela a permis de créer des données synthétiques de haute qualité pour chaque cycle, améliorant ainsi les performances du modèle sur toutes ses capacités.

Comparée aux versions précédentes de Llama, la qualité des données pour le pré-entraînement et le fine-tuning a été considérablement améliorée grâce à des pipelines de prétraitement plus soignés et des approches de filtrage rigoureuses.

Inférence et quantification

Pour prendre en charge l’inférence de production à grande échelle, Meta a quantifié ses modèles de 16 bits (BF16) à 8 bits (FP8). Cette quantification réduit efficacement les exigences de calcul, permettant au modèle de s’exécuter sur un seul nœud de serveur, une optimisation cruciale pour déployer des modèles aussi grands dans des environnements de production tout en contrôlant les coûts et les ressources nécessaires.

Performances de Llama 3.1 405B

Meta a évalué les performances du modèle sur plus de 150 jeux de données de référence couvrant de nombreuses langues. Des évaluations humaines approfondies ont également été réalisées pour le comparer à des modèles concurrents dans des scénarios réels.

Les résultats montrent que Llama 3.1 405B est compétitif avec les principaux modèles de fondation comme GPT-4, GPT-4o et Claude 3.5 Sonnet.

Les modèles plus petits de la famille Llama 3.1 sont eux aussi compétitifs avec des modèles fermés et ouverts ayant un nombre similaire de paramètres.

Meta travaille à apporter d’autres modalités au modèle, les images, la vidéo et l’audio. Il pourrait alors ne pas être disponible pour les Européens puisque Meta a décidé de suspendre le lancement des modèles Llama 3 multimodaux au sein de l’UE face à un “environnement réglementaire imprévisible”.

Pour Meta, l’IA en libre accès doit devenir la norme du secteur. C’est ce qu’explique Mark Zuckerberg dans le blog “L’IA open source est la voie à suivre”, où il présente la collaboration de son entreprise avec des entreprises pour développer l’écosystème d’IA mais également les bénéfices de l’open source pour les développeurs et la société.

 

Intéressé(e) par l’IA et l’Open Source ? Ne manquez pas le numéro 16 du magazine ActuIA

Meta publie la famille Llama 3.1, dont Llama 3.1 405B, le plus grand de ses modèles open source
❌
❌