LEBIGDATA.FR
Êtes-vous assez poli ? Cette nouvelle IA d’Intel peut le mesurer dans vos textes !
Lorsque nous écrivons un message, nous ne mesurons pas toujours son impact. Parfois, un simple mot mal choisi peut donner une impression froide ou agressive. Intel a introduit une IA appelée Polite Guard. Ce modèle analyse le niveau de courtoisie des écrits. Les mots que nous utilisons influencent la perception des autres. Mais j’avoue, juger objectivement la politesse d’un texte est vraiment complexe. C’est dans ce contexte qu’Intel propose une solution innovante avec son IA open source, Pol

Êtes-vous assez poli ? Cette nouvelle IA d’Intel peut le mesurer dans vos textes !

Par : Nirina R.

20 février 2025 à 16:52

Lorsque nous écrivons un message, nous ne mesurons pas toujours son impact. Parfois, un simple mot mal choisi peut donner une impression froide ou agressive. Intel a introduit une IA appelée Polite Guard. Ce modèle analyse le niveau de courtoisie des écrits.

Les mots que nous utilisons influencent la perception des autres. Mais j’avoue, juger objectivement la politesse d’un texte est vraiment complexe. C’est dans ce contexte qu’Intel propose une solution innovante avec son IA open source, Polite Guard, une intelligence artificielle capable d’analyser et de noter la politesse de vos écrits.

Oui, Intel propose une IA qui évalue la politesse dans vos messages

Basée sur BERT, une technologie avancée de traitement du langage naturel, l’IA d’Intel évalue chaque message. Elle le classe ensuite dans l’une des quatre catégories suivantes : poli, plutôt poli, neutre ou impoli. En d’autres termes, elle pose un regard objectif sur nos écrits et nous aide à les améliorer.

Polite Guard intervient avant qu’un texte soit envoyé et aide à ajuster le ton. Grâce à cet outil, les entreprises peuvent garantir des réponses plus respectueuses et renforcer la confiance de leurs clients.

Cette innovation est surtout utile pour les échanges automatisés. Par exemple, les chatbots doivent répondre de manière fluide et naturelle.

Une IA capable d’ajuster le ton des réponses représente une grande avancée. Car oui, les assistants virtuels ont souvent du mal à comprendre les subtilités du langage humain.

Build more robust, respectful, and customer-friendly #NaturalLanguageProcessing apps with Polite Guard, our new #OpenSource model. Fine-tuned from BERT, Polite Guard classifies text into four categories to ensure polite interactions across platforms. https://t.co/vR0IU9KKmc pic.twitter.com/T8gjtfbolD
— Intel Software (@IntelSoftware) February 17, 2025

En plus de son rôle dans la communication, Polite Guard protège les systèmes contre les contenus agressifs ou inappropriés. Il offre un mécanisme de défense contre les attaques adverses. Pour cela, il filtre les réponses et veille à ce que la sortie de texte soit toujours adaptée.

C’est une technologie libre et ouverte à tous

Polite Guard est en open source ! En effet, son code est disponible sur GitHub et Hugging Face. Il permet aux développeurs de l’adapter à leurs propres besoins.

Mais plus important encore, cette approche encourage une amélioration constante. Chaque utilisateur peut contribuer, affiner les algorithmes et proposer des mises à jour. Une avancée qui profite à tous, car l’objectif final est clair : instaurer une communication plus respectueuse sur le web.

Pour terminer, notons que Polite Guard ne se limite pas aux professionnels. Il peut être utilisé par tout le monde, pour s’assurer que ses messages restent bienveillants.

Que pensez-vous de Polite Guard ? Trouvez-vous utile qu’une IA analyse et corrige la politesse de nos textes ? Partagez votre avis en commentaire.

Cet article Êtes-vous assez poli ? Cette nouvelle IA d’Intel peut le mesurer dans vos textes ! a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Hugging Face Pi0 vient d’apprendre le langage aux robots
Hugging Face et Physical Intelligence ont dévoilé Pi0 (Pi-Zero), un modèle innovant. Ce dernier permet aux robots de transformer des commandes en langage naturel en actions physiques. Hugging Face Pi0 apporte une nouvelle dimension à la robotique. Désormais, les machines comprennent et exécutent les instructions en langage naturel. Plus besoin de lignes de code complexes. Il suffit de parler, et le robot obéit. Comme ChatGPT a changé la génération de texte, Pi0 veut révolutionner l’interac

Hugging Face Pi0 vient d’apprendre le langage aux robots

LEBIGDATA.FR

Par : Nirina R.

14 février 2025 à 10:58

Hugging Face et Physical Intelligence ont dévoilé Pi0 (Pi-Zero), un modèle innovant. Ce dernier permet aux robots de transformer des commandes en langage naturel en actions physiques.

Hugging Face Pi0 apporte une nouvelle dimension à la robotique. Désormais, les machines comprennent et exécutent les instructions en langage naturel.

Plus besoin de lignes de code complexes. Il suffit de parler, et le robot obéit. Comme ChatGPT a changé la génération de texte, Pi0 veut révolutionner l’interaction entre humains et robots.

Hugging Face Pi0 : un robot qui comprend le langage humain

Tout d’abord, il faut comprendre ce qui rend Pi0 unique. Je note qu’il ne s’agit pas d’un simple programme rigide, mais d’un véritable cerveau artificiel.

Développé par Physical Intelligence, ce modèle fonctionne sur LeRobot, une plateforme innovante qui traduit directement les mots en actions.

Je vous donne un exemple : dites-lui « Débarrasse la table », et il s’exécute aussitôt. C’est en réponse à la complexité des robots traditionnels que Pi0 a été conçu.

Jusqu’ici, les machines suivaient des instructions codées, sans réelle compréhension. Mais désormais, elles réagissent aux ordres comme un assistant humain.

D’ailleurs, Rémi Cadene, chercheur chez Hugging Face, l’affirme avec conviction dans un article sur X (anciennement Twitter) : « Pi0 est le modèle d’action en langage visuel le plus avancé ».

Ce n’est plus une simple IA qui apprend, c’est un système capable de comprendre et d’exécuter des tâches du quotidien !

⭐ The first foundational model available on @LeRobotHF ⭐

Pi0 is the most advanced Vision Language Action model. It takes natural language commands as input and directly output autonomous behavior.

It was trained by @physical_int and ported to pytorch by @m_olbap
👇🧵 pic.twitter.com/WysqMN1xbk
— Remi Cadene (@RemiCadene) February 4, 2025

Toutefois, il ne s’agit pas juste d’une prouesse technique. Pi0 s’appuie sur une base de données massive, enrichie grâce à sept plateformes robotiques et 68 tâches spécifiques. C’est ainsi que le modèle peut s’adapter à de multiples situations, en améliorant constamment ses performances.

C’est une technologie rapide, précise et adaptable

Au fait, comment Pi0 parvient-il à exécuter des actions aussi fluides ? Son secret réside dans une technologie révolutionnaire appelée flow matching.

Ce procédé permet aux robots de générer des mouvements naturels à une fréquence impressionnante de 50 Hz. C’est la raison pour laquelle ils peuvent réagir en temps réel, sans latence.

Une version améliorée, Pi0-FAST, a également été développée. Elle utilise un nouveau système de tokenisation appelé tokenisation de séquence d’action en espace de fréquence (FAST).

Grâce à cette technologie, Pi0-FAST s’entraîne 5 fois plus vite que la version classique et s’adapte mieux aux différents types de robots.

Pour information, Hugging Face Pi0 n’est pas réservé uniquement aux grandes entreprises, puisqu’il est disponible en open source.

Cela permet à tout un chacun de l’adopter et de l’ajuster en fonction de ses besoins. Et bien sûr, cette accessibilité favorise le développement de nouvelles applications et facilite l’intégration des robots dans différents secteurs.

En dépit de ses avancées, Pi0 présente encore certaines limites. Il a des difficultés avec des tâches très spécifiques et demande des ressources informatiques élevées.

Ces défis, cependant, ne ralentissent pas son adoption croissante, car chaque jour, de nouvelles optimisations lui permettent d’évoluer.

Que pensez-vous de cette avancée technologique ? Voyez-vous plutôt cette technologie comme un avantage ou un risque pour l’emploi humain ?

Cet article Hugging Face Pi0 vient d’apprendre le langage aux robots a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Ils ont copié OpenAI Deep Research en 24 heures, et vous pouvez l’utiliser gratuitement
Vous avez entendu parler de Deep Research d’OpenAI ? C’est une fonctionnalité qui permet à ChatGPT de mener des recherches en ligne approfondies et de générer des analyses précises. Mais à peine lancé, Deep Research a déjà une copie ! Ainsi, une petite équipe de développeurs de Hugging Face s’est donné 24 heures pour créer une alternative open source. Et la meilleure partie ? Vous pouvez l’utiliser gratuitement. Deep Research, c’est la nouvelle arme d’OpenAI. Un ChatGPT dopé à la recherche lo

Ils ont copié OpenAI Deep Research en 24 heures, et vous pouvez l’utiliser gratuitement

LEBIGDATA.FR

Par : Mariano R.

6 février 2025 à 05:15

Vous avez entendu parler de Deep Research d’OpenAI ? C’est une fonctionnalité qui permet à ChatGPT de mener des recherches en ligne approfondies et de générer des analyses précises. Mais à peine lancé, Deep Research a déjà une copie ! Ainsi, une petite équipe de développeurs de Hugging Face s’est donné 24 heures pour créer une alternative open source. Et la meilleure partie ? Vous pouvez l’utiliser gratuitement.

Deep Research, c’est la nouvelle arme d’OpenAI. Un ChatGPT dopé à la recherche longue, capable de parcourir le web et d’en extraire des rapports détaillés. Une fonctionnalité impressionnante, mais enfermée dans l’écosystème fermé d’OpenAI.

De l’autre côté, Hugging Face, l’entreprise franco-américaine connue pour son engagement dans l’open source, a créé un équivalent accessible à tous. Et en seulement 24 heures. Leur version n’est pas aussi aboutie, mais elle se défend étonnamment bien.

Hugging Face et son clone open source de Deep Research

Ce 3 février, OpenAI a dévoilé Deep Research, une nouvelle fonctionnalité de ChatGPT qui permet à l’IA de mener des recherches approfondies sur le web. Je me souviens bien que les premiers utilisateurs étaient bluffés.

Deep Research a passé le test GAIA avec 67,36 % d’exactitude, contre moins de 7 % pour GPT-4 seul. C’est donc 10 fois plus efficace que les modèles classiques !

Chez Hugging Face, les développeurs n’ont pas traîné. Cette entreprise franco-américaine, spécialisée dans l’open source, a donc décidé de créer une copie open source de Deep Research en 24 heures chrono.

Toutefois, je vous rappelle qu’OpenAI a mis des millions de dollars dans Deep Research. Hugging Face, lui, a donc dû faire avec beaucoup moins de moyens. Son équipe reconnaît que la version open source prendra du temps à atteindre le même niveau. Par exemple, elle ne peut pas encore analyser d’images, contrairement à l’outil d’OpenAI.

Mais les résultats sont déjà impressionnants. Avec GPT-o1, un modèle d’OpenAI moins puissant que celui utilisé dans Deep Research, le clone de Hugging Face atteint 54 % de bonnes réponses au test GAIA. Ce score le place parmi les meilleurs modèles actuels, devant Llama 3 ou DeepSeek-R1 !

Comment ont-ils réussi cet exploit ?

Dans un billet de blog, les développeurs de Hugging Face expliquent leur méthode. Ils ont donc repris une approche similaire à celle d’OpenAI. Ils ont utilisé un agent qui guide le modèle d’IA et lui indique quoi faire et dans quel ordre.

Hugging Face just released Open DeepResearch – SoTA open framework on GAIA bench scoring a WHOOPING 54% in LESS THAN 24 hours 🔥

All code is open source plus whole lot of improvements on the way! 🤗 pic.twitter.com/lZtXVftRhN
— Vaibhav (VB) Srivastav (@reach_vb) February 4, 2025

Puis, ils ont intégré un navigateur web très léger, optimisé pour lire uniquement du texte. Ils ont ensuite ajouté un inspecteur de texte capable d’extraire des infos depuis différents formats de documents.

Ces outils ne sont pas aussi avancés que ceux d’OpenAI, certes, mais ils ont l’énorme avantage d’être open source et accessibles à tous.

Si OpenAI verrouille son écosystème, Hugging Face prend donc le pari inverse. C’est de partager la technologie et permettre à n’importe qui de l’améliorer. Pour les entreprises ou les développeurs, c’est une alternative prometteuse qui pourrait bientôt rivaliser avec Deep Research.

Entre OpenAI et Hugging Face, qui prendra l’avantage selon vous ? Laissez votre pronostic en commentaire et voyons ensemble comment ça évolue !

Cet article Ils ont copié OpenAI Deep Research en 24 heures, et vous pouvez l’utiliser gratuitement a été publié sur LEBIGDATA.FR.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Des développeurs ont copié ChatGPT Deep Research en 24 heures (et c’est open source)
Deep Research, le nouvel outil d'OpenAI, est capable d'effectuer de longues recherches en ligne et de synthétiser les résultats en quelques dizaines de minutes. Des développeurs de Hugging Face ont conçu leur propre version du système afin de proposer une alternative open source.

Des développeurs ont copié ChatGPT Deep Research en 24 heures (et c’est open source)

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Hugo Bernard

5 février 2025 à 11:01

Deep Research, le nouvel outil d'OpenAI, est capable d'effectuer de longues recherches en ligne et de synthétiser les résultats en quelques dizaines de minutes. Des développeurs de Hugging Face ont conçu leur propre version du système afin de proposer une alternative open source.

LEBIGDATA.FR
Après ChatGPT, DeepSeek s’attaque à MidJourney avec une IA d’images : tout savoir !
DeepSeek passe à la vitesse supérieure ! Après avoir impressionné le monde avec son IA open source DeepSeek R1, l’entreprise chinoise s’attaque maintenant au marché de la génération d’images. Son nouveau modèle, Janus Pro, promet de rivaliser avec les géants comme MidJourney et DALL-E 3. Voici tout ce qu’il faut savoir ! DeepSeek ne compte pas rester dans l’ombre de ChatGPT et Stable Diffusion. Avec Janus Pro, son modèle d’IA dédié à la création d’images, l’entreprise chinoise espère s’impose

Après ChatGPT, DeepSeek s’attaque à MidJourney avec une IA d’images : tout savoir !

LEBIGDATA.FR

Par : Mariano R.

29 janvier 2025 à 07:33

DeepSeek passe à la vitesse supérieure ! Après avoir impressionné le monde avec son IA open source DeepSeek R1, l’entreprise chinoise s’attaque maintenant au marché de la génération d’images. Son nouveau modèle, Janus Pro, promet de rivaliser avec les géants comme MidJourney et DALL-E 3. Voici tout ce qu’il faut savoir !

DeepSeek ne compte pas rester dans l’ombre de ChatGPT et Stable Diffusion. Avec Janus Pro, son modèle d’IA dédié à la création d’images, l’entreprise chinoise espère s’imposer face aux poids lourds du secteur.

Disponible sur GitHub et Hugging Face, Janus Pro existe en deux versions. DeepSeek affirme que sa version la plus puissante peut rivaliser avec Stable Diffusion et DALL-E 3, mais cette déclaration reste à vérifier.

Mais ce qui intrigue le plus, c’est la manière dont DeepSeek développe ses modèles. Contrairement aux grandes entreprises occidentales, l’entreprise utiliserait un budget bien plus réduit et du matériel moins performant.

DeepSeek se lance dans l’IA d’images avec Janus Pro

Après avoir secoué le monde de l’IA avec son modèle open source DeepSeek R1, voilà que DeepSeek s’attaque maintenant à la génération d’images avec Janus Pro.

Si vous ne connaissez pas encore DeepSeek, sachez que c’est un nouvel acteur incontournable dans l’univers de l’IA. Son modèle de langage DeepSeek R1 a déjà fait du bruit, et aujourd’hui, l’entreprise chinoise enfonce le clou avec Janus Pro, son modèle d’IA capable de générer des images.

Ce que je trouve le plus impressionnant, c’est que DeepSeek conçoit ses modèles avec beaucoup moins de budget que les géants de l’Ouest et utilise du matériel plus ancien.

NEWS: DeepSeek just dropped ANOTHER open-source AI model, Janus-Pro-7B.

It's multimodal (can generate images) and beats OpenAI's DALL-E 3 and Stable Diffusion across GenEval and DPG-Bench benchmarks.

This comes on top of all the R1 hype. The 🐋 is cookin' pic.twitter.com/yCmDQoke0f
— Rowan Cheung (@rowancheung) January 27, 2025

DeepSeek a donc lancé Janus Pro sur GitHub et Hugging Face, en proposant deux versions. Notamment, 1 milliard de paramètres (plus léger) et 7 milliards de paramètres (le plus puissant). D’après les premiers retours, Janus Pro 7B rivaliserait avec Stable Diffusion et DALL-E 3 en termes de performances.

Des débuts prometteurs… mais quelques soucis

Le petit bémol pour l’instant, ce sont les images que Janus Pro génère. Ils sont limités à 384 × 384 pixels. Toutefois, la démo sur Hugging Face permet déjà de produire des images en 768 × 768 pixels. Nous pouvons donc espérer des améliorations à venir.

Qui plus est, DeepSeek ne connaît pas un lancement sans accroc. Des attaques malveillantes à grande échelle ont provoqué des pannes généralisées de son chatbot.

Par conséquent, l’inscription a été temporairement restreinte aux utilisateurs possédant un numéro de téléphone basé en Chine. Heureusement, l’accès via e-mail semble avoir été rétabli rapidement.

Alors, faut-il garder un œil sur DeepSeek ? Clairement, je pense que oui. Si Janus Pro parvient à tenir tête aux leaders actuels, cela pourrait bien bousculer le marché. Et si DeepSeek continue de proposer des IA performantes avec des moyens réduits, la Silicon Valley a de bonnes raisons de s’inquiéter.

DeepSeek a-t-il le potentiel de bousculer le marché de la génération d’images, ou pensez-vous que MidJourney et DALL-E 3 restent indétrônables ? Partagez votre avis en commentaire !

Cet article Après ChatGPT, DeepSeek s’attaque à MidJourney avec une IA d’images : tout savoir ! a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Microsoft Phi-4 : la puissante IA est dispo sur Hugging Face ! Comment l’utiliser ?
Phi-4, ce modèle de langage de Microsoft, est maintenant disponible sur Hugging Face ! Sous licence MIT, il propose des résultats impressionnants tout en étant simple d’accès. Ce mercredi, Microsoft a rendu accessible son modèle de langage Phi-4. Ce modèle d’intelligence artificielle de la série Phi, lancé le mois dernier, était alors uniquement accessible via Azure AI Foundry. À ce moment-là, Microsoft avait annoncé qu’il rendrait prochainement le code source du modèle accessible au public.

Microsoft Phi-4 : la puissante IA est dispo sur Hugging Face ! Comment l’utiliser ?

LEBIGDATA.FR

Par : Nirina R.

10 janvier 2025 à 10:32

Phi-4, ce modèle de langage de Microsoft, est maintenant disponible sur Hugging Face ! Sous licence MIT, il propose des résultats impressionnants tout en étant simple d’accès.

Ce mercredi, Microsoft a rendu accessible son modèle de langage Phi-4. Ce modèle d’intelligence artificielle de la série Phi, lancé le mois dernier, était alors uniquement accessible via Azure AI Foundry. À ce moment-là, Microsoft avait annoncé qu’il rendrait prochainement le code source du modèle accessible au public.

Et bonne nouvelle ! Désormais, le modèle, conçu pour le raisonnement, est accessible sur Hugging Face. Je vous explique comment l’utiliser.

Alors, pourquoi Microsoft Phi-4 fait sensation ?

Microsoft Phi-4 surprend par sa taille compacte et ses performances exceptionnelles. Lancé en décembre dernier, il a captivé l’attention rapidement. Eh oui, il consomme peu d’énergie, ce qui représente un grand avantage.

Comparé à des modèles comme GPT-4 d’OpenAI, il offre une solution plus légère mais tout aussi efficace. Jusqu’alors, aucun modèle ne réunissait une telle simplicité d’utilisation et une grande efficacité.

Il fonctionne sur du matériel standard, ce qui écarte le besoin d’infrastructures coûteuses. Or, cela attire particulièrement les entreprises de taille moyenne.

En mathématiques, il se distingue avec un score élevé de 80,4 au test MATH. Cela dépasse des modèles plus volumineux. Dans tous les cas, il répond parfaitement aux attentes dans des secteurs comme la finance ou l’ingénierie.

De plus, Microsoft a conçu Phi-4 pour des applications variées. Il reste précis et fiable dans des domaines comme la santé ou le service client. Et si la sécurité est une priorité, sachez qu’il embarque des outils robustes pour éviter les erreurs ou les dérives.

Phi-4 bénéficie des outils de sécurité d’Azure AI, qui réduisent les risques associés à des usages malveillants. Cela permet aux entreprises de l’utiliser en toute confiance, même dans des environnements sensibles.

Comment accéder à Phi-4 sur Hugging Face ?

Je vais maintenant vous expliquer de manière simple comment accéder à ce modèle de langage de Microsoft sur Hugging Face.

Eh bien, la firme facilite l’accès à Phi-4. Disponible sous licence MIT, il offre une grande liberté d’utilisation.

Finally Phi-4 from @Microsoft arrived on @huggingface

MIT licensed pic.twitter.com/N4HPWirNG2
— Rohan Paul (@rohanpaul_ai) January 8, 2025

Lorsque vous visitez Hugging Face, cherchez directement Phi-4 dans le moteur de recherche. Ensuite, téléchargez les fichiers nécessaires en clonant le dépôt officiel.

Pour exploiter le modèle, configurez-le facilement dans votre environnement. Hugging Face propose des guides simples pour accompagner cette étape.

Ainsi, vous serez prêt à l’utiliser en un rien de temps. Cette fois, aucun obstacle ne limite les développeurs, qu’ils soient débutants ou expérimentés.

Et ce n’est pas tout ! Hugging Face, en tant que plateforme collaborative, offre également une communauté active. Vous y trouverez des conseils pour optimiser l’utilisation de Phi-4 et des ressources pour le personnaliser davantage.

Avec Phi-4, Microsoft propose une IA compacte accessible à un large public. Prenons comme exemple ses fonctions de remplissage automatique ou de génération de contenu ciblé. Les entreprises peuvent facilement automatiser leurs opérations et réduire leurs coûts. En parallèle, elles optimisent leur productivité.

Ce modèle se tourne également vers un avenir plus respectueux de l’environnement. Sa faible consommation de ressources diminue l’impact écologique. C’est d’ailleurs une réponse pertinente aux attentes actuelles concernant l’informatique verte.

Alors, quels avantages voyez-vous dans l’arrivée de Microsoft Phi-4 sur Hugging Face ? Pensez-vous que la licence open source de Phi-4 va vraiment révolutionner son adoption ? Partagez votre avis dans les commentaires !

Cet article Microsoft Phi-4 : la puissante IA est dispo sur Hugging Face ! Comment l’utiliser ? a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Microsoft lance Phi 4 : une toute petite IA qui va faire trembler les géants !
La course à la taille des intelligences artificielles vient peut-être de prendre un virage inattendu. Avec Phi 4, Microsoft joue la carte de l’efficacité plutôt que celle de la démesure. Ce modèle d’IA compact rivalise déjà avec des géants comme Google dans des domaines clés. Plus petit, mais plus performant, Phi 4 pourrait bien redéfinir les règles du jeu dans un secteur où la taille semblait jusque-là être le seul critère de puissance. Depuis des années, les géants de la tech rivalisent pou

Microsoft lance Phi 4 : une toute petite IA qui va faire trembler les géants !

LEBIGDATA.FR

Par : Mariano R.

17 décembre 2024 à 01:11

La course à la taille des intelligences artificielles vient peut-être de prendre un virage inattendu. Avec Phi 4, Microsoft joue la carte de l’efficacité plutôt que celle de la démesure. Ce modèle d’IA compact rivalise déjà avec des géants comme Google dans des domaines clés. Plus petit, mais plus performant, Phi 4 pourrait bien redéfinir les règles du jeu dans un secteur où la taille semblait jusque-là être le seul critère de puissance.

Depuis des années, les géants de la tech rivalisent pour construire des modèles d’IA toujours plus grands et plus puissants. Des milliards, voire des milliers de milliards de paramètres, comme ceux de GPT-4o d’OpenAI ou Gemini Ultra de Google, semblaient être la norme incontournable pour dominer le marché.

Et pourtant, Microsoft vient de renverser la table avec Phi 4, un modèle compact, mais redoutablement efficace. Avec seulement 14 milliards de paramètres, cette petite IA prouve qu’il est possible de surpasser les géants dans des domaines spécifiques. Notamment, le raisonnement mathématique.

Comment cette IA mini-format pourrait bousculer les Goliath de l’IA ?

Le 12 novembre dernier, Microsoft a lancé la petite Phi 4. Ce modèle IA a montré qu’il n’est pas nécessaire d’être gigantesque pour être puissant.

Nous savons tous qu’un modèle IA, c’est comme un moteur. Plus il a de paramètres, plus il est censé être puissant. Enfin, ça, c’était la règle… jusqu’à Phi 4. Tandis que des modèles comme GPT-4o d’OpenAI et Gemini Ultra de Google comptent des centaines de milliards de paramètres, Phi 4 prouve que la taille ne fait pas tout.

Le raisonnement mathématique, c’est aussi sa spécialité. Microsoft l’a conçu pour exceller là où beaucoup de modèles échouent. Et ça marche, car Phi 4 écrase la concurrence sur des épreuves complexes comme celles de l’American Mathematics Competitions (AMC).

— Phi-4 Notes —

Phi 4 from @MicrosoftAI is out:
– `NyxKrage/Microsoft_Phi-4` has uploaded a 16 bit model
– `Trelis/Microsoft_Phi-4-FP8-Dynamic` an fp8 model for extra speed.
– Not yet Microsoft's Huggingface (will be soon)

PERFORMANCE:
– Seems comparable, if not a little… pic.twitter.com/hqpKJg07mM
— Trelis Research (@TrelisResearch) December 13, 2024

Je sais qu’aujourd’hui, utiliser une grosse IA, c’est un peu comme rouler en SUV. C’est puissant, mais ça consomme une tonne de ressources. En entreprise, ça se traduit par des serveurs qui chauffent, des factures d’électricité qui explosent et des budgets informatiques qui tirent la langue.

Par ailleurs, la légèreté de Phi 4 permet aux entreprises de profiter d’une IA performante. Même celles qui n’ont pas de grands moyens. Moins de coûts, moins de consommation d’énergie et potentiellement plus de démocratisation de l’IA.

Phi 4 pour des usages professionnels

Sa maîtrise des mathématiques ouvre également des perspectives incroyables dans certains domaines. Notamment, la recherche scientifique, pour modéliser des phénomènes complexes. Et côté finance, où des algorithmes précis font la différence dans la modélisation des risques ou la prédiction des marchés. Qui plus est, dans l’ingénierie, Phi 4 optimise des calculs ou résoudre des problèmes techniques.

Ce focus sur des capacités ciblées et maîtrisées pourrait bien être plus utile que les modèles géants et polyvalents, mais parfois moins spécialisés.

Un autre point qui mérite d’être souligné, c’est l’approche prudente de Microsoft avec Phi 4. Au lieu de le lâcher directement dans la nature, ils le déploient via leur plateforme Azure AI Foundry, d’abord sous licence de recherche. Toutefois, une version grand public est prévue sur Hugging Face, mais pas avant d’avoir bétonné la sécurité.

🚀 Phi-4 is here! A small language model that performs as well as (and often better than) large models on certain types of complex reasoning tasks such as math. Useful for us in @MSFTResearch, and available now for all researcher on the Azure AI Foundry! https://t.co/83vpjSOHaT pic.twitter.com/BR1opBQpdB
— Peter Lee (@peteratmsr) December 13, 2024

Microsoft a aussi intégré des outils pour évaluer la qualité des réponses, surveiller les usages et filtrer les contenus sensibles. Ils prennent donc au sérieux les risques liés à l’IA. Je trouve que c’est une bonne nouvelle ! Surtout quand on sait que certains modèles, mal utilisés, peuvent faire plus de mal que de bien.

Jusqu’ici, les géants de la tech étaient obsédés par une seule chose, c’est de grossir toujours plus. Plus de paramètres, plus de calculs, plus de puissance brute. Avec Phi 4, Microsoft montre qu’une IA peut être petite, intelligente et redoutable.

Avec la petite IA Phi 4 de Microsoft, est-ce la fin de l’ère des IA géantes ? Dites-nous ce que vous en pensez en commentaire !

Cet article Microsoft lance Phi 4 : une toute petite IA qui va faire trembler les géants ! a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Nvidia lance Nemotron 70-B, l’IA qui explose GPT-4o : séisme dans l’industrie de l’IA !
Nvidia dévoile Llama-3.1-Nemotron-70B-Instruct : une IA qui surpasse GPT-4o et Claude 3.5 sur la plupart des benchmarks. L’industrie de l’intelligence artificielle vient elle de trouver son nouveau leader ? Le géant des cartes graphiques est-il en passe de redistribuer celles de l’industrie de l’IA ? Il y a quelques jours, Nvidia présentait la famille de modèles multimodaux NVLM 1.0 avec notamment NVLM-D-72B et ses 72 milliards de paramètres. Ce mardi 15 octobre 2024, en toute discrétion,

Nvidia lance Nemotron 70-B, l’IA qui explose GPT-4o : séisme dans l’industrie de l’IA !

LEBIGDATA.FR

Par : Bastien L.

18 octobre 2024 à 19:32

Nvidia dévoile Llama-3.1-Nemotron-70B-Instruct : une IA qui surpasse GPT-4o et Claude 3.5 sur la plupart des benchmarks. L’industrie de l’intelligence artificielle vient elle de trouver son nouveau leader ?

Le géant des cartes graphiques est-il en passe de redistribuer celles de l’industrie de l’IA ? Il y a quelques jours, Nvidia présentait la famille de modèles multimodaux NVLM 1.0 avec notamment NVLM-D-72B et ses 72 milliards de paramètres.

Ce mardi 15 octobre 2024, en toute discrétion, elle a dévoilé un nouveau modèle d’intelligence artificielle qui surpasse ceux des leaders du secteur comme OpenAI et Anthropic.

Il s’agit non seulement d’un revirement majeur dans la stratégie de la firme américaine, qui pourrait aussi potentiellement bouleverser tout l’ordre établi dans le paysage de l’intelligence artificielle !

Dénommé Llama-3.1-Nemotron-70B-Instruct, ce nouveau modèle est apparu sans tumulte sur la plateforme Hugging Face. Toutefois, rapidement, il a capté toute l’attention en raison de ses performances époustouflantes sur de nombreux tests de benchmark.

Une version améliorée de Meta Llama 3.1 à la pointe de la tech

Afin de créer cette IA, Nvidia a raffiné le modèle open-source Llama 3.1 de Meta à l’aide de techniques d’entraînement très avancées.

Elle a notamment exploité la méthode RLHF : Reinforcement Learning from Human Feedback. Celle-ci consiste à permettre à l’IA d’apprendre à partir des préférences humaines, pour mener à des réponses plus naturelles et contextuelles.

Toutefois, ce qui distingue véritablement Llama-3.1-Nemotron-70B-Instruct est sa capacité à traiter des requêtes complexes sans prompting additionnel ou tokens spécialisés.

Dans le cadre d’une démonstration, elle a correctement répondu à la question : « combien y a-t-il de r dans le mot strawberry ? » avec une réponse précise et détaillée.

Ceci montre une compréhension nuancée du langage et une capacité à fournir des explications claires. La plupart des modèles IA actuels échouent face à cette question.

De plus, ces résultats sont particulièrement significatifs, car ils mettent l’accent sur l’« alignement » : un terme faisant référence à la façon dont les productions d’un modèle correspondent aux besoins et préférences des utilisateurs.

Une nouvelle solution attractive pour les entreprises

The easiest way to use this new model is through HuggingChat with the link below.

Just create a free account and select the model “nvidia/Llama-3.1-Nemotron-70B-Instruct-HF”.

And you're ready to start chatting! pic.twitter.com/t42jTctMA0
— Paul Couvert (@itsPaulAi) October 16, 2024

Avec un tel modèle, les entreprises et organisations cherchant à exploiter l’IA pourront profiter de réponses plus utiles, avec beaucoup moins d’erreurs.

De plus, Nvidia proposé une inférence hébergée gratuitement via sa plateforme build.nvidia.com. Elle s’accompagne d’une interface API compatible avec OpenAI.

Cette accessibilité rend la technologie IA la plus avancée plus disponible, permettant à une large gamme d’entreprises de l’utiliser et d’implémenter les modèles de langage dernier cri.

Ce modèle présente aussi l’avantage d’être customisable, afin de répondre aux besoins spécifiques des entreprises : prendre en charge les requêtes de service client, générer des rapports complexes…

L’IA de Nvidia offre cette flexibilité, combinée à des performances de pointe. C’est donc une solution très intéressante pour les entreprises de toutes les industries.

Ceci étant dit, la firme prévient que Llama-3.1-Nemotron-70B-Instruct n’a pas été affiné pour des domaines spécialisés comme les maths ou le raisonnement légal où la précision est essentielle.

Les entreprises doivent donc s’assurer de l’utiliser de façon appropriée et implémenter des barrières de sécurité pour éviter les erreurs.

Nvidia, nouveau leader de l’industrie des LLM ?

Selon Nvidia, cette IA obtient le meilleur score sur plusieurs évaluations phares. Elle a notamment atteint 85.0 sur Arena Hard Benchmark, 57.6 sur AlpacaEval 2 LC, et 8.98 sur GPT-4-Turbo MT-Bench.

https://twitter.com/NVIDIAAIDev/status/1846227767333212622

Ses scores surpassent donc ceux des modèles les plus reconnus comme GPT-4o et Anthropic Claude 3.5 Sonnet. Ainsi, Nvidia n’est plus seulement fournisseur, mais se propulse au sommet de l’industrie de l’IA générative !

Jusqu’à présent, l’entreprise était principalement connue pour dominer l’industrie des cartes graphiques, utilisées pour les jeux vidéo et le minage de cryptomonnaies, mais aussi l’entraînement des systèmes d’intelligence artificielle.

Désormais, elle vient de prouver sa capacité à développer sa propre IA et à surpasser celles de ses principaux clients. Grâce à son expertise en hardware, elle se positionne en fournisseur de solutions IA de premier ordre.

Cette expansion stratégique pourrait déclencher une véritable secousse sismique dans le domaine des LLM, jusqu’alors aux mains d’entreprises focalisées sur le développement logiciel.

Ces dernières vont devoir reconsidérer leur propre stratégie et augmenter leurs efforts de R&D. Pour cause, Nvidia ne cherche pas seulement à concurrencer, mais bien à surpasser les IA les plus populaires.

Toutefois, depuis le lancement de ChatGPT en 2022, OpenAI a toujours attendu que la concurrence sorte un modèle plus puissant pour déployer une mise à jour de GPT afin de préserver sa domination. On peut donc éventuellement s’attendre au lancement d’une nouvelle version dans les jours à venir…

De son côté, pour réellement s’imposer comme une nouvelle référence, Llama 3.1-Nemotron-70B-Instruct devra aller au-delà des benchmarks et faire ses preuves dans les applications du monde réel.

Et vous, qu’en pensez-vous ? Nvidia peut-elle réellement surpasser OpenAI et prendre les rênes de l’industrie de l’IA ? Son expertise en hardware peut-elle être un réel avantage ? Partagez votre avis en commentaire !

Cet article Nvidia lance Nemotron 70-B, l’IA qui explose GPT-4o : séisme dans l’industrie de l’IA ! a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
IA et cerveau humain : ce point commun stupéfait les scientifiques !
Une équipe de chercheurs de Hong Kong vient de découvrir que les intelligences artificielles de type LLM possèdent une capacité de mémoire similaire à celle des humains… la liste des points communs entre l’IA et le cerveau ne cesse de s’étendre ! Afin d’améliorer l’intelligence artificielle, les chercheurs tentent de s’inspirer de l’intelligence humaine. Cette fois, au contraire, ils ont découvert par hasard que l’IA présente des similitudes avec le cerveau humain ! Une équipe d’experts en

IA et cerveau humain : ce point commun stupéfait les scientifiques !

LEBIGDATA.FR

Par : Bastien L.

30 septembre 2024 à 18:06

Une équipe de chercheurs de Hong Kong vient de découvrir que les intelligences artificielles de type LLM possèdent une capacité de mémoire similaire à celle des humains… la liste des points communs entre l’IA et le cerveau ne cesse de s’étendre !

Afin d’améliorer l’intelligence artificielle, les chercheurs tentent de s’inspirer de l’intelligence humaine. Cette fois, au contraire, ils ont découvert par hasard que l’IA présente des similitudes avec le cerveau humain !

Une équipe d’experts en informatique de l’Université Polytechniques de Hong Kong s’est aperçue que les LLM (larges modèles de langage) possèdent des capacités de mémoire similaires à celles des humains.

Selon leur étude, il y a plusieurs facteurs clés dans la capacité de raisonnement. Ceci inclut la connaissance apprise, les inputs spécifiques, et la capacité à produire des résultats alignés avec la connaissance apprise.

Or, d’après eux, « en suivant cette définition, les capacités de mémoire des LLM peuvent aussi être considérées comme une forme de raisonnement »…

Un LLM peut mémoriser pratiquement 2000 poèmes

Paper – "SCHRODINGER’S MEMORY: LARGE LANGUAGE MODELS"

🧠 LLM memory likened to Schrödinger's – only observable when queried

📊 Universal Approximation Theorem (UAT) explains LLM memory mechanism

🔬 Experiments verify memory capabilities of various LLMs

📏 New method proposed… pic.twitter.com/ae6gVfeYpJ
— Rohan Paul (@rohanpaul_ai) September 24, 2024

Dans le cadre de cette étude, des milliers de poèmes chinois ont été analysés et mémorisés en utilisant des jeux de données issus de Hugging Face. Certaines IA ont été capables de se rappeler environ 1900 poèmes sur 2000 !

Impressionnés, les chercheurs affirment que « ces résultats sont remarquables, car un humain sans entraînement spécialisé aurait du mal à mémoriser ne serait-ce qu’une centaine de poèmes dans de telles conditions ».

Néanmoins, les LLM ont eu plus de mal à prédire la prochaine partie du poème et ont commis plusieurs erreurs. Ceci s’explique par la nature complexe du langage.

Malgré ces points faibles, même si les prédictions n’étaient pas toujours exactes, les réponses produites suivaient toujours les conventions linguistiques. On peut donc y voir une forme de créativité et de raisonnement…

Comme chez l’humain, la mémoire de l’IA se réveille au besoin

C’est pourquoi les chercheurs décrivent le concept de mémoire de l’IA comme « mémoire de Schrodinger ». Ce terme s’inspire du célèbre paradoxe de la théorie quantique, selon lequel l’état d’un objet est indéterminé jusqu’à ce qu’il soit observé.

De la même façon, la mémoire d’un LLM ne peut être évaluée qu’après qu’une question spécifique soit posée. C’est un phénomène similaire à la façon dont la mémoire humaine est évaluée lorsqu’elle répond à une requête particulière !

Par exemple, les humains peuvent ne pas être capables de se rappeler exactement combien de poèmes ils connaissent, mais peuvent généralement se rappeler un poème spécifique lorsqu’on leur demande.

Ainsi, les chercheurs expliquent que le cerveau humain et les LLM génèrent tous deux des résultats de façon dynamique en se basant sur des inputs (entrées).

L’architecture des LLM, basée sur les modèles Transformer, peut donc être perçue comme une version simplifiée de la façon dont le cerveau humain fonctionne.

Une piste très intéressante pour l’industrie de l’IA

Parmi les entreprises de l’industrie de l’IA explorant cette idée, on compte le leader mondial OpenAI ! En février 2024, une fonctionnalité de mémoire a été intégrée à ChatGPT. Ceci lui permet au chatbot IA de retenir des informations sur l’utilisateur au fil du temps.

À la même période, les chercheurs du MIT ont découvert un moyen de permettre aux chatbots de maintenir des conversations ininterrompues sans planter ou ralentir, en préservant leurs points de données initiales dans leurs mémoires.

Au fil des années à venir, l’IA va continuer à progresser en imitant le fonctionnement de l’intelligence humaine. Et d’ici quelques années, certains experts prédisent qu’elle pourrait totalement dépasser le cerveau humain…

Et vous, qu’en pensez-vous ? Êtes-vous surpris par cette similitude entre cerveau humain et IA ? Pensez-vous que l’intelligence artificielle puisse égaler celle de l’humain, et est-ce vraiment une bonne chose ? Partagez votre avis en commentaire !

Cet article IA et cerveau humain : ce point commun stupéfait les scientifiques ! a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Meta lance Llama 3.2, sa 1ère IA multimodale… mais on a une mauvaise nouvelle
Llama 3.2 peut traiter à la fois des images et du texte. Elle a pour ambition de rivaliser avec les modèles des géants de la technologie d’intelligence artificielle comme OpenAI et Anthropic. Après un peu plus de deux mois de la sortie de la première version du Llama 3.2, Meta lance un nouveau grand modèle d’IA avec une importante mise à jour. En effet, cette entreprise vient de lancer son premier modèle open source capable de traiter du texte et des images. Découvrez ici les détails sur cett

Meta lance Llama 3.2, sa 1ère IA multimodale… mais on a une mauvaise nouvelle

LEBIGDATA.FR

Par : Dina R.

27 septembre 2024 à 14:16

Llama 3.2 peut traiter à la fois des images et du texte. Elle a pour ambition de rivaliser avec les modèles des géants de la technologie d’intelligence artificielle comme OpenAI et Anthropic.

Après un peu plus de deux mois de la sortie de la première version du Llama 3.2, Meta lance un nouveau grand modèle d’IA avec une importante mise à jour. En effet, cette entreprise vient de lancer son premier modèle open source capable de traiter du texte et des images. Découvrez ici les détails sur cette IA révolutionnaire de Meta.

Llama 3.2, la première IA multimodale de Meta

« Il s’agit de notre premier modèle multimodal open source », a exprimé Mark Zuckerberg, PDG de Meta, lors de son discours d’ouverture. « Il va permettre de nombreuses applications qui nécessitent une compréhension visuelle. »

Rappelons que Google et OpenAI possèdent aussi des modèles d’IA multimodaux qu’elles ont lancés l’année dernière. Apparemment, Meta rattrape son retard avec le lancement de Llama 3.2. Malgré ce retard, Meta semble vouloir apporter de nombreuses nouveautés avec ce nouveau modèle.

À l’instar de son prédécesseur, cette nouvelle version de Llama possède une longueur de contexte de 128 000 jetons. Plus précisément, les utilisateurs pourront saisir de nombreux textes, l’équivalent d’une échelle de centaines de pages d’un manuel.

Par ailleurs, Llama 3.2 propose désormais des modèles plus précis grâce à des paramètres plus élevés. De plus, ils sont capables de gérer des tâches plus complexes. En outre, ce qui différencie ce modèle est la prise en charge de la vision alors que Meta travaille toujours sur le développement des capacités d’IA sur du matériel comme ses lunettes Ray-Ban Meta.

Un rival de taille de Claude et de GPT-4o ?

Depuis le lancement de Llama 3.1, Meta atteste que le modèle a réussi à effectuer une croissance de 10X. « Llama continue de s’améliorer rapidement », affirme Zuckerberg. « Il offre de plus en plus de fonctionnalités. »

Llama 3.2, par ailleurs est doté de deux modèles de vision (avec 11 milliards de paramètres et 90 milliards de paramètres) ainsi que deux modèles légers entièrement textuels (avec 1 milliards de paramètres et 3 milliards de paramètres).

Les plus grands modèles peuvent prendre en charge les cas d’utilisation d’images. Ils peuvent aussi comprendre les graphiques et les diagrammes. Par ailleurs, ils sont capables de sous-titrer des images et de reconnaître des objets à partir des descriptions en langage naturel. Enfin, ils peuvent enlever des détails des images pour concevoir des légendes.

Meta releases its first open AI model that can process images: Illustration by Alex Castro / The Verge

Just two months after releasing its last big AI model, Meta is back with a major update: its first open-source model capable of… https://t.co/Rdl0vc3hH9 #ai #ainews
— The AI Tech Startups Roundup (@thedailyAi_) September 25, 2024

Les petits modèles sont développés pour fonctionner sur Qualcomm, MediaTek et d’autres matériels Arm. D’ailleurs, Meta s’attend à ce qu’on les utilise sur mobile. Ces modèles légers peuvent être utilisés lors de la création des applications argentiques personnalisées dans un cadre privé.

Meta affirme que ce nouveau modèle est compétitif avec Claude 3 Haiku d’Anthropic et GPT4o-mini d’OpenAI en ce qui concerne la reconnaissance d’images. Il peut aussi rivaliser avec ces IA sur d’autres tâches de compréhension visuelle.

En parallèle, Llama 3.2 dépasse Gemma et Phi 3.5-mini dans certains domaines comme le suivi des instructions, le résumé, la réécriture des invites ou encore l’utilisation d’outils.

Pour accéder aux modèles Llama3.2, il faut les télécharger via llama.com et Hugging Face ou encore les plateformes associées de Meta. Notons également que malheureusement, ce modèle n’est pas encore disponible en Europe.

Cet article Meta lance Llama 3.2, sa 1ère IA multimodale… mais on a une mauvaise nouvelle a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Pixtral 12B : Mistral lance la première IA française texte, vision et audio !
Ca y est ! La startup française Mistral AI lance sa première IA multimodale, Pixtral 12B. Ce nouveau modèle peut comprendre le texte, mais aussi l’image grâce à ses capacités de vision ! Découvrez ce qu’elle vaut par rapport à GPT-4o ou Google Gemini, et comment la tester ! Après les chatbots purement textuels comme GPT-4, la prochaine étape est celle des IA multimodales. Ces modèles sont non seulement capables de comprendre les prompts sous forme de texte, mais aussi d’images, d’audio ou en

Pixtral 12B : Mistral lance la première IA française texte, vision et audio !

LEBIGDATA.FR

Par : Bastien L.

12 septembre 2024 à 18:33

Ca y est ! La startup française Mistral AI lance sa première IA multimodale, Pixtral 12B. Ce nouveau modèle peut comprendre le texte, mais aussi l’image grâce à ses capacités de vision ! Découvrez ce qu’elle vaut par rapport à GPT-4o ou Google Gemini, et comment la tester !

Après les chatbots purement textuels comme GPT-4, la prochaine étape est celle des IA multimodales. Ces modèles sont non seulement capables de comprendre les prompts sous forme de texte, mais aussi d’images, d’audio ou encore de vidéos.

Au cours des derniers mois, nous avons notamment assisté au lancement de GPT-4o par OpenAI, Claude 3 par Anthropic ou encore de Gemini par Google. Ces nouveaux modèles permettent de s’adresser vocalement à l’IA, ou de leur demander d’analyser des audio ou des images.

A présent, c’est au tour de Mistral AI, le champion français de l’IA, de lancer sa première IA multimodale : Pixtral 12B.

Pixtral 12B, une IA capable de répondre à vos questions sur des images

magnet:?xt=urn:btih:7278e625de2b1da598b23954c13933047126238a&dn=pixtral-12b-240910&tr=udp%3A%2F%https://t.co/OdtBUsbMKD%3A1337%2Fannounce&tr=udp%3A%2F%https://t.co/2UepcMHjvL%3A1337%2Fannounce&tr=http%3A%2F%https://t.co/NsTRgy7h8S%3A80%2Fannounce
— Mistral AI (@MistralAI) September 11, 2024

Cette intelligence artificielle allie les capacités de langage et de vision. Les utilisateurs peuvent combiner des prompts textuels avec des images pour demander à l’IA de les analyser.

Il vous suffira donc d’uploader une image ou de fournir un lien, et de poser des questions pour obtenir des informations supplémentaires à son sujet.

Les premiers testeurs rapportent sur X que son architecture 24GB est constituée de 40 couches, 14 336 tailles de dimension cachées, et 32 têtes d’attention pour le traitement informatique.

En ce qui concerne la vision, il est doté d’un encodeur dédié capable de prendre en charge une définition d’image de 1024×1024 et 24 couches cachées pour le traitement d’image avancé.

🚨 Breaking News 🚨

Mistral AI just dropped Pixtral 12B!

It's a new large-scale AI model with both language and vision processing capabilities, marking a significant development in multimodal AI technology.
…

Significant Insights:

Advanced Architecture

40 layers, 14,336… pic.twitter.com/KXfgI9O2ZA
— There's An AI For That (@theresanaiforit) September 11, 2024

On ignore pour l’instant sur quelles données Pixtral 12B a été entraînée. Cette information est tenue secrète par Mistral, probablement pour protéger sa technologie…

Mistral entre dans l’arène du multimodal

Même s’il s’agit du premier modèle multimodal de Mistral, rappelons qu’il existe déjà plusieurs IA de ce type développées par ses concurrents, dont OpenAI et Anthropic. Alors, au-delà du chauvinisme, comment Pixtral-12 tire-t-il son épingle du jeu ?

Selon la startup, ce modèle est capable de prendre en charge nativement un nombre arbitraire d’images d’une taille également arbitraire.

Avec le lancement de cette IA, Mistral va contribuer à démocratiser l’accès aux applications visuelles comme l’analyse de contenu ou de données.

L’entreprise française continue de s’attaquer agressivement aux géants américains et chinois comme OpenAI. Depuis ses débuts en 2023, elle a lancé de nombreux modèles de haute qualité et a noué des partenariats avec des titans tels que Microsoft, AWS et Snowflake.

Someone is not telling the truth! @swyx shared images from the @MistralAI invite-only conference, where the results of Pixtral 12B were shown. Compared to other open models, including @Alibaba_Qwen 2 7B VL, those numbers look way worse than what is known from it.

If you compare… pic.twitter.com/hnSr4zl29L
— Philipp Schmid (@_philschmid) September 11, 2024

Ceci lui permet d’étendre la portée de sa technologie. Début juin 2024, la startup a levé 640 millions de dollars pour atteindre une capitalisation de 6 milliards de dollars.

Elle a ensuite lancé Mistral Large 2 : un modèle rivalisant avec GPT-4 et doté d’importance capacités multilingues, mais aussi de hautes performances en matière de raisonnement, de génération de code et de mathématiques.

De plus, Mistral a également lancé le modèle Mixtral 8x22B de type mixture-of-experts, le modèle de codage à 22 milliards de paramètres Codestral, et un modèle spécialement dédié au raisonnement mathématique et aux découvertes scientifiques.

Autant dire que cette startup se hisse peu à peu parmi les plus grands leaders de l’intelligence artificielle, faisant la fierté de la France dans ce domaine en plein essor !

Comment utiliser Pixtral 12B ?

Pour le moment, Pixtral 12b n’est malheureusement pas disponible sur le web. Néanmoins, vous pouvez télécharger son code source sur Hugging Face ou GitHub pour la tester sur des instances individuelles.

Comme à son habitude, Mistral a commencé par relâcher un lien torrent pour permettre de télécharger les fichiers pour le nouveau modèle.

Toutefois, selon Sophia Yang, directrice des relations développeur, la startup proposera très bientôt Pixtral 12B par le biais de son chatbot web Le Chat.

You can download the model via the torrent link. It'll be available on le Chat and la Plateforme soon.
— Sophia Yang, Ph.D. (@sophiamyang) September 11, 2024

Par ailleurs, il sera disponible via « La Plateforme », qui fournit des endpoints API permettant d’utiliser les différents modèles de Mistral.

Alors, qu’en pensez-vous ? Comptez-vous utiliser Pixtral 12B ? Attachez-vous de l’importance à la souveraineté française dans le domaine de l’IA ? Partagez votre avis en commentaire !

Cet article Pixtral 12B : Mistral lance la première IA française texte, vision et audio ! a été publié sur LEBIGDATA.FR.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Firefox a une chouette idée pour profiter de l’IA générative
ChatGPT, Gemini, Mistral et les autres chatbots débarquent dans Firefox. Le navigateur a ajouté une option bien pratique pour surfer sur le web et pouvoir questionner à la volée l'agent conversationnel de son choix.

Firefox a une chouette idée pour profiter de l’IA générative

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Julien Lausson

5 septembre 2024 à 10:04

IA robot chatbots agents

ChatGPT, Gemini, Mistral et les autres chatbots débarquent dans Firefox. Le navigateur a ajouté une option bien pratique pour surfer sur le web et pouvoir questionner à la volée l'agent conversationnel de son choix.

LEBIGDATA.FR
FLUX.1 vs MidJourney : découvrez le duel des meilleures IA d’image
Flux.1 débarque sur le marché et propose de belles images. Si l'on compare Midjourney et Flux.1, quel est le meilleur ? Voici le résultat de la comparaison. Les IA de conversion de texte en images sont nombreuses sur le marché, à l'instar de Midjourney et Flux.1. qui se révèle être l'un des outils qui proposent les meilleures images. Si vous souhaitez savoir quel outil est le meilleur, vous pouvez découvrir ici les résultats des comparaisons. Flux.1, une technologie révolutionnaire

FLUX.1 vs MidJourney : découvrez le duel des meilleures IA d’image

LEBIGDATA.FR

Par : Dina R.

21 août 2024 à 13:17

Flux.1 débarque sur le marché et propose de belles images. Si l'on compare Midjourney et Flux.1, quel est le meilleur ? Voici le résultat de la comparaison.

Les IA de conversion de texte en images sont nombreuses sur le marché, à l'instar de Midjourney et Flux.1. qui se révèle être l'un des outils qui proposent les meilleures images. Si vous souhaitez savoir quel outil est le meilleur, vous pouvez découvrir ici les résultats des comparaisons.

Flux.1, une technologie révolutionnaire

Black Forest Labs, la société à l'origine de la technologie Stable Diffusion a généré un nouveau modèle, baptisé Flux AI. Il s'agit d'une IA qui permet de générer des images à partir de texte. Cet outil avec plus de 12 milliards de paramètres propose une référence inédite dans le secteur de création visuelle open source.

En effet, Flux égalise les prouesses artistiques des autres concurrents. De plus, il peut très bien aussi surpasser les autres modèles actuels sur le marché, et ce, quel que soit leur statut propriétaire.

A new open-source image generation model popped out of nowhere and it's actually insanely good??

FLUX.1 by @bfl_ml pic.twitter.com/K89GHoh3PQ
— Pietro Schirano (@skirano) August 1, 2024

Flux AI est disponible en trois variantes correspondant aux différents besoins des utilisateurs. Premièrement, il propose une licence non commerciale adaptée aux passionnés et aux développeurs. Il s'agit d'un milieu parfait pour les optimisations pilotées par la communauté.

Il y a aussi Flux Schnell qui est un choix parfait pour les personnes à la recherche de vitesse sans pour autant négliger l'efficacité. Cette itération simplifiée de l'outil est dix fois plus rapide sous la licence flexible Apache 2.

Enfin, Flux Pro répond aux demandes qui ont besoin de qualité d'image professionnelle, particulièrement pour les projets commerciaux à forte demande. Il est disponible exclusivement à partir d'une API sophistiquée.

Comment utiliser Flux AI ?

Pour accéder à Flux Dev et Flux Schnell, il faut les télécharger sur Hugging Face. Par ailleurs, la prise en charge de l'intégration se fait via ComfyUI pour des opérations locales rationalisées.

People are trying to compare Flux vs Midjourney as if Flux is actually better. This was generated with Midjourney. Doesn't get more realistic than this. Part of a series i did.https://t.co/M9fViaoXaq #midjourney #aiartsociety #retro #AIart pic.twitter.com/8EoyMbZF7Q
— Jeff Schader (@JeffSchader) August 6, 2024

Lors du lancement de cet outil jeudi dernier, Black Forest Labs souligne qu'il est prêt à repousser les limites des frontières de la technologie des médias génératifs de l'intelligence artificielle.

« Nos innovations incluent la création de VQGAN et de Latent Diffusion, les modèles de diffusion stable de Stability AI pour la génération d'images et de vidéos (Stable Diffusion XL, Stable Video Diffusion, Rectified Flow Transformers) et la distillation par diffusion contradictoire pour une synthèse d'images ultra-rapide et en temps réel », a annoncé l'équipe.

Flux.1 Vs Midjourney : quel est le meilleur ?

Flux.1 a subi une évaluation rigoureuse afin de le comparer aux autres modèles d'IA sur le marché. Le résultat montre que Flux AI a surpassé les capacités de modèles établis, à savoir Midjourney v6.1, DALL-E 3 et SD3 Ultra sur différents critères.

Cette nouvelle technologie propose une meilleure qualité visuelle, de la flexibilité en termes de taille et de rapport hauteur/largeur, le respect des invites, la diversité des sorties ou encore les prouesses typographiques.

Par ailleurs, voici d'autres résultats :

Flux Vs Midjourney : le résultat des tests de génération d'images

Image d'un chef

Midjourney

Flux

Prompt

A seasoned chef in her mid-50s is captured in action in a bustling professional kitchen. Her salt-and-pepper hair is neatly tucked under a crisp white chef's hat, with a few strands escaping around her temples. Her face, marked with laugh lines, shows intense concentration as she tastes a sauce from a wooden spoon. Her eyes, a warm brown, narrow slightly as she considers the flavor. The chef is wearing a spotless white double-breasted chef's jacket with her name embroidered in blue on the breast pocket. Black and white checkered pants and slip-resistant clogs complete her professional attire. A colorful array of sauce stains on her apron tells the story of a busy service. Behind her, the kitchen is a hive of activity. Stainless steel surfaces gleam under bright overhead lights, reflecting the controlled chaos of dinner service. Sous chefs in white jackets move purposefully between stations, and steam rises from pots on industrial stoves. Plates of artfully arranged dishes wait on the pass, ready for service. In the foreground, a marble countertop is visible, strewn with fresh herbs and exotic spices. A stack of well-worn cookbooks sits nearby, hinting at the chef's dedication to her craft and continuous learning. The overall scene captures the intensity, precision, and passion of high-end culinary artistry.

Résultat

Pour cette première image, Midjourney est le gagnant car il propose un personnage plus réaliste. Certes, le dynamisme de l'image de Flux est exceptionnel, mais le défi était de générer des humains fidèles, ce que Midjourney a fait avec la texture de la peau.

Image d'un jardin

Midjourney

Flux

Prompt

An elderly woman in her early 80s is tenderly caring for plants in her rooftop garden, set against a backdrop of a crowded city. Her silver hair is tied back in a loose bun, with wispy strands escaping to frame her kind, deeply wrinkled face. Her blue eyes twinkle with contentment as she smiles at a ripe tomato cradled gently in her soil-stained gardening gloves. She's wearing a floral print dress in soft pastels, protected by a well-worn, earth-toned apron. Comfortable slip-on shoes and a wide-brimmed straw hat complete her gardening outfit. A pair of reading glasses hangs from a beaded chain around her neck, ready for when she needs to consult her gardening journal. The rooftop around her is transformed into a green oasis. Raised beds burst with a variety of vegetables and flowers, creating a colorful patchwork. Trellises covered in climbing vines stand tall, and terracotta pots filled with herbs line the edges. A small greenhouse is visible in one corner, its glass panels reflecting the golden evening light. In the background, the city skyline looms large – a forest of concrete and glass that stands in stark contrast to this vibrant garden. The setting sun casts a warm glow over the scene, highlighting the lush plants and the serenity on the woman's face as she finds peace in her urban Eden.

Résultat

Oui, Midjourney remporte encore une fois le duel grâce à la qualité de la texture. Flux propose aussi une bonne image et est très fidèle dans les détails. Néanmoins, le résultat n'est pas aussi bon que celui de Midjourney.

Image d'un astronaute

Midjourney

Flux

Prompt

A retired astronaut in his late 60s is giving an animated presentation at a science museum. His silver hair is neatly trimmed, and despite his age, he stands tall and straight, a testament to years of rigorous physical training. His blue eyes sparkle with enthusiasm as he gestures towards a large scale model of the solar system suspended from the ceiling. He's dressed in a navy blue blazer with a small, subtle NASA pin on the lapel. Underneath, he wears a light blue button-up shirt and khaki slacks. On his left wrist is a watch that looks suspiciously like the ones worn on space missions. His hands, though showing signs of age, move with the precision and control of someone used to operating in zero gravity. Around him, a diverse group of students listen with rapt attention. Some furiously scribble notes, while others have their hands half-raised, eager to ask questions. The audience is a mix of ages and backgrounds, all united by their fascination with space exploration. The walls of the presentation space are adorned with large, high-resolution photographs of galaxies, nebulae, and planets. Inspirational quotes about exploration and discovery are interspersed between the images. In one corner, a genuine space suit stands in a glass case, adding authenticity to the presenter's words. Sunlight streams through large windows, illuminating particles of dust floating in the air, reminiscent of stars in the night sky. The entire scene is bathed in a sense of wonder and possibility, as the retired astronaut bridges the gap between Earth and the cosmos for his eager audience.

Résultat

Pour ces images, le titre revient à Flux. Tout simplement, car il a proposé une texture de peau et un réalisme humain supérieurs à ceux de Midjourney. De plus, la structure globale de l'image est bien meilleure, particulièrement les personnages d'arrière-plan plus réalistes.

Flux.1 Vs Midjourney : le coût

Pour ce qui est du prix, Flux est une application gratuite et open source. Toutefois, pour pouvoir exécuter le modèle localement, vous devez avoir des spécifications robustes avec un GPU dédié. Rappelons que ce modèle propose 12 milliards de paramètres. Ainsi, la meilleure manière d'exécuter Flux sur un appareil local est de se servir de Pinokio. Il ne vous reste plus qu'à télécharger l'application et à le démarrer avec Flux.

En outre, vous pouvez générer des images gratuites à partir de Flux grâce aux fournisseurs de services existant sur le marché. Notons par ailleurs que les crédits gratuits sur ces services sont limités. Sinon, la création d'images est assez lente, selon la charge du système.

Il est tout aussi possible de vous connecter sur HuggingFace pour accéder gratuitement sur le modèle Flux.1 dev. Des modèles LoRA sont aussi disponibles sur fal.ai. Cependant, les crédits gratuits sont limités à 1 dollar. Ensuite, vous devrez acheter plus de crédits selon votre usage.

En revanche, Midjourney est assez onéreux, car l'accès à cet outil coûte 10 dollars par mois. Son principal avantage réside en fait sur la rapidité de la génération d'images. De plus, vous profiterez d'une interface particulièrement soignée.

Bref, Flux est le gagnant en termes de prix.

Midjourney vs Flux, which is which?
Same prompt. pic.twitter.com/aBV7Zi2T2H
— Creacas AI (@creacas_ai) August 2, 2024

Quelle différence de caractéristiques il y a-t-il entre ces deux générateurs d'images ?

Puisque Flux est un nouveau modèle, il ne dispose que de fonctionnalités d'édition d'images IA prêtes à l'emploi très limités. Néanmoins, vous pouvez redimensionner la taille des images et déterminer le rapport hauteur/largeur dans des services spécialisés comme BasedLabs.

Avec Flux, il est aussi possible de préciser le nombre d'images que vous souhaitez générer en même temps. Pour les utilisateurs techniques, il est même possible de jouer avec la valeur de départ, les paramètres de débruitage ou encore le nombre d'étapes.

Par contre, Midjourney, un outil beaucoup plus riche en fonctionnalités, prend ainsi en charge les différentes fonctionnalités. Notons que vous pouvez commencer par définir le rapport hauteur/largeur, votre stylisation ou encore votre esthétique.

Midjourney Vs Flux “not Mystic” same prompt. choose yours. For Mystic👀👇🏼 https://t.co/YUj7p8EzE3 pic.twitter.com/YVBV9zIpdk
— Jesus Plaza (@JesusPlazaX) August 17, 2024

Grâce à l'option Raw, vous pouvez utiliser des anciens modèles Midjourney et générer des images beaucoup plus réalistes. Par ailleurs, après la création d'une image, vous pouvez l'agrandir, ajouter d'autres détails ou encore la dézoomer. L'outil lasso est également disponible pour retoucher vos images ou les recadrer, etc.

Actuellement, Midjourney propose plus d'outils et de commandes par rapport à Flux, notamment pour vos besoins de retouche et de mise en évidence. Donc, Midjourney est le gagnant de cette catégorie.

Et les informations d'identification du contenu ?

Les artistes souhaitent souvent que le service prend en charge la norme Content Credentials. C'est une manière de trouver des données sur l'origine de l'image et de connaître si des modifications ont été effectuées.

Malheureusement, aucun de ces générateurs ne prend encore en charge cette norme. Ces services ne joignent pas une sorte de métadonnées vérifiables dans leurs IA générées.

Pour conclure, je peux affirmer que le modèle Flux est assez impressionnant. Elle se révèle être une parfaite alternative à Midjourney, et ce, gratuitement. Cependant, les tests ont montré que Midjourney est largement meilleur.

Et vous, qu'en pensez-vous ? Vous pouvez très bien partager vos avis dans les commentaires ci-dessous.

Cet article FLUX.1 vs MidJourney : découvrez le duel des meilleures IA d’image a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
FLUX.1 : l’IA d’images open-source qui surpasse DALL-E et MidJourney !
La startup allemande Black Forest Labs, fondée par les chercheurs à l’origine de Stable Diffusion, viennent de surprendre le monde de l’IA générative avec FLUX.1 : un générateur d’images open-source qui rivalise avec les leaders du marché ! Découvrez pourquoi ce nouveau challenger fait déjà trembler les champions… Fondée en 2019, la startup londonienne Stability AI s’est rapidement érigée comme l’un des pionniers de l’industrie de l’IA générative. Elle a notamment lancé Stable Diffusion

FLUX.1 : l’IA d’images open-source qui surpasse DALL-E et MidJourney !

LEBIGDATA.FR

Par : Bastien L.

12 septembre 2024 à 17:45

La startup allemande Black Forest Labs, fondée par les chercheurs à l’origine de Stable Diffusion, viennent de surprendre le monde de l’IA générative avec FLUX.1 : un générateur d’images open-source qui rivalise avec les leaders du marché ! Découvrez pourquoi ce nouveau challenger fait déjà trembler les champions…

Fondée en 2019, la startup londonienne Stability AI s’est rapidement érigée comme l’un des pionniers de l’industrie de l’IA générative. Elle a notamment lancé Stable Diffusion en août 2022, proposant une alternative open source aux outils tels que DALL-E et MidJourney.

Toutefois, entre 2023 et 2024, plusieurs cadres ont quitté l’entreprise. C’est le cas du CTO, du vice-président de l’ingénierie, du vice-président de la R&D, ou encore d’un des directeurs de la recherche.

En mars 2024, le chercheur Robin Rombach, qui avait dirigé le développement de la version originelle de Stable Diffusion à Ludwig Maximilian University de Munich, a rendu son tablier.

À présent, Rombach et plusieurs des créateurs de Stable Diffusion sont de retour avec une nouvelle startup : Black Forest Labs.

Début août 2024, ils ont dévoilé leur premier projet : FLUX.1. Il s’agit d’une suite de modèles text-to-image open-source, et la communauté de l’IA est d’ores et déjà choquée par cette nouvelle famille d’outils.

FLUX.1 : le nouveau champion des générateurs d’images open-source

Try out the official FLUX.1 [schnell] demo official demo from the goated new @bfl_ml team, state of the art in 4 steps! 🦶

▶️ https://t.co/cEbKIxF3gx https://t.co/DirQuKbN4Q pic.twitter.com/9KNTQZSvrH
— apolinario 🌐 (@multimodalart) August 1, 2024

Ainsi, FLUX.1 se décline en trois variantes : FLUX.1 [pro], en source fermée et disponible via API, FLUX.1 [dev] en open weight pour l’usage non-commercial, et FLUX.1 [schnell], une version plus rapide relaxée sous licence Apache 2.0 pour le développement local et personnel.

Tous ces modèles ont un nombre impressionnant de 12 milliards de paramètres, et reposent sur une architecture hybride de blocs Transformer / diffusion parallèles et multimodaux.

Ils introduisent plusieurs innovations techniques, notamment la méthode du « Flow Matching ». Celle-ci généralise les modèles par diffusion, et incorpore des plongements positionnels rotatifs et des couches d’attention parallèles pour des performances et une efficacité matérielle grandement améliorées.

Cette approche se révèle impressionnante en termes de qualité visuelle, d’adhésion au prompt et de diversité des images produites.

Très rapidement, les experts de l’industrie ont reconnu l’impact potentiel de FLUX.1. Selon l’influenceur Bindu Reddy, il s’agit d’une « grande nouvelle pour l’IA multimodale et d’un pas supplémentaire vers l’AGI open source ».

Les premières démos suggèrent que la qualité des images produites par FLUX.1 rivalise ou surpasse celle de modèles populaires en source fermée comme MidJourney V6.0 ou OpenAI DALL-E 3.

So, there is a new player in AI town: FLUX

I've been running tests for the past 2 days with FAL.

Here's a Midjourney comparison and my thoughts: pic.twitter.com/EJlqYbsPVH
— Dogan Ural (@doganuraldesign) August 4, 2024

Il pourrait s’agir d’un moment charnière pour le monde de l’IA open-source, en proie aux doutes suite aux graves difficultés financières de Stability AI dont l’avenir est très compromis.

En faisant son entrée dans l’arène, Black Forest Labs pourrait bien revigorer l’écosystème et accélérer l’innovation dans divers domaines, allant du graphisme jusqu’à la visualisation scientifique.

Black Forest Labs, la startup qui veut rendre l’IA accessible à tous

La startup Black Forest Labs, dirigée par Robin Rombach, Patrick Esser et Andreas Blattmann, a déjà levé 31 millions de dollars en seed auprès d’investisseurs de renom comme Andreessen Horowitz (a16z).

Elle a aussi été soutenue par Brendan Iribe, Michael Ovitz ou encore Garry Tan. Son ambition ? Développer des modèles de Deep Learning génératifs à la pointe de la technologie pour les images et la vidéo, tout en priorisant l’accessibilité et la transparence.

Toutefois, le lancement de FLUX.1 soulève aussi d’importantes questions concernant le développement et le déploiement responsable de l’IA.

🚀 Just tried @KlingAI's image-to-video generator & @BlackForestLabs' FLUX.1 AI image tool – and I'm blown away! The results are so realistic, you can't tell the difference between AI and reality. 🤯

Check them out: 🌟 Kling AI🌟 Black Forest Labs pic.twitter.com/uBQh5Coj7z
— Shafi (@shafiroc) August 3, 2024

Afin d’éviter la controverse, Black Forest Labs a défini des règles d’utilisation très strictes. Elle interdit l’utilisation de sa technologie pour générer de fausses informations, de l’imagerie non-consensuelle ou tout autre contenu susceptible de blesser des groupes ou des individus.

Son engagement envers l’éthique et la transparence sera très certainement mis à l’épreuve à mesure que FLUX.1 gagne en popularité…

Quoi qu’il en soit, Black Forest Labs a déjà le regard tourné vers l’avenir et les systèmes IA text-to-video. Si elle parvient là encore à s’imposer dans ce domaine, elle pourrait se hisser parmi les leaders du marché de l’IA générative.

10 exemples époustouflants d’images créées par FLUX

Le fondateur de Magnific AI, Javi Lopez, est stupéfait par la vitesse de FLUX et la qualité des images qu’il produit.

🤯 Is Midjourney in Trouble?

Flux, created by the original team that launched Stable Diffusion and recently left Stability AI, is on par with Midjourney in terms of quality.

How is Midjourney going to react to this?

Here's a link so you can try it yourself! pic.twitter.com/KzD2agpCLw
— Javi Lopez ⛩️ (@javilopen) August 3, 2024

Il en va de même pour l’artiste makeitrad qui avoue avoir passé une journée entière à réaliser des portraits à l’aide de ce nouvel outil tant il était impressionné.

The new FLUX.1 models are insane! Ive been doing portraits all day and so far Im very impressed! More samples in the comments 👇 pic.twitter.com/EsKS4DGHa0
— makeitrad (@makeitrad1) August 2, 2024

De son côté, Halim Alrasihi s’étonne de la capacité de cette IA à créer des images hyper-réalistes. Il est vrai qu’un nouveau cap semble avoir été franchi !

More tests with FLUX.1

It does an excellent job of creating hyperrealistic images. pic.twitter.com/VdTorsJ2Ah
— Halim Alrasihi (@HalimAlrasihi) August 3, 2024

La consultante IA Heater Cooper, quant à elle, s’est amusée à créer des images avec FLUX pour ensuite les animer avec Runway Gen-3 et à ajouter du son avec Eleven Labs.

This is so much fun.

Image: @bfl_ml Flux
Animation: @runwayml Gen-3
Sound: @elevenlabsio Video to Sound pic.twitter.com/dkZY6yajsw
— Heather Cooper (@HBCoop_) August 3, 2024

Très surpris, le fondateur de EverArt.ai ne comprend pas comment un modèle IA « sorti de nulle part » peut produire des images d’une telle qualité.

A new open-source image generation model popped out of nowhere and it's actually insanely good??

FLUX.1 by @bfl_ml pic.twitter.com/K89GHoh3PQ
— Pietro Schirano (@skirano) August 1, 2024

Sur le compte X @fofrAI, suivi par plus de 25 000 internautes, c’est la façon dont FLUX génère des images de danseuses en mouvement qui impressionne.

flux continues to impress pic.twitter.com/yluymLT073
— fofr (@fofrAI) August 3, 2024

Le spécialiste en retouche d’image, Risphere, quant à lui, estime que MidJourney offre une meilleure esthétique et de textures de peau de qualité supérieure, mais salue la capacité de FLUX à générer du texte et à représenter l’anatomie.

Flux is a new open source image generator that is as good as Midjourney.
Midjourney has a better aesthetic and skin texture
Flux has better text and anatomy.
You can use Flux through FAL or Replicate. One image costs $0.003-$0.05$ depending on the model size. One image takes 1-6… pic.twitter.com/5tP7aBCLp2
— Risphere (@risphereeditor) August 1, 2024

Le compte @vietdle est bluffé par la façon dont FLUX.1 génère des images de qualité dès le premier essai et avec une grande fidélité au prompt.

@bfl_ml came out of stealth with a bang—I generated these images with their newest FLUX.1 model. Not only are they state-of-the-art, but what I found most impressive is that these were one-shot and had high prompt adherence.

And you know what's best? These models come in… pic.twitter.com/jEmF0RBbQy
— viet (@vietdle) August 2, 2024

Même son de cloche chez le créateur AI Opener, impressionné par la compréhension des prompts et très curieux de tester la version pro.

Just tested Flux.1 after hearing the news. Huge thanks to @camenduru for creating tost ai, allowing us to generate AI images. Regardless of image quality, its understanding of prompts seems impressive. I'm excited and curious about how the pro version will perform.
Prompt : ALT pic.twitter.com/a7LVWMRCRh
— AI opener (@opener_ai) August 2, 2024

Enfin, le beta testeur d’IA max casu s’est amusé à créer des images de robots et d’animaux géants dont on aime particulièrement le style…

Test with FLUX!#flux #flux1 #fluxpro #aiimage pic.twitter.com/KydGPKeCwE
— max casu (@MaxCasu) August 2, 2024

Comment tester FLUX.1 gratuitement dès maintenant ?

Afin d’essayer FLUX.1 par vous-même, vous pouvez vous rendre sur le site fal.ai en suivant ce lien ou sur la plateforme Hugging Face. Suivez les instructions détaillées dans la vidéo ci-dessous !

Try out the official FLUX.1 [schnell] demo official demo from the goated new @bfl_ml team, state of the art in 4 steps! 🦶

▶️ https://t.co/cEbKIxF3gx https://t.co/DirQuKbN4Q pic.twitter.com/9KNTQZSvrH
— apolinario 🌐 (@multimodalart) August 1, 2024

Alors, que pensez-vous des images produites par FLUX.1 ? Êtes-vous impressionné ? Faites-vous partie des adeptes de l’open-source, ou faites-vous davantage confiance à une approche fermée ? Partagez vos arguments en commentaire !

Cet article FLUX.1 : l’IA d’images open-source qui surpasse DALL-E et MidJourney ! a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Stable Video 4D : nouvelle percée dans le domaine des IA génératives de vidéos !
Tout le monde veut innover dans le domaine de la high-tech. On a déjà vu OpenAI, Google, Meta, et Microsoft annoncer des mises à jour. C'est maintenant au tour de Stability AI de perfectionner ses outils. Et la start-up a réussi. Voici Stable Video 4D. Est-ce possible de générer une vidéo 3D sous différents angles de vue ? Vous allez sûrement dire que c'est très difficile. Toutefois, Stability AI vient de réussir le coup. La start-up britannique a récemment lancé Stable Video 4D. L'objectif e

Stable Video 4D : nouvelle percée dans le domaine des IA génératives de vidéos !

LEBIGDATA.FR

Par : Rina R.

30 juillet 2024 à 04:13

Tout le monde veut innover dans le domaine de la high-tech. On a déjà vu OpenAI, Google, Meta, et Microsoft annoncer des mises à jour. C'est maintenant au tour de Stability AI de perfectionner ses outils. Et la start-up a réussi. Voici Stable Video 4D.

Est-ce possible de générer une vidéo 3D sous différents angles de vue ? Vous allez sûrement dire que c'est très difficile. Toutefois, Stability AI vient de réussir le coup. La start-up britannique a récemment lancé Stable Video 4D. L'objectif est simple : répandre l'IA générative dans le domaine du gaming, et de la tech en général. Tout savoir.

8 angles de vue pour une seule et même image

Oui, c'est une véritable approche cinématographique venant de Stability AI. En effet, l'utilisateur part d'un objet, d'une image, ou d'une vidéo. Après quelques secondes d'analyse, l'IA peut concevoir 8 angles de vue, ainsi que 5 représentations distinctes. L'utilisateur aura alors plusieurs plans pour enrichir ses contenus.

« Le modèle Stable Video 4D prend une vidéo en entrée et génère plusieurs vidéos inédites à partir de perspectives différentes. Cette avancée représente un bond en avant dans nos capacités, passant de la génération de vidéos basées sur des images à la synthèse vidéo dynamique 3D complète. »

C'est une évidence, Stable Video 4D sera l'avenir de la tech. Selon les ingénieurs de Stability AI, cet outil est la clé pour la réalité virtuelle et les jeux vidéo du futur.

« Notre équipe envisage des applications futures dans le développement de jeux, le montage vidéo et la réalité virtuelle. (…) Les professionnels de ces domaines peuvent bénéficier de manière significative de la capacité à visualiser des objets à partir de perspectives multiples, améliorant ainsi le réalisme et l'immersion de leurs produits » explique Stabilité AI.

Quels sont les atouts de Stable Video 4D ?

L'optimisation des vidéos en 4D n'est que le début. Effectivement, cette innovation de Stability AI contient plusieurs fonctionnalités clés.

Stable Video 4D est capable de créer les 8 angles de vue en 40 secondes chrono. Cependant, si l'utilisateur veut un rendu exceptionnel, il faut attendre au moins 20 minutes.

Par ailleurs, l'outil est aussi en open source. Il est alors accessible aux grands publics, des professionnels aux amateurs de la haute technologie. Il suffit de se rendre sur Hugging Face pour profiter des atouts de Stable Video 4 D.

We are pleased to announce the availability of Stable Video 4D, our very first video-to-video generation model that allows users to upload a single video and receive dynamic novel-view videos of eight new angles, delivering a new level of versatility and creativity.

In… pic.twitter.com/1YbI2W514K
— Stability AI (@StabilityAI) July 24, 2024

Mais la question des droits d'auteur plane toujours au-dessus cet outil. En effet, Stable Diffusion a déjà fait face aux artistes. La cause ? Cette IA a été accusée d'avoir copié les œuvres de ces spécialistes pour créer des images. Espérons que la start-up britannique parviendra à résoudre ce problème d'ici peu.

L'IA est désormais à quelques pas de devenir une référence dans le domaine du gaming et de l'audiovisuel. À cette allure, toutes les entreprises vont adopter cette technologie. Selon vous, cette approche sera-t-elle une menace pour les travailleurs humains ? Ou est-ce qu'elle sera un atout considérable pour les contenus du futur ?

Cet article Stable Video 4D : nouvelle percée dans le domaine des IA génératives de vidéos ! a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Voici Koala, l’IA qui crée des images 5 fois plus vite que DALL-E
Koala, ce nouveau générateur d'images IA est 5 fois plus rapide que les autres modèles. Pour l'obtenir, les scientifiques se servaient de la « distillation des connaissances » afin de comprimer Stable Diffusion XL en un modèle de générateur d'image d'IA. Koala a été récemment révélé par des scientifiques sud-coréens. Il s'agit d'un générateur d'images IA, plus rapide et plus performant que les autres. Par ailleurs, il est possible de l'utiliser sur n'importe quel ordinateur, même ceux à faibl

Voici Koala, l’IA qui crée des images 5 fois plus vite que DALL-E

LEBIGDATA.FR

Par : Dina R.

18 juillet 2024 à 13:36

Koala, ce nouveau générateur d'images IA est 5 fois plus rapide que les autres modèles. Pour l'obtenir, les scientifiques se servaient de la « distillation des connaissances » afin de comprimer Stable Diffusion XL en un modèle de générateur d'image d'IA.

Koala a été récemment révélé par des scientifiques sud-coréens. Il s'agit d'un générateur d'images IA, plus rapide et plus performant que les autres. Par ailleurs, il est possible de l'utiliser sur n'importe quel ordinateur, même ceux à faible spécification. En effet, ce modèle ne requiert qu'un GPU et environ 8 Go de RAM. C'est donc un générateur d'image à la fois efficace et accessible.

En quoi Koala AI se distingue-t-il des autres générateurs d'images plus grands ?

Koala AI diffère des autres IA génératrices d'images grâce au processus de distillation des connaissances. Il s'agit d'une technique qui utilise un modèle de génération d'images open source et compacte ses paramètres à une valeur relativement basse. À titre d'exemple, Koala ne demande que 700 millions de paramètres pour faire fonctionner sa plus petite variante.

Par ailleurs, le processus de distillation des connaissances restreint les exigences de calcul, sans pour autant limiter les performances. De cette manière, l'utilisateur pourra obtenir à tout moment une résolution d'images de haute qualité.

Elle se distingue aussi en termes de vitesse de génération. En effet, ce générateur d'image est meilleur que DALL-E 2 et DALL-E 3 de la célèbre société OpenAI. Sachez que Koala est capable de créer des images en seulement deux secondes, si ces deux versions d'OpenAI demandent plus de 10 secondes pour effectuer cette tâche.

Néanmoins, il est toujours possible d'attendre un peu plus pour obtenir un résultat surprenant.

Un test particulièrement satisfaisant

L'équipe de scientifiques sud-coréens a révélé ses résultats dans un article le 7 décembre 2023 dans la base de données de pré-impression arXiv. Un compte rendu a également été publié à partir du référentiel d'IA open source Hugging Face.

L'Institut de recherche en électronique et télécommunication (ETRI), l'institution à l'origine des nouveaux modèles, a conçu cinq versions, dont trois versions du « KOALA ». Ce dernier génère en effet des images via une saisie de texte. Deux autres versions de « Ko-LLaVA » quant à eux peuvent répondre à des données textuelles avec des vidéos ou des images.

Durant les tests, KOALA a créé une image à partir de l'invite « une photo d'un astronaute lisant un livre sous la lune sur Mars » en seulement 1,6 seconde. Ils ont demandé à DALL-E 2 de générer une image avec la même invite, et l'a effectuée en 12,3 secondes. DALL-E 3 quant à lui a généré l'image en 13,7 secondes d'après un communiqué.

Koala permet aux utilisateurs de générer une image gratuitement et rapidement

Le générateur d'image Koala AI permet notamment de générer des images IA gratuitement. Lors d'un test, le résultat n'était pas aussi parfait. Toutefois, l'utilisation d'un ordinateur bas de gamme pour l'intelligence artificielle pourrait ouvrir la voie à des découvertes frappantes.

Le plus important est de savoir que cet outil permet d'avoir de bons résultats même à de faibles coûts opérationnels. C'est d'ailleurs l'une des raisons pour lesquelles les scientifiques souhaitent l'incorporer dans d'autres domaines, à savoir la production de contenu ou encore l'éducation et autres.

En outre, vu qu'il est capable de fonctionner sur des appareils bas de gamme, ce générateur peut ainsi conduire à la démocratisation de l'IA.

Qu'en pensez-vous de ce nouveau générateur d'image IA ? Est-ce que vous allez essayer Koala ? Vous pouvez donner votre avis dans les commentaires.

Cet article Voici Koala, l’IA qui crée des images 5 fois plus vite que DALL-E a été publié sur LEBIGDATA.FR.

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Quelles sont les meilleures alternatives gratuites à ChatGPT ?
ChatGPT occupe une place notable. Le chatbot d'OpenAI excelle pour des tâches parfois chronophages et permet de gagner beaucoup de temps. Mais il n'est pas la seule IA générative performante — une bonne nouvelle, puisque ChatGPT n'est pas infaillible. En cas de panne, il existe des alternatives à ChatGPT à considérer. Voici les meilleures.

Quelles sont les meilleures alternatives gratuites à ChatGPT ?

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Julien Lausson

26 janvier 2026 à 21:32

ChatGPT occupe une place notable. Le chatbot d'OpenAI excelle pour des tâches parfois chronophages et permet de gagner beaucoup de temps. Mais il n'est pas la seule IA générative performante — une bonne nouvelle, puisque ChatGPT n'est pas infaillible. En cas de panne, il existe des alternatives à ChatGPT à considérer. Voici les meilleures.

LEBIGDATA.FR
Brèche de sécurité chez Hugging Face : Un accès non autorisé compromet la plateforme Spaces
Le fournisseur de services d'IA Hugging Face a récemment révélé avoir été victime d'un accès non autorisé compromettant sa plateforme phare Spaces. Une faille de sécurité majeure a été découverte chez Hugging Face, l'un des principaux fournisseurs de services d'intelligence artificielle. L'entreprise a confirmé qu'un accès non autorisé à sa plateforme Spaces a eu lieu cette semaine, exposant potentiellement des données sensibles d'utilisateurs et de modèles d'IA. Cet incident souligne les déf

Brèche de sécurité chez Hugging Face : Un accès non autorisé compromet la plateforme Spaces

LEBIGDATA.FR

Par : Oliva R.

4 juin 2024 à 05:30

Le fournisseur de services d'IA Hugging Face a récemment révélé avoir été victime d'un accès non autorisé compromettant sa plateforme phare Spaces.

Une faille de sécurité majeure a été découverte chez Hugging Face, l'un des principaux fournisseurs de services d'intelligence artificielle. L'entreprise a confirmé qu'un accès non autorisé à sa plateforme Spaces a eu lieu cette semaine, exposant potentiellement des données sensibles d'utilisateurs et de modèles d'IA. Cet incident souligne les défis croissants en matière de cybersécurité auxquels est confronté le secteur de l'IA, qui connaît une croissance très rapide.

Les détails de l'incident

Selon le communiqué de Hugging Face, certaines données d'authentification et d'accès (les fameux « secrets« ) de sa plateforme Spaces pourraient avoir été compromises de manière illicite par des acteurs malveillants. Spaces permet aux utilisateurs de développer, héberger et partager des applications d'IA et d'apprentissage automatique.

Face à cet incident, l'entreprise a révoqué plusieurs jetons d'accès présents dans les « secrets » piratés et a notifié les utilisateurs impactés. Hugging Face recommande par ailleurs vivement de renouveler les clés et jetons d'accès, en adoptant les jetons d'accès à granularité fine, qui sont désormais la norme par défaut.

Enquête en cours

Bien que Hugging Face n'ait pas divulgué le nombre exact d'utilisateurs touchés, l'entreprise a indiqué qu'une enquête approfondie était en cours pour déterminer l'ampleur de la brèche et identifier les responsables. Le fournisseur a également signalé l'incident aux forces de l'ordre et aux autorités de protection des données.

Cet incident met en évidence les risques croissants auxquels sont exposés les fournisseurs de services d'IA à mesure que l'adoption de l'IA s'accélère.

Si des acteurs malveillants parviennent à compromettre ces plateformes, ils pourraient potentiellement avoir accès à des modèles d'IA privés, à tout un ensemble de données sensibles ainsi qu'à des applications critiques.

Cet article Brèche de sécurité chez Hugging Face : Un accès non autorisé compromet la plateforme Spaces a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Mistral Codestral : le géant français de l’IA lance un générateur de code
Mistral passe à la vitesse supérieure avec sa nouvelle fonctionnalité Codestral. Après tout, cette approche était nécessaire. Tous les concurrents ont une option destinée aux développeurs, et la référence française de l'IA devait être à la hauteur. OpenAI, Microsoft, et les autres géants de l'IA ont tous des fonctionnalités destinées aux développeurs. Où se trouve la France dans toute cette situation ? Elle a répondu présent, avec le lancement de Codestral de Mistral AI. Cette innovation perm

Mistral Codestral : le géant français de l’IA lance un générateur de code

LEBIGDATA.FR

Par : Rina R.

31 mai 2024 à 17:09

Mistral passe à la vitesse supérieure avec sa nouvelle fonctionnalité Codestral. Après tout, cette approche était nécessaire. Tous les concurrents ont une option destinée aux développeurs, et la référence française de l'IA devait être à la hauteur.

OpenAI, Microsoft, et les autres géants de l'IA ont tous des fonctionnalités destinées aux développeurs. Où se trouve la France dans toute cette situation ? Elle a répondu présent, avec le lancement de Codestral de Mistral AI. Cette innovation permet de générer des lignes de codes, en se basant sur des prompts. Une avancée considérable et nécessaire pour rester au niveau des concurrents.

Mistral Codestral : plus performant que Llama 3 70B ?

Des spécialistes ont déjà testé les performances de Mistral Codestral. Leurs conclusions ont été très intéressantes. Effectivement, ce nouveau modèle LLM de l'entreprise française est capable de détrôner les références du secteur. Avec ses 22 milliards de paramètres, et sa fenêtre contextuelle de 32K, Codestral se situera bientôt en tête de liste.

Cependant, un benchmark spécifique permet de classer ces modèles avec précision. A la surprise générale, Codestral a un score de 73,75%. C'est largement au-dessus des modèles gratuits d'OpenAI. En effet, GPT-3.5 Turbo a été noté à 54,66%. Cependant, GPT-4 Turbo n'est pas loin, avec un score de 72,05%. C'est une évidence, Mistral est le rival français d'OpenAI sur ce plan. Toutefois, il faut que cette entreprise prometteuse s'aventure sur d'autres domaines de l'IA afin de devenir un leader du secteur.

La nouvelle référence sur Python ?

Mistral Codestral a pour objectif de générer des codes pour les développeurs. Rien de mieux que de se focaliser sur le langage de programmation le plus utilisé pour s'illustrer dans ce secteur. Les spécialistes de Mistral ont alors axé leur outil sur Python.

D'autres professionnels du secteur ont alors comparé Codestral aux différents outils capables d'assurer la même fonctionnalité. Sur RepoBench, ce nouveau modèle de Mistral a un score de 34%. Sur Le benchmark Spider, Codestral s'illustre avec 63,5%.

Mais la performance de Codestral ne s'arrête pas au langage Python. Il est aussi capable de générer des codes C++, Java, Bash, etc. Sa polyvalence sera un grand atout pour devenir une référence du marché.

Mistral have released Codestral 22B a new model focused on (fast) code generation!

It is trained on 80+ languages and has been released on @MistralAI's API & chat interface as well as under an open but non-commercial license (more analysis of this later).

Comparing Codestral… pic.twitter.com/yqAU707Xgq
— Artificial Analysis (@ArtificialAnlys) May 29, 2024

Comment utiliser Codestral ?

Mistral veut conquérir un nouveau profil de public avec Codestral. Vous pourrez alors profiter des atouts de l'outil avec deux approches. Passez par api.mistral.ai pour utiliser l'API de Codestral. C'est la première démarche. En alternative, vous pouvez télécharger l'outil sur Hugging Face. Dans tous les cas, Codestral sera utilisé pour faire des recherches et des tests. De plus, l'outil est gratuit actuellement. Cependant, Mistral a mis une limitation à cette innovation. En effet, vous devez utiliser vos jetons à chaque prompts.

Dans tous les cas, Codestral est une véritable avancée dans le domaine de l'intelligence artificielle. Cette nouvelle fonctionnalité illustre une nouvelle ère pour la haute technologie en France. Selon vous, Mistral sera-t-elle une référence mondiale de l'IA d'ici 5 ans ? Pour moi, l'entreprise atteindra cet objectif, surtout si elle se focalise sur les demandes des utilisateurs.

Cet article Mistral Codestral : le géant français de l’IA lance un générateur de code a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Petits dévs IA face aux GAFAM : Hugging Face offre 10 millions $ de GPU
Les petits développeurs pourront à l'avenir développer de nouvelles technologies d'IA grâce au don de Hugging Face. Ce plus grand fournisseur de services d'IA (apprentissage automatique) souhaite aider les entités qui n'ont pas de moyen à combattre la centralisation des avancées de l'IA à accéder à cette technologie. L'IA est une technologie innovante aux multiples avantages. Elle a révolutionné de nombreux secteurs, dont la santé. Néanmoins, il faut aussi reconnaître que cette technolo

Petits dévs IA face aux GAFAM : Hugging Face offre 10 millions $ de GPU

LEBIGDATA.FR

Par : Dina

21 mai 2024 à 15:58

Les petits développeurs pourront à l'avenir développer de nouvelles technologies d'IA grâce au don de Hugging Face. Ce plus grand fournisseur de services d'IA (apprentissage automatique) souhaite aider les entités qui n'ont pas de moyen à combattre la centralisation des avancées de l'IA à accéder à cette technologie.

L'IA est une technologie innovante aux multiples avantages. Elle a révolutionné de nombreux secteurs, dont la santé. Néanmoins, il faut aussi reconnaître que cette technologie est onéreuse. Il s'agit d'ailleurs de l'un des obstacles aux PME et PE d'IA qui débute dans le domaine développant de nouvelles idées. En effet, le coût d'accès à ce genre de technologie est cher.

Dans cette optique, Hugging Face, révèle qu'il offre 10 millions de dollars de puissance GPU pour les startups, les petits développeurs ou encore les chercheurs en IA à avoir accès à de puissants systèmes d'IA et surtout à combattre les grandes sociétés d'IA centralisées.

Un projet qui entre dans la vision de Hugging Face

Our portfolio company @huggingface is committing $10 million in free shared GPUs to help developers create new AI technologies. CEO @ClementDelangue talks with @theverge about how his team is investing in the startup community. https://t.co/SYhyxVr30I
— AIX Ventures (@aixventureshq) May 16, 2024

Le projet de financer les startups, les universitaires ou autres petits développeurs correspond à l'idée de création de Hugging Face, elle-même selon l'affirmation de Clem Delangue, le PDG de la société. En effet, lors de son entretien avec le site d'information technologique The Verge, il affirme : « Nous avons la chance d'être dans une position où nous pouvons investir dans la communauté ».

La société peut investir dans ce projet, car elle est « rentable, ou presque rentable » ajoute-t-il. De plus, il vient de faire une levée de fond qui lui a permis de récolter 235 millions de dollars de financement. Cela permet par la même occasion de valoriser sa société à 4,5 milliards de dollars.

Hugging Face a pour principal objectif de faire en sorte que tout le monde puisse accéder aux technologies d'IA de pointe, et pas uniquement aux géants de la technologie. D'ailleurs, Delangue s'inquiète particulièrement du pouvoir des startups de l'IA à concurrencer les géants dans le domaine.

Le programme ZeroGPU à la rescousse des petits dévs IA

Pour construire un grand modèle de langage, les grandes entreprises comme OpenAI et Anthropic doivent conclure des partenariats avec des sociétés de cloud pour obtenir des ressources informatiques substantielles.

Pour balancer les règles du jeu, Hugging Face décide de faire don de ces GPU partagés aux petits développeurs via le programme ZeroGPU. Ce dernier permet de donner à plusieurs utilisateurs un accès partagé à des GPU. Permettant ainsi de réduire le besoin pour un utilisateur ou une application d'avoir un GPU dédié.

Pour accéder à ce don, il faut se rendre sur Hugging Face's Spaces. Il s'agit d'une plateforme d'hébergement pour l'annonce de programme. Elle renferme également plus de 300 000 démos d'IA développées sur CPU ou GPU payant, en fonction de l'entreprise.

Hugging Face is sharing $10 million worth of compute to help beat the big AI companies. https://t.co/86rLZv8aUG
— Techpresso (@techpresso_en) May 16, 2024

L'accès aux GPU partagés est déterminé par l'usage, ainsi si une partie de la faculté du GPU n'est pas intensément utilisée, cette faculté sera accessible pour une autre personne. La rentabilité et l'économie en énergie dépendent ainsi de cette utilisation.

Notons que la plateforme ZeroGPU exploite des périphériques GPU Nvidia A100 pour ravitailler cette opération. Cette dernière propose en moyenne 50 % de la vitesse de calcul des H100 célèbres et plus coûteux.

Je pense que ce don pourra faire avancer davantage la technologie IA. Et vous qu'en pensez-vous ? Envisagez-vous de l'utiliser ? N'oubliez pas de nous partager votre expérience en commentaire.

Cet article Petits dévs IA face aux GAFAM : Hugging Face offre 10 millions $ de GPU a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Snowflake lance Arctic : une IA LLM open source pour votre entreprise
Snowflake vient d'annoncer le lancement d'Arctic AI. Ce modèle open source offre une nouvelle approche dans l'utilisation de l'intelligence artificielle, en prenant également en compte ses concurrents notables tels qu'OpenAI et Google. Déjà reconnu pour ses solides solutions de gestion de données dans le cloud, Snowflake lance son IA Arctic. Notons que ce modèle de langage grand format open source est conçu pour rivaliser avec des géants tels que le GPT-4 d'OpenAI et le Gemini de Google.

Snowflake lance Arctic : une IA LLM open source pour votre entreprise

LEBIGDATA.FR

Par : Nirina R.

26 avril 2024 à 15:54

Snowflake vient d'annoncer le lancement d'Arctic AI. Ce modèle open source offre une nouvelle approche dans l'utilisation de l'intelligence artificielle, en prenant également en compte ses concurrents notables tels qu'OpenAI et Google.

Déjà reconnu pour ses solides solutions de gestion de données dans le cloud, Snowflake lance son IA Arctic. Notons que ce modèle de langage grand format open source est conçu pour rivaliser avec des géants tels que le GPT-4 d'OpenAI et le Gemini de Google.

Et ce n'est pas tous les jours qu'un poids lourd de l'entrepôt de données décide de jouer dans la cour des grands de l'IA. Snowflake l'a fait avec une assurance qui pourrait faire rougir ses concurrents.

Un modèle ouvert pour démocratiser l'IA

Snowflake ne fait pas les choses à moitié avec Arctic AI. D'ailleurs, ce modèle n'est pas seulement un outil puissant, il est présenté comme le « LLM d'entreprise le plus ouvert disponible aujourd'hui. »

De plus, avec une architecture de mélange d'experts, Arctic AI est optimisé pour s'adapter à une large gamme d'applications professionnelles, ce qui en fait un outil polyvalent dans l'arsenal technologique des entreprises.

En plus de ses capacités impressionnantes, Snowflake a opté pour une transparence totale. La société offre les poids d'Arctic sous licence Apache 2.0 et divulgue les détails de sa formation.

Ainsi, cette approche ouverte vise à établir de nouvelles normes dans le domaine de l'IA. Elle encourage une utilisation et une collaboration plus étendues.

Flexibilité et intégration facile : les atouts d'Arctic AI

Notons que Snowflake vise à rendre l'IA plus accessible et adaptable. Le PDG de la compagnie, Sridhar Ramaswamy, a clairement exprimé son ambition lorsqu'il a affirmé : « En fournissant à la communauté de l'IA une intelligence et une efficacité de pointe d'une manière véritablement ouverte, nous repoussons les frontières de ce que l'IA open source peut faire ».

Cette déclaration encapsule toute la philosophie qui sous-tend Arctic AI. En effet, elle souligne non seulement l'engagement de Snowflake à innover, mais aussi sa volonté de partager ces avancées pour enrichir la communauté globale.

Ce modèle est spécialement conçu pour une intégration rapide sur les plateformes préférées des clients. Il offre ainsi des options de formation et d'inférence extrêmement flexibles.

Que vous optiez pour Nvidia's NIM avec Nvidia TensorRT-LLM, vLLM, ou Hugging Face, Arctic AI s'adapte parfaitement.

C'est grâce à cette facilité d'intégration que Snowflake valorise l'accessibilité et la personnalisation de l'IA. De ce fait, elle confirme que la société prend très au sérieux les besoins spécifiques de ses utilisateurs.

Introducing Snowflake Arctic. An efficiently intelligent and truly open LLM built by Snowflake. pic.twitter.com/kEMnBeJsMc
— Snowflake (@SnowflakeDB) April 24, 2024

Un investissement pour être plus efficace et transparent

Quant à la performance, Arctic AI repousse également les limites en termes de coût et d'efficacité. Grâce à son architecture MoE, ce modèle montre une efficacité de jeton sans précédent. Il utilise moins de ressources tout en délivrant des performances supérieures.

Ce niveau d'efficacité se traduit par des coûts réduits pour les entreprises, permettant même aux petites structures de tirer parti de l'IA générative à un coût abordable.

Par ailleurs, le dernier rapport de Snowflake a révélé que l'utilisation de l'IA parmi plus de 9 400 comptes clients connaît une croissance impressionnante. Cette hausse est particulièrement notable dans l'utilisation du Python. Elle se manifeste également dans l'emploi de balises, de données non structurées et d'outils de développement d'IA.

Ces tendances illustrent l'importance croissante de l'IA dans les opérations commerciales. Elles renforcent également le positionnement de Snowflake au cœur des stratégies numériques des entreprises.

Pour finir, Arctic AI est maintenant disponible pour l'inférence sans serveur. Cela se fait via Snowflake Cortex, un service intégré directement à la plateforme Data Cloud de Snowflake.

Je pense que l'open source d'Arctic AI par Snowflake pourrait rendre l'IA avancée plus accessible et moins coûteuse. Et vous, qu'en pensez-vous ? Voyez-vous Arctic AI comme un changement de jeu pour les entreprises ? N'hésitez pas à partager vos impressions et réflexions dans les commentaires ci-dessous !

Cet article Snowflake lance Arctic : une IA LLM open source pour votre entreprise a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Meta lance l’IA Llama 3 ! Découvrez sa puissance, et le secret pour l’utiliser en France !
Meta hausse le ton dans la guerre de l'IA ! La firme de Mark Zuckerberg lance enfin Llama 3, sa nouvelle IA open source qui s'assoit à la table de OpenAI GPT-4 Turbo, Anthropic Claude 3 Opus et Google Gemini Ultra selon les premiers tests ! Découvrez tout ce qu'il faut savoir sur ce puissant LLM, et sur son chatbot Meta.ai ! Il y a quelques jours, Meta et OpenAI annonçaient chacun de leur côté le lancement imminent de leurs nouvelles IA, beaucoup plus puissantes et capables de raisonner. C

Meta lance l’IA Llama 3 ! Découvrez sa puissance, et le secret pour l’utiliser en France !

LEBIGDATA.FR

Par : Bastien L.

19 avril 2024 à 16:16

Meta hausse le ton dans la guerre de l'IA ! La firme de Mark Zuckerberg lance enfin Llama 3, sa nouvelle IA open source qui s'assoit à la table de OpenAI GPT-4 Turbo, Anthropic Claude 3 Opus et Google Gemini Ultra selon les premiers tests ! Découvrez tout ce qu'il faut savoir sur ce puissant LLM, et sur son chatbot Meta.ai !

Il y a quelques jours, Meta et OpenAI annonçaient chacun de leur côté le lancement imminent de leurs nouvelles IA, beaucoup plus puissantes et capables de raisonner.

C'est désormais chose faite pour l'entreprise de Zuckerberg : la nouvelle IA Llama 3 vient d'être lancée, un peu moins d'un an après la V2 sortie en juillet 2023.

Plus précisément, Llama 3 est une famille de modèles et les deux premiers sont disponibles. On ignore pour l'instant la date de lancement des autres…

Introducing Meta Llama 3: the most capable openly available LLM to date.

Today we're releasing 8B & 70B models that deliver on new capabilities such as improved reasoning and set a new state-of-the-art for models of their sizes.

Today's release includes the first two Llama 3… pic.twitter.com/Q80lVTeS7m
— AI at Meta (@AIatMeta) April 18, 2024

Le premier est Llama 3 8B, avec 8 milliards de paramètres, et Llama 3 70B, avec 70 milliards de paramètres. En comparaison avec Llama 2 8B et Llama 2 70B, Meta promet un bond dans les performances malgré le même nombre de paramètres.

Pour rappel, la quantité de paramètres d'un modèle IA détermine ses performances pour une tâche spécifique comme l'analyse ou la génération de texte.

Afin d'atteindre un tel niveau, la firme a entraîné ses nouveaux modèles sur deux clusters de 24 000 GPU construits spécialement pour l'occasion.

Et toujours d'après Meta, cette troisième génération ne se contente pas de surpasser la deuxième : elle rivalise avec les meilleures IA génératives disponibles à l'heure actuelle.

Que vaut Llama 3 face à Claude 3, GPT-4 et Gemini ?

Pour le prouver, elle souligne ses scores sur plusieurs benchmarks populaires comme MMLU pour mesurer la connaissance, ARC pour l'acquisition de compétences, et DROP pour le raisonnement sur du texte.

Ainsi, Llama 3 8B dépasse déjà d'autres modèles ouverts comme l'IA française Mistral 7B ou le Gemma 7B de Google sur au moins neuf benchmarks : MMLU, ARC, DROP, GPQA pour la science, HumanEval pour le code, GSM-8K et MATH pour les maths, AGIEval ou encore BIG-Bench Hard pour le sens commun.

Toutefois, il convient de noter que Mistral 7B et Gemma 7B datent déjà de la fin 2023. Néanmoins, Llama 3 70B quant à lui rivalise avec les meilleures IA comme Gemini 1.5 Pro : la dernière version de l'IA de Google.

Elle la surpasse même sur MMLU, HumanEval et GSM-8K. Et même si elle ne dépasse pas Claude 3 Opus, le meilleur modèle d'Anthropic, elle bat son petit frère Claude 3 Sonnet sur MMLU, GPQA, HumanEval, GSM8K et MATH.

Outre ces benchmarks, Meta a aussi développé ses propres tests pour différents cas d'usage comme le codage, l'écriture créative, ou encore le raisonnement.

Comme on peut s'en douter, Llama 3 70B surpasse Mistral Medium, OpenAI GPT-3.5 et Claude Sonnet sur ces tests…

Impressive results from Llama 3! pic.twitter.com/X85Wz3iol2
— Yann Dubois (@yanndubs) April 19, 2024

Un dataset d'entraînement 7 fois plus large que Llama 2 !

Dans le détail, Meta affirme que Llama 3 est plus facile à diriger que les précédentes versions, moins enclin à refuser de répondre, et plus précis sur les questions d'histoire ou de science.

Ceci s'explique notamment par son dataset beaucoup plus large avec 15 billions de tokens, soit environ 750 milliards de mots. C'est sept fois plus que le jeu de données de Llama 2.

Une question se pose toutefois : d'où proviennent ces données ? Meta se contente d'indiquer qu'il s'agit de sources publiquement disponibles, et qu'elles incluent quatre fois plus de code que celles de Llama 2 et 5% de données dans 30 langages autres que l'anglais.

Feeling the gap between the Llama-3-8B and Llama-3-70B models by @AIatMeta? Not sure how to use your extra vRAM? Look no further!

I am excited to introduce three new Llama-3 models in 11B, 13B, and 16B sizes!

Find all 3 models on @huggingface pic.twitter.com/4UuGmCnfOu
— Maziyar PANAHI (@MaziyarPanahi) April 19, 2024

Le but ? Améliorer ses performances dans les autres langues comme le français ! La firme a aussi utilisé des données synthétiques, générées par l'IA, pour créer des documents plus longs afin d'entraîner Llama 3 dessus.

Il n'est pas étonnant que Meta préfère garder une part de mystère sur les données d'entraînement, car il s'agit du nerf de la guerre de l'IA.

Toutefois, il peut aussi s'agir d'une façon de cacher l'utilisation de données protégées par les droits d'auteur. Une récente enquête a révélé que Meta s'est servi de e-books soumis au copyright pour entraîner ses précédentes IA et rattraper la concurrence…

Une pratique malheureusement très répandue dans l'industrie, profitant du manque de transparence des IA qui empêche de prouver avec quelles données elles ont été nourries.

https://youtu.be/2XO8RoU4XQQ

Une IA moins toxique et raciste que ses concurrentes ?

La toxicité et les biais discriminatoires sont aussi deux problèmes récurrents chez les modèles d'IA générative.

Toutefois, Meta affirme avoir créé de nouveaux pipelines de filtrage de données pour booster la qualité des données d'entraînement de ses modèles.

L'entreprise a aussi mis à jour ses outils de sécurité Llama Guard et CybersecEval, dans le but d'empêcher l'utilisation à mauvais escient et les générations de contenu indésirable. Ceci s'applique à Llama 3, et aux autres modèles.

Un tout nouvel outil, Code Shield, va aussi permettre de détecter le code qui pourrait introduire des vulnérabilités de sécurité. Il faudra toutefois patienter pour découvrir si les hackers et cybercriminels parviennent à contourner ces barrières de sécurité…

https://youtu.be/kh6Ii61uiQE

Bientôt une version encore plus puissante !

En ce moment même, Meta entraîne des modèles Llama 3 avec plus de 400 milliards de paramètres. Ils seront capables de discuter dans une multitude de langages, de prendre davantage de données et de comprendre les images ou les autres modalités.

Ainsi, cette future IA sera au même niveau que d'autres modèles open source comme Hugging Face Idefics2.

À l'avenir, Meta se fixe pour objectif de faire de Llama 3 une IA polyglotte et multimodale, avec une fenêtre de contexte plus longue, et de continuer à améliorer ses performances sur le raisonnement et le codage…

Comment utiliser Llama 3 en France dès aujourd'hui ?

Les modèles Llama 3 sont disponibles en téléchargement, et servent aussi de moteur au chatbot Meta AI qu'on retrouve sur Facebook, Instagram, WhatsApp et Messenger.

Il sera bientôt aussi proposé sous forme gérée sur différentes plateformes cloud dont AWS, Databricks, Google Cloud, Hugging Face, Kaggle, IBM WatsonX, Microsoft Azure, Nvidia NIM et Snowflake.

En outre, de futures versions optimisées pour le hardware AMD, AWS, Dell, Intel, Nvidia et Qualcomm seront prochainement disponibles.

Même si Meta vante l'ouverture de cette IA, notons qu'il est interdit de l'utiliser pour entraîner d'autres modèles d'IA générative. De plus, les développeurs d'applications avec plus de 700 millions d'utilisateurs mensuels doivent demander une licence spéciale à la firme américaine.

Pour la première fois, le chatbot basé sur Llama a aussi son propre site web, dans la lignée de ChatGPT, Mistral Le Chat ou Google Gemini. Il s'agit du site web meta.ai, qui permet de dialoguer directement avec l'IA.

Toutefois, pour le moment, ce site web n'est accessible que depuis les États-Unis. Si vous vous rendez sur le site meta.ai, un message vous indiquera qu'il n'est pas disponible dans votre pays.

Rassurez-vous ! Contrairement à Claude 3 qui vérifie votre véritable localisation, Meta.ai peut être très facilement trompé… à l'aide d'un simple VPN !

Télécharger NordVPN dès maintenant

Consultez notre classement des meilleurs VPN en suivant ce lien, choisissez celui qui vous plaît, et utilisez-le pour simuler une connexion depuis les États-Unis.

Vous pouvez dès lors vous rendre sur le site web Meta.ai, et commencer à l'utiliser en tant qu'invité ou en vous connectant avec votre compte Facebook.

Dès lors, vous pouvez entrer votre prompt textuel comme sur ChatGPT, ou utiliser l'onglet « Imagine » pour créer des images comme avec MidJourney !

Alors, que pensez-vous de cette nouvelle IA ? Trouvez-vous qu'elle est meilleure que ChatGPT ? Partagez votre avis en commentaire !

Cet article Meta lance l’IA Llama 3 ! Découvrez sa puissance, et le secret pour l’utiliser en France ! a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
ChatGPT devient votre vieil oncle raciste ! Les chercheurs alertent
L'IA devient de plus en plus raciste ! C'est ce que révèle une étude scientifique, qui se penche pour la première fois sur les préjugés xénophobes les plus subtils cachés dans les LLM comme GPT-4 ou Google Gemini… Le racisme est l'un des plus grands fléaux de nos sociétés multiculturelles, poussant les différentes ethnies au repli communautaire et empêchant les différentes cultures de se mélanger. On pense souvent que cette xénophobie est liée à un manque d'intelligence, et on pouvait espé

ChatGPT devient votre vieil oncle raciste ! Les chercheurs alertent

LEBIGDATA.FR

Par : Bastien L.

9 avril 2024 à 16:39

L'IA devient de plus en plus raciste ! C'est ce que révèle une étude scientifique, qui se penche pour la première fois sur les préjugés xénophobes les plus subtils cachés dans les LLM comme GPT-4 ou Google Gemini…

Le racisme est l'un des plus grands fléaux de nos sociétés multiculturelles, poussant les différentes ethnies au repli communautaire et empêchant les différentes cultures de se mélanger.

On pense souvent que cette xénophobie est liée à un manque d'intelligence, et on pouvait espérer que l'IA n'hérite pas de ce défaut des humains. Malheureusement, c'est tout le contraire : plus l'IA progresse, plus elle devient raciste…

C'est ce que révèle une étude alarmante publiée en mars 2024 par les chercheurs du Allen Institute for Artificial Intelligence.

L'IA est raciste, et personne ne l'avait remarqué

Selon leurs recherches, les Larges Modèles de Langage (LLM) comme ChatGPT et Google Gemini font preuve de stéréotypes racistes à l'égard des locuteurs de l'anglais vernaculaire afro-américain : un dialecte créé et parlé par les afro-américains.

C'est d'autant plus étonnant de la part de Gemini, qui a pourtant été entraîné en suivant l'idéologie « woke » de Google à tel point qu'elle refuse catégoriquement de représenter l'homme blanc d'une façon positive…

Alors, comment expliquer ce phénomène ? Selon Valentin Hoffman, co-auteur de l'étude, jusqu'à présent, les scientifiques se sont seulement penchés sur les préjugés raciaux manifestes que l'IA peut avoir.

Or, ils n'ont jamais examiné comment les systèmes IA réagissent à des marqueurs raciaux moins explicites tels que les différences de dialecte. Ces biais sont donc passés entre les mailles du filet de la modération lors du développement des chatbots…

Les personnes noires utilisant le dialecte AAVE sont connues pour subir des discriminations dans différents contextes tels que l'éducation, l'emploi, l'hébergement et la justice.

Un mépris total envers le dialecte afro-américain

Afin de mener leur test, les chercheurs ont demandé aux IA d'estimer l'intelligence et l'employabilité des personnes utilisant ce dialecte par rapport aux personnes parlant « l'anglais américain standard ».

Par exemple, l'IA devait comparer la phrase « I be so happy when I wake up from a bad dream cus they be feelin' too real » (je être trop content quand je me réveille d'un cauchemar p'sque ils sembler trop réels) avec la phrase normale « je suis très content quand je me réveille d'un cauchemar parce qu'ils semblent trop réels ».

Très méprisantes, les IA se sont révélées beaucoup plus enclines à qualifier les locuteurs de l'AAVE de « stupides » et « paresseuses » et à les associer à des métiers sous-payés. De quoi faire blêmir Sandrine Rousseau !

Un risque de discrimination à l'embauche

Comme le souligne Hoffman, « nous savons que ces technologies sont couramment utilisées par des entreprises pour des tâches comme la sélection de candidats à l'emploi ».

Il s'inquiète donc que les modèles IA sanctionnent les candidats parlant le dialecte AAVE à cause de leur façon de parler, et qu'ils soient encore plus discriminés…

Même s'ils adaptent leur langage pendant l'entretien d'embauche pour paraître plus professionnels, l'IA risque de détecter l'usage du dialecte dans leurs publications sur les réseaux sociaux.

RACIST ALGORITHMS IN MEDICAL AI: WHAT'S THE CURE?

AI chat bots are everywhere – but would you trust one with a medical issue? Worrying new data suggests that the algorithms running artificial intelligence in health care are based on racist stereotypes – including false… pic.twitter.com/NNxRPc7uS1
— African Stream (@african_stream) April 1, 2024

ChatGPT a la peine de mort facile pour les afro-américains

Pire encore : l'IA se révèle beaucoup plus encline à recommander la peine de mort pour les suspects utilisant le dialecte afro-américain lors de leur jugement au tribunal.

Même si cette technologie n'est pas encore utilisée pour prendre des décisions de justice, ce type de préjugés pourrait avoir des conséquences tragiques si elle remplace un jour les juges…

Le chercheur souligne qu'il y a 10 ans, nous n'avions pas la moindre idée des différents contextes où l'IA est utilisée aujourd'hui. Ce futur dystopique n'est donc pas si inimaginable, et c'est pourquoi Hoffman appelle les développeurs à lutter d'urgence contre le racisme des LLM.

Rappelons d'ailleurs que des modèles IA sont déjà utilisés par le système judiciaire américain pour assister les tâches administratives comme la création de transcriptions ou les recherches légales.

Comment empêcher l'IA de devenir raciste ?

Depuis de nombreuses années, de nombreux experts en IA appellent les gouvernements à restreindre les usages des LLM. C'est notamment le cas de Timnit Gebru, anciennement directeur de l'équipe dédiée à l'éthique de l'IA chez Google.

Elle déplore notamment que l'industrie de l'IA se développe comme une ruée vers l'or, sans considération pour ce type de problématiques.

L'une des sources de ce racisme est que l'IA s'améliore à mesure qu'elle se nourrit de données, apprenant à imiter le langage humain en étudiant les textes issus de milliards de pages web sur internet.

Or, le défaut de ce processus d'apprentissage est que le modèle recrache inexorablement les stéréotypes racistes et sexistes si répandus sur internet.

C'est pourquoi les premiers chatbots IA étaient terriblement racistes, comme Microsoft Tay en 2016 qui récitait le contenu nazi qu'il avait lu sur Twitter.

Pour lutter contre ce fléau, les entreprises comme OpenAI ont mis en place des barrières visant à modérer la façon dont les outils comme ChatGPT communiquent avec les utilisateurs.

Un raciste plus subtil à mesure que l'IA progresse

Malheureusement, à mesure que les LLM deviennent plus larges, ils tendent aussi à devenir plus subtilement racistes. Les garde-fous mis en place permettent seulement de rendre leurs préjugés plus discrets, sans éliminer le problème sous-jacent.

Comme le souligne Avijit Ghosh, chercheur en éthique IA chez Hugging Face, ce comportement n'est pas sans rappeler celui des humains hautement éduqués qui maquillent leur xénophobie en société.

D'après ses dires, « lorsque les gens passent un certain seuil d'éducation, ils ne vous insultent pas frontalement, mais le racisme est toujours là ». Il en va de même pour les IA qui deviennent meilleures pour cacher leurs opinions controversées…

L'expert appelle donc, comme beaucoup d'autres, à restreindre l'usage de l'IA dans certains domaines sensibles. Toutefois, rien ne changera vraiment tant qu'on ne s'attaquera pas à la vraie racine du racisme, y compris chez les humains…

Cet article ChatGPT devient votre vieil oncle raciste ! Les chercheurs alertent a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Stable Video 3D : Cette IA transforme les images en vidéos 3D, c’est fou !
C'est un nouveau palier de franchi avec Stable Video 3D en matière de création de vidéo par intelligence artificielle. Ce modèle révolutionnaire impressionne. Stability AI élargit son catalogue d'intelligence artificielle générative avec Stable Video 3D (SV3D). Ce nouveau modèle transforme les images en vidéos en 3D de quelques secondes. À noter que SV3D n'a besoin que d'une seule image d'entrée pour la conversation. La start-up britannique impressionne une fois de plus. Rappelons qu'en

Stable Video 3D : Cette IA transforme les images en vidéos 3D, c’est fou !

LEBIGDATA.FR

Par : Magloire B.

20 mars 2024 à 08:30

C'est un nouveau palier de franchi avec Stable Video 3D en matière de création de vidéo par intelligence artificielle. Ce modèle révolutionnaire impressionne.

Stability AI élargit son catalogue d'intelligence artificielle générative avec Stable Video 3D (SV3D). Ce nouveau modèle transforme les images en vidéos en 3D de quelques secondes. À noter que SV3D n'a besoin que d'une seule image d'entrée pour la conversation. La start-up britannique impressionne une fois de plus.

Rappelons qu'en novembre dernier, Stability AI avait déjà surpris avec Stable Video Diffusion. Ce modèle peut générer une vidéo à partir d'un prompt ou une image d'entrée.

La vidéo générée dure de deux à cinq secondes. Par ailleurs, sa fréquence d'image est personnalisable. À noter également que SV3D se base sur cette précédente IA générative.

Démonstration du savoir-faire de Stability AI

SV3D ne repose pas uniquement sur la technologie de Stable Video Diffusion. Le nouveau modèle intègre également des éléments de Stable Zero123.

Il s'agit d'un autre modèle de la start-up londonienne, disponible depuis décembre dernier. Cette IA générative permet de facilement créer des images en 3D.

Néanmoins, SV3D et Stable Zero123 ne possèdent pas le même mécanisme. Le premier peut être considéré comme une amélioration du second, explique Varun Jampani.

SV3D takes an image as input and outputs camera-controlled novel views that are highly consistent across the views. We also propose techniques to convert these novel views into quality 3D meshes. View synthesis models are publicly released. Project page: https://t.co/wlc9c7ybJY https://t.co/udLlpdmeIJ
— Varun Jampani (@jampani_varun) March 18, 2024

Le chercheur de Stability AI explique que SV3D utilise « un nouveau réseau de synthèse de vues ». Celui-ci prend une seule image en entrée pour générer de nouvelles images de vue.

Par ailleurs, il détaille davantage le fonctionnement de Stable Video 3D dans un récent papier de recherche.

Le principal atout de Stable Video 3D

Des travaux récents sur la modélisation 3D par IA proposent des techniques pour adapter les modèles génératifs 2D pour la synthèse de nouvelles vues et l'optimisation 3D.

Cependant, ces techniques possèdent leurs limites. Cela a pour effet de brider les performances de la modélisation d'objets 3D avec l'intelligence artificielle.

Stable Video 3D possède la capacité de générer de manière cohérente des images multi-vues d'un objet. Cela permet d'obtenir des plans pertinents sous n'importe quel angle.

La nouvelle IA générative de Stability AI ne rencontre donc aucun problème de perspective pour générer des vidéos en 3D. Ce qui en fait un outil de modélisation 3D très efficace.

Deux versions disponibles de SV3D

Pour une utilisation à des fins commerciales, Stability AI propose son nouveau modèle à 20 dollars mensuels. Les utilisateurs avec un chiffre d'affaires inférieur à un million de dollars peuvent bénéficier de cette formule.

Pour un usage non commercial, Stable Video 3D est disponible en téléchargement gratuit sur Hugging Face.

D'autre part, la start-up britannique a prévu deux versions de sa nouvelle IA générative : SV3D_u et SV3D_p.

D'une part, SV3D_u permet d'obtenir des vidéos à vues orbitales ou circulaires à partir d'une seule image d'entrée. Cette version ne nécessite pas un conditionnement de caméra.

En termes d'IA générative, le conditionnement de caméra fait référence à une technique qui utilise une entrée supplémentaire pour guider le processus de génération de nouvelles images.

Cette entrée supplémentaire est souvent une seconde image ou des paramètres liés aux perspectives de la caméra.

D'autre part, SV3D_p étend cette capacité en prenant à la fois des images uniques et des vues circulaires.

Cet article Stable Video 3D : Cette IA transforme les images en vidéos 3D, c’est fou ! a été publié sur LEBIGDATA.FR.

LEBIGDATA.FR
Générateurs de vidéos : les meilleures IA pour créer une vidéo avec un prompt
Grâce aux générateurs de vidéos IA, n’importe qui peut désormais créer ses propres vidéos très facilement à partir d’un prompt. Que vous souhaitiez produire des vidéos de formation pour votre entreprise, agrémenter votre blog ou site web, ou encore devenir YouTuber, découvrez les meilleurs outils ! Le contenu vidéo est devenu omniprésent dans la sphère numérique, et incontournable pour les entreprises et les créateurs de contenu. On estime que les vidéos représentent désormais plus de 80%

Générateurs de vidéos : les meilleures IA pour créer une vidéo avec un prompt

LEBIGDATA.FR

Par : Bastien L.

6 novembre 2024 à 17:48

Grâce aux générateurs de vidéos IA, n’importe qui peut désormais créer ses propres vidéos très facilement à partir d’un prompt. Que vous souhaitiez produire des vidéos de formation pour votre entreprise, agrémenter votre blog ou site web, ou encore devenir YouTuber, découvrez les meilleurs outils !

Le contenu vidéo est devenu omniprésent dans la sphère numérique, et incontournable pour les entreprises et les créateurs de contenu.

On estime que les vidéos représentent désormais plus de 80% du trafic sur le web. De plus en plus d’internautes préfèrent ce format plutôt que les textes et les images. Elles offrent aussi une meilleure portée organique sur les réseaux sociaux.

Toutefois, la production et la diffusion de vidéo coûtent plus cher et prennent plus de temps. Du moins, c’était le cas jusqu’à présent.

Désormais, l’intelligence artificielle change la donne ! Jamais auparavant il n’avait été aussi simple de créer des vidéos grâce aux générateurs IA.

Après les outils de génération d’image Text-to-Art comme DALL-E ou MidJourney, on assiste à une nouvelle vague d’IA permettant de créer une vidéo à partir d’un prompt textuel.

Et cette technologie est en plein essor : selon Gminsights, le marché du text-to-video devrait croître de 35% entre 2023 et 2032. Voici les meilleurs outils du marché !

OpenAI Sora

En février 2024, OpenAI a surpris tout le monde en dévoilant Sora : un générateur de vidéos qui a une longueur d’avance incroyable sur tous les autres outils de ce dossier.

À partir d’un simple prompt, cette IA peut créer une vidéo d’une durée maximale de 60 secondes. Elle peut produire des vidéos photoréalistes, des dessins animés, des clips musicaux, des scènes de jeu vidéo ou même des environnements 3D.

Il est possible de décrire le contenu, le style ou même les mouvements de caméra dans le prompt. L’intelligence artificielle se charge de générer une vidéo correspondant à la requête, avec une impressionnante fidélité.

Elle peut également animer des images fixes, ou encore modifier une vidéo existante sur demande. Vous pouvez par exemple changer le décor, les personnages ou n’importe quel autre élément.

Le fonctionnement de Sora repose à la fois sur le modèle de diffusion du générateur d’images DALL-E 3 et sur le Transformer de ChatGPT.

Malheureusement, Sora n’est pas encore disponible pour le grand public. Avant de lancer cet outil, OpenAI veut le faire tester par des experts en sécurité pour anticiper toutes les dérives possibles et mettre en place des garde-fous…

Luma AI Dream Machine

La startup américaine Luma AI a lancé sa Dream Machine en juin 2024, permettant enfin à n’importe qui de créer des vidéos avec l’IA.

Vous pouvez non seulement générer des vidéos à partir de prompts, mais aussi uploader une image pour l’animer.

Ceci permet de donner vie aux images que vous avez créées avec des outils comme DALL-E ou MidJourney. Certains s’amusent aussi à laisser l’IA imaginer la suite de memes bien connus ou d’œuvres d’art célèbres…

Selon les testeurs beta, l’outil peut reproduire fidèlement des objets, des personnages, des actions ou des environnements spécifiques tout en maintenant un mouvement et une narration fluides et cohérents.

A terme, l’objectif de Luma est de créer un « moteur d’imagination universel » capable de « rêver » n’importe quel concept en vidéo. Ses cas d’usage pourraient être le storyboarding ou la création de personnages, de clips vidéo, voire même de films complets…

Pour tester dès à présent la Dream Machine, il vous suffit de vous rendre sur le site web officiel de Luma Labs. Inscrivez-vous avec votre compte Google, et commencez à créer vos vidéos ! Consultez notre tutoriel complet en suivant ce lien !

Runway Gen-3

Pionnier des IA de génération de vidéo, Runway a dévoilé son modèle Gen-3 en juin 2024. Cette nouvelle version apporte d’importantes améliorations en termes de fidélité, de cohérence et de mouvement.

Pour rappel, Runway Gen-2 était le tout premier modèle IA text-to-video disponible dans le commerce, avec un lancement en juin 2023.

Depuis lors, de nombreux concurrents ont fait leur apparition et Runway s’est fait dépassé. Avec Gen-3, la firme américaine compte bien faire son grand retour sur le devant de la scène.

Ce modèle se base sur une toute nouvelle infrastructure conçue pour l’entraînement multimodal à grande échelle, et a été entraîné simultanément sur des images et des vidéos pour un réalisme accru.

Il permet aux utilisateurs de mieux contrôler le mouvement dans les vidéos, et peut comprendre les lois de la physique. Alors que la Gen-2 permettait de créer des vidéos de 4 secondes, la durée maximale a été étendue à 10 secondes.

La version Alpha sera ouverte aux abonnés dans le courant juin 2024, puis ultérieurement pour les utilisateurs de la version gratuite. Par la suite, d’autres modèles encore plus puissants basés sur la même infrastructure seront lancés…

Introducing Gen-3 Alpha: Runway’s new base model for video generation.

Gen-3 Alpha can create highly detailed videos with complex scene changes, a wide range of cinematic choices, and detailed art directions.https://t.co/YQNE3eqoWf

(1/10) pic.twitter.com/VjEG2ocLZ8
— Runway (@runwayml) June 17, 2024

Kling

La startup chinoise Kuaishou Technology a dévoilé son générateur de vidéo Kling début juin 2024. Rapidement, cet outil a rencontré un succès viral sur les réseaux sociaux.

Les vidéos qu’il génère à partir de simples prompts sont très réalistes, et rivalisent même avec celles créées par OpenAI Sora.

Si Kling est très rapidement populaire, c’est aussi parce que Kuaishou est déjà connu en Chine pour son application de création de vidéos qui compte 400 millions d’utilisateurs quotidiens.

Cette appli se hisse en deuxième position du marché chinois, juste derrière Douyin (la version chinoise de TikTok) et ses 600 millions d’utilisateurs.

Encore en phase de test, Kling peut transformer des textes en clips vidéo d’une durée maximale de 2 minutes en définition 1080p.

Sora by OpenAI is insane.

But KWAI just dropped a Sora-like model called KLING, and people are going crazy over it.

Here are 10 wild examples you don't want to miss:

1. A Chinese man sits at a table and eats noodles with chopstickspic.twitter.com/MIV5IP3fyQ
— Angry Tom (@AngryTomtweets) June 6, 2024

Il peut prendre en charge plusieurs ratios d’aspect, interpréter les prompts pour créer des vidéos imitant le monde physique et faire preuve d’imagination, selon ses créateurs.

Sa technologie repose sur un encodeur automatique variationnel 3D (VAE) pour la reconstruction faciale et corporelle, permettant de représenter des expressions détaillées et des mouvements de membres à partir d’une seule photo de corps.

Par ailleurs, un mécanisme d’attention conjointe spatio-temporelle 3D permet au modèle de prendre en charge des scènes et des mouvements complexes et assure que le contenu généré adhère aux lois de la physique.

En Chine, il est d’ores et déjà possible d’utiliser Kling gratuitement via les applications Kuaishou, Kwai et KwaiCut. Malheureusement, un numéro de téléphone chinois est indispensable et vous ne pouvez donc pas le tester en France.

Vidu

Le paysage de l’intelligence artificielle voit l’émergence d’un nouvel acteur prometteur avec l’arrivée de Vidu, un générateur texte-vidéo développé par la société chinoise Shengshu. Présenté comme un outil hautement cohérent, dynamique et compétent, Vidu vise à révolutionner la création de contenu visuel à partir de simples textes.

Grâce à son modèle de diffusion basé sur U-ViT, il peut produire des vidéos en 1080p jusqu’à 16 secondes en une seule génération. Cette capacité à gérer des vidéos de longue durée avec efficacité en fait un outil précieux pour les créateurs de contenu et les professionnels de l’audiovisuel.

Ce qui distingue Vidu, c’est sa capacité à maintenir une cohérence narrative tout en offrant un dynamisme visuel captivant. Grâce à des algorithmes sophistiqués, il est capable de générer des scènes réalistes et imaginatives, rivalisant ainsi avec les meilleurs générateurs de vidéos disponibles sur le marché.

La polyvalence de Vidu se manifeste également dans sa compréhension des techniques de photographie professionnelle, lui permettant de créer des vidéos esthétiquement riches et engageantes. De plus, ses fonctionnalités avancées ouvrent la voie à des expériences de génération vidéo contrôlables, telles que la génération astucieuse en vidéo, la prédiction vidéo et la génération axée sur le sujet, avec des résultats prometteurs.

Pika

Créée en juin 2023, l’entreprise Pika AI a lancé son logiciel Pika 1.0 six mois plus tard. Son but ? Permettre à n’importe qui de créer des vidéos de qualité professionnelle sans le moindre effort pour donner vie à ses idées.

Il permet de créer des vidéos dans différents styles comme l’animation 3D, l’animation japonaise, les cartoons ou encore les séquences cinématiques. Par la suite, l’utilisateur peut éditer ou modifier ses vidéos de différentes façons.

Il est par exemple possible d’altérer les dimensions ou la longueur de la vidéo, et de modifier des éléments tels que les décors ou les personnes et leurs vêtements.

En parallèle, Pika propose aussi des fonctionnalités de conversion Text-to-Video, Image-to-Video, ou encore Video-to-Video. L’interface est très intuitive, afin d’être accessible au plus grand nombre.

Cet outil est disponible directement via le site web officiel, et rassemble déjà une communauté vibrante de plus de 500 000 utilisateurs produisant chaque semaine des millions de vidéos.

HeyGen

https://youtu.be/mK6AGaH7l4c

Avec la plateforme HeyGen, vous pouvez créer des vidéos d’entreprise en toute simplicité à l’aide de l’IA générative pour une large variété de cas d’usage.

Les utilisateurs peuvent convertir leur texte en vidéo professionnelle en quelques minutes, directement depuis un navigateur web.

Enregistrez votre voix pour créer un avatar personnalisé reprenant le discours dans la langue de votre choix, ou tapez le texte. Vous pouvez choisir parmi plus de 300 voix d’avatars !

De nombreuses options de personnalisations sont disponibles, et vous pourrez notamment combiner plusieurs scènes en une seule vidéo. Il est également possible d’ajouter de la musique.

Modelscope

"Will Smith eating spaghetti" generated by Modelscope text2video

credit: u/chaindrop from r/StableDiffusion pic.twitter.com/ER3hZC0lJN
— Magus Wazir (@MagusWazir) March 28, 2023

Développé par la communauté de développeurs de Hugging Face, ModelScope Text To Video Synthesis est un outil permettant de créer des vidéos à partir d’un input textuel grâce à un modèle de Deep Learning.

Cette application est conçue pour être facile d’usage, et ne requiert aucune connaissance ou expérience en Machine Learning. Elle est accessible directement depuis la plateforme Hugging Face Space, où les utilisateurs peuvent découvrir de nombreux outils, modèles, datasets et documents de ML.

Ce générateur utilise différents modèles et fichiers pour générer des vidéos de haute qualité. Il peut être particulièrement utile pour les individus ou entreprises cherchant à automatiser la création de vidéo pour le marketing ou la publicité.

Vous pouvez créer des vidéos de format court, du texte animé, ou différents autres types de contenus. Il s’agit toutefois d’une solution limitée, dont le principal point fort est l’intégration avec les autres applications Hugging Face Space !

New open source text to video AI model

576×320 model: https://t.co/fhN2cw2tOn
1024×576: https://t.co/OK7IutR1tF

zeroscope_v2_576w, A watermark-free Modelscope-based video model optimized for producing high-quality 16:9 compositions and a smooth video output. This model was… pic.twitter.com/2w6eYBtUUD
— AK (@_akhaliq) June 24, 2023

Stable Video Diffusion

Lancé en novembre 2023, Stable Video Diffusion est un générateur de vidéos créé par Stability AI a qui l’ont doit déjà le générateur d’images Stable Diffusion.

Il permet de transformer n’importe quelle image en courte vidéo. Plutôt qu’un véritable outil, ce projet expérimental repose sur deux modèles IA utilisant une technique appelée image-to-video.

Le premier modèle dénommé SVP produit une synthèse image-to-video d’une longueur de 14 images, et le second SVD-XT génère 25 images.

Ils peuvent fonctionner à une vitesse variée allant de 3 à 30 images par seconde, et produisent des vidéos de 2 à 4 secondes au format MP4 d’une définition de 576×1024.

Today, we are releasing Stable Video Diffusion, our first foundation model for generative AI video based on the image model, @StableDiffusion. As part of this research preview, the code, weights, and research paper are now available.

Additionally, today you can sign up for our… pic.twitter.com/0MbV5DDPt2
— Stability AI (@StabilityAI) November 21, 2023

Les animations générées gardent une partie de l’image statique, et ajoutent des effets de panning,de zoom ou de mouvement.

Vous pouvez l’exécuter localement sur un ordinateur doté d’un GPU Nvidia. Comptez environ 30 minutes pour générer une vidéo de 14 images avec une carte RTX 3060.

Les services cloud comme Hugging Face ou Replicate permettent toutefois d’aller beaucoup plus rapidement. Stability insiste sur le fait qu’il s’agit d’un modèle de recherche qui n’en est encore qu’à ses débuts.

On ne sait pas exactement sur quelles vidéos l’IA a été entraînée, mais le document officiel précise que plus de 600 millions d’échantillons ont été agrégés sur le Large Video Dataset (LVD) constitué de 580 millions de clips annotés pour une durée totale de 212 ans.

Today, we are adding Stable Video Diffusion, our foundation model for generative video to the Stability AI Developer Platform API.

The model can generate 2 seconds of video, comprising of 25 generated frames and 24 frames of FILM interpolation, within an average time of 41… pic.twitter.com/CSUh3BoZ1a
— Stability AI (@StabilityAI) December 20, 2023

Leonardo AI Motion

En janvier 2024, le générateur d’images Leonardo AI s’est enrichi d’un nouvel outil de génération de vidéo basé sur Stable Video Diffusion.

Cet outil dénommé Motion permet de transformer une image générée en petit clip vidéo. Et les résultats sont impressionnants.

Les vidéos durent entre trois et quatre secondes. En revanche, il n’est pas encore possible d’étendre leur durée comme avec Pika et Runway.

Utiliser Motion est très simple. Il suffit de cliquer sur un bouton, comme pour remixer ou upscaler les images.

https://twitter.com/LeonardoAi_/status/1740419168183398881

Une option permet de contrôler la quantité de mouvement, mais c’est le seul contrôle proposé pour le moment. Toutefois, l’interprétation de l’image et la qualité de l’animation sont bluffantes.

Le modèle Stable Video Diffusion est ici combiné à la fonctionnalité Realtime Gen basée sur SDXL Turbo pour générer en même temps que vous tapez le prompt, afin de tester des idées sans avoir besoin d’attendre l’image complète.

Il est possible de rendre une vidéo privée ou de la rendre disponible sur un flux public pour que les autres utilisateurs puissent la trouver. Les vidéos sont au format MP4, et chaque génération coûte 25 crédits.

En décembre, la startup Leonardo avait levé 31 millions de dollars pour développer ses services. C’est ce qui lui a permis de s’aventurer dans le domaine de la génération de vidéos !

WALT

https://twitter.com/rschu/status/1734972484967858611?

Développé par des chercheurs de l’Université de Stanford, WALT est un modèle IA capable de créer une vidéo photoréaliste à partir d’un prompt textuel ou d’une image.

Par rapport aux autres outils existants, l’une des prouesses de l’équipe est d’être parvenue à créer du mouvement 3D fluide et cohérent sur un objet.

Pour atteindre ce niveau de qualité, l’IA a été entraînée à la fois à partir de photos et de vidéos. Ceci a permis de donner au modèle une compréhension approfondie du mouvement dès le départ.

La qualité d’image est nettement inférieure à celle d’outils comme Runway ou Pika, mais il s’agit seulement d’un modèle de recherche.

Le modèle produit d’abord des clips 128×128, qui sont ensuite upsamplés pour atteindre une définition de 512×896 à 8 images par seconde. À titre comparatif, la version payante de Runway Gen-2 peut créer des clips jusqu’à 1536×896.

L’objectif de ces chercheurs est de créer un framework unifié de génération de vidéo et d’images afin de refermer le fossé qui sépare ces deux technologies en termes de progrès effectués.

En guise de démonstration, Stanford a partagé des clips de dragons crachant du feu, d’astéroïdes frappant la Terre et de chevaux courant sur une plage.

Google VideoPoet

Développé par Google, VideoPoet est un outil de génération de vidéo basé sur MAGVIT 2 : un puissant encodeur transformant les prompts en vidéos.

Son architecture de transformer « decoder-only » offre des capacités zero-shot et permet de créer du contenu pour lequel il n’a pas été entraîné spécifiquement.

Il permet donc de créer des vidéos de durée variable, avec beaucoup de mouvement fluide et captivant. Les contenus présentent une haute cohérence.

Son modèle de langage autorégressif entraîné sur de la vidéo, du texte, de l’image et de l’audio peut s’adapter à toutes les tâches de génération de contenu.

Il suit un processus d’entraînement en deux étapes, à la manière des autres LLM : un pré-entraînement, et une adaptation à des tâches spécifiques. C’est ce qui le rend adaptable et efficace.

En tant qu’IA multimodale, VideoPoet accepte divers inputs tels que texte, des images, des vidéos ou de l’audio. Il est possible d’utiliser tous ces types de contenus en guise de prompt, et de générer un nouveau contenu. C’est donc un générateur « any-to-any ».

On retrouve également des fonctionnalités de stylisation, d’inpainting ou d’outpainting. Les possibilités de personnalisation sont nombreuses, avec notamment l’option de contrôler le mouvement de la caméra.

Malheureusement, à l’heure actuelle, il n’est pas encore possible pour le grand public d’utiliser Google VideoPoet. Vous pouvez le découvrir sur le site de démonstration en suivant ce lien, ou vous plonger dans le document publié par les chercheurs !

Google just launched VideoPoet!

And what it can do is impressive:

– Inpainting
– Video Editing
– Text-to-Video
– Image-to-Video

Here are 10 awesome examples: pic.twitter.com/nzDOnkfUV4
— There's An AI For That (@theresanaiforit) January 25, 2024

Meta Make-a-Video

Dévoilé en septembre 2022 par Meta, Make-A-Video est un générateur de vidéo propulsé par l’IA. Il permet de créer du contenu vidéo à partir de prompts textuels ou d’images.

Cet outil peut aussi produire des variantes de vidéos existantes. Toutefois, il n’est pas encore disponible pour le grand public.

Plusieurs démonstrations ont été publiées par la firme en guise d’exemples. On peut notamment découvrir un jeune couple marchant sous la pluie, et un ours en peluche peignant un portrait.

La page de présentation met aussi en lumière la capacité de Make-A-Video à animer une image source statique. Par exemple, une tortue de mer sur une photo semble nage après avoir été traitée par l’IA.

La technologie derrière Make-A-Video est basée sur les outils existants dans le domaine du text-to-image tels que DALL-E. En juillet 2022, Meta avait annoncé son propre générateur d’images dénommé Make-A-Scene.

Au lieu d’entraîner son modèle sur des données de vidéo étiquetées, avec des légendes décrivant les actions présentées, la firme a pris les données de synthèse d’image et a appliqué des données d’entraînement vidéo pour que le modèle comprenne où un prompt de texte ou d’image peut exister dans le temps et l’espace.

Ainsi, l’IA peut maintenant prédire ce qui survient après l’image et afficher la scène en mouvement pendant une courte période. Les couches spatiales ont donc été étendues pour inclure les informations temporelles.

De nouveaux modules d’attention ont appris les dynamiques du monde temporel à partir d’une collection de vidéos. C’est ce qui a permis de créer cet outil dès 2022.

Le chercheur Simon Willison a néanmoins découvert que le dataset utilisé pour entraîner l’IA contient 10 millions de vidéos récupérés sur Shutterstock sans permission. De son côté, Andy Baio a remarqué 3,3 millions de vidéos additionnels provenant de YouTube…

Toutefois, pour l’heure, Meta n’a pas encore annoncé quand cette IA serait disponible pour le public ou qui y aurait accès. Un formulaire est disponible pour s’inscrire à la liste d’attente.

Cependant, la firme de Mark Zuckerberg anticipe déjà les risques liés à un tel logiciel. Sur la page officielle, elle explique qu’une watermark va permettre de s’assurer que les spectateurs sachent que la vidéo est générée par IA…

Le futur : ChatGPT et MidJourney pourront bientôt créer des vidéos

Après la génération d’images, MidJourney a annoncé le lancement prochain d’un générateur de vidéos. Selon le CEO David Holz, l’entraînement de ce nouveau modèle a commencé en janvier 2024.

L’outil sera lancé dans quelques mois, et pourrait bien s’imposer comme la nouvelle référence du marché s’il est aussi performant que pour les images.

En parallèle, lors d’une interview avec Bill Gates, le CEO d’OpenAI, Sam Altman, a lui aussi annoncé que le futur GPT-5 serait capable de générer des vidéos.

Cela confirme que la création de vidéos est la prochaine étape de l’IA générative, et que les meilleurs outils restent à venir avec l’irruption des plus grands géants de l’industrie sur ce secteur !

Cet article Générateurs de vidéos : les meilleures IA pour créer une vidéo avec un prompt a été publié sur LEBIGDATA.FR.

Intelligence artificielle
Distil-Whisper – Pour faire de la reconnaissance vocale rapide
Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français. Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, D

Distil-Whisper – Pour faire de la reconnaissance vocale rapide

Intelligence artificielle

Par : Korben

7 décembre 2023 à 09:00

Vous vous souvenez de Whisper dont je vais déjà parlé à maintes reprises ? C’est un outil qui utilise l’IA pour faire de la reconnaissance vocale, c’est à dire convertir des paroles audio en texte. Et ça marche avec de nombreuses langues, dont le français.

Et bien vous allez pouvoir faire tout pareil mais encore plus vite grâce à Distil-Whisper, une version allégée de Whisper qui est 6 fois plus rapide et qui utilise un modèle IA 49% plus petit que son grand frère. Pour couronner le tout, Distil-Whisper n’a qu’un taux d’erreur de 1%, ce qui est plutôt impressionnant.

Cela est possible grâce à son algorithme fractionné, qui permet de transcrire des fichiers audio longs 9 fois plus rapidement que l’algorithme séquentiel d’OpenAI. N’ayons pas peur des mots, c’est une véritable révolution pour ceux qui ont besoin de traiter de grands volumes de données audio.

Voici l’architecture du modèle Distil-Whisper :

Actuellement, Distil-Whisper est disponible uniquement pour la reconnaissance vocale en anglais, mais avec l’évolution rapide de ce domaine, on peut s’attendre à ce que d’autres langues soient prises en charge bientôt.

Distil-Whisper est donc conçu pour remplacer Whisper en matière de reconnaissance vocale en anglais, avec cinq avantages clés : une inférence plus rapide, une meilleure robustesse au bruit, une réduction des hallucinations, une utilisation en décodage spéculatif et une licence permissive pour les applications commerciales. Ce bijou de technologie a été entraîné sur 22 000 heures de données audio pseudo-étiquetées dans 10 domaines différents et en provenance de plus de 18 000 intervenants.

Toute la doc et les exemples d’utilisation son ici.

Le futur de la reconnaissance vocale semble prometteur !

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama
Comment tester facilement des modèles d’IA sans compétence technique
Tester des modèles d'intelligence artificielle sans aucun bagage technique ? C'est possible, grâce au site Hugging Face. En fouillant un peu, on trouve facilement des démos plus ou moins convaincantes. Certaines sont remarquables. On a même généré sans difficulté une BD qui se tient.

Comment tester facilement des modèles d’IA sans compétence technique

Intelligence artificielle : les articles et enquêtes de la rédaction de Numerama

Par : Julien Lausson

14 janvier 2024 à 14:01

Tester des modèles d'intelligence artificielle sans aucun bagage technique ? C'est possible, grâce au site Hugging Face. En fouillant un peu, on trouve facilement des démos plus ou moins convaincantes. Certaines sont remarquables. On a même généré sans difficulté une BD qui se tient.

Vue normale

Oui, Intel propose une IA qui évalue la politesse dans vos messages

C’est une technologie libre et ouverte à tous

Hugging Face Pi0 : un robot qui comprend le langage humain

C’est une technologie rapide, précise et adaptable

Hugging Face et son clone open source de Deep Research

Comment ont-ils réussi cet exploit ?

DeepSeek se lance dans l’IA d’images avec Janus Pro

Des débuts prometteurs… mais quelques soucis

Alors, pourquoi Microsoft Phi-4 fait sensation ?

Comment accéder à Phi-4 sur Hugging Face ?

Comment cette IA mini-format pourrait bousculer les Goliath de l’IA ?

Phi 4 pour des usages professionnels

Une version améliorée de Meta Llama 3.1 à la pointe de la tech

Une nouvelle solution attractive pour les entreprises

Nvidia, nouveau leader de l’industrie des LLM ?

Un LLM peut mémoriser pratiquement 2000 poèmes

Comme chez l’humain, la mémoire de l’IA se réveille au besoin

Une piste très intéressante pour l’industrie de l’IA

Llama 3.2, la première IA multimodale de Meta

Un rival de taille de Claude et de GPT-4o ?

Pixtral 12B, une IA capable de répondre à vos questions sur des images

Mistral entre dans l’arène du multimodal

Comment utiliser Pixtral 12B ?

Flux.1, une technologie révolutionnaire

Comment utiliser Flux AI ?

Flux.1 Vs Midjourney : quel est le meilleur ?

Flux Vs Midjourney : le résultat des tests de génération d'images

Image d'un chef

Image d'un jardin

Image d'un astronaute

Flux.1 Vs Midjourney : le coût

Quelle différence de caractéristiques il y a-t-il entre ces deux générateurs d'images ?

Et les informations d'identification du contenu ?

FLUX.1 : le nouveau champion des générateurs d’images open-source

Black Forest Labs, la startup qui veut rendre l’IA accessible à tous

10 exemples époustouflants d’images créées par FLUX

Comment tester FLUX.1 gratuitement dès maintenant ?

8 angles de vue pour une seule et même image

Quels sont les atouts de Stable Video 4D ?

En quoi Koala AI se distingue-t-il des autres générateurs d'images plus grands ?

Un test particulièrement satisfaisant

Koala permet aux utilisateurs de générer une image gratuitement et rapidement

Les détails de l'incident

Enquête en cours

Mistral Codestral : plus performant que Llama 3 70B ?

La nouvelle référence sur Python ?

Comment utiliser Codestral ?

Un projet qui entre dans la vision de Hugging Face

Le programme ZeroGPU à la rescousse des petits dévs IA

Un modèle ouvert pour démocratiser l'IA

Flexibilité et intégration facile : les atouts d'Arctic AI

Un investissement pour être plus efficace et transparent

Que vaut Llama 3 face à Claude 3, GPT-4 et Gemini ?

Un dataset d'entraînement 7 fois plus large que Llama 2 !

Une IA moins toxique et raciste que ses concurrentes ?

Bientôt une version encore plus puissante !

Comment utiliser Llama 3 en France dès aujourd'hui ?

L'IA est raciste, et personne ne l'avait remarqué

Un mépris total envers le dialecte afro-américain

Un risque de discrimination à l'embauche

ChatGPT a la peine de mort facile pour les afro-américains

Comment empêcher l'IA de devenir raciste ?

Un raciste plus subtil à mesure que l'IA progresse

Démonstration du savoir-faire de Stability AI

Le principal atout de Stable Video 3D

Deux versions disponibles de SV3D

OpenAI Sora

Luma AI Dream Machine

Runway Gen-3

Kling

Vidu

Pika

Modelscope

Stable Video Diffusion

Leonardo AI Motion

WALT

Google VideoPoet

Meta Make-a-Video

Le futur : ChatGPT et MidJourney pourront bientôt créer des vidéos