Vue normale
-
Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
- Le bilan de l'IA en 2024
-
Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
-
Dans le cadre de Médiathèques en débat : Art-ificiel : l’IA générative et l’image
vaste débat avec Clémence Dupont, illustratrice, Bartosch, photographe et Rémi Rostan, fondateur du magazine Les Heures Claires, qui se revendique « à 99% assisté par l’IA ». Ces artistes nous montrerons comment ils/elles se servent de l’IA dans leur travail. https://clemencedupont.com/ https://pokaa.fr/2017/12/14/rencontre-avec-bartosch-salmanski-lincontournable-photographe-strasbourgeois/ https://mediarama.io/les-coulisses-dun-magazine-genere-entierement-grace-aux-ia/ https://www.radiofranc
Dans le cadre de Médiathèques en débat : Art-ificiel : l’IA générative et l’image
https://clemencedupont.com/
https://pokaa.fr/2017/12/14/rencontre-avec-bartosch-salmanski-lincontournable-photographe-strasbourgeois/
https://mediarama.io/les-coulisses-dun-magazine-genere-entierement-grace-aux-ia/
https://www.radiofrance.fr/franceinter/contenu-insipide-malaisant-et-course-aux-clics-ces-magazines-dont-le-contenu-est-genere-par-l-ia-9704155
https://linktr.ee/studiolhc
https://studiolhc.art/
(Permalink)
-
Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
- L'IA COMME VOUS NE L'AVEZ JAMAIS VUE - Une conférence de Flavien Chervet
-
ActuIA

-
Droit d’auteur vs. GenAI : une première victoire pour les artistes contre Stability AI, Midjourney et DeviantArt
Le 12 août dernier, le juge fédéral Orrick a rendu une ordonnance autorisant la poursuite de l’affaire concernant la violation du droit d’auteur déposée contre Stability AI, Midjourney et DeviantART par les artistes Sarah Andersen, Kelly McKernan et Karla Ortiz. Une première victoire pour celles-ci et leurs avocats, Matthew Butterick et Joseph Saveri, d’autant plus que le juge William Orrick avait rejeté la plupart de leurs demandes en octobre 2023. Depuis que les modèles text-to-image comme St
Droit d’auteur vs. GenAI : une première victoire pour les artistes contre Stability AI, Midjourney et DeviantArt
Le 12 août dernier, le juge fédéral Orrick a rendu une ordonnance autorisant la poursuite de l’affaire concernant la violation du droit d’auteur déposée contre Stability AI, Midjourney et DeviantART par les artistes Sarah Andersen, Kelly McKernan et Karla Ortiz. Une première victoire pour celles-ci et leurs avocats, Matthew Butterick et Joseph Saveri, d’autant plus que le juge William Orrick avait rejeté la plupart de leurs demandes en octobre 2023.
Depuis que les modèles text-to-image comme Stable Diffusion, Dall-E, Imagen ou Midjourney ont fait leur apparition, de nombreux artistes s’insurgent contre leur utilisation. Certains contestent le processus créatif de l’auteur d’une œuvre générée par IA, comme celle de Midjourney primée à la Colorado State Fair, ou le fait qu’on entraîne ces modèles sur des œuvres sans demander le consentement à leurs auteurs ni contrepartie financière.
Basée à Londres et San Francisco, Stability AI a connu la notoriété en annonçant en août 2022 la sortie publique de Stable Diffusion, un modèle text-to-image open-source fruit d’une collaboration entre Stability AI, RunwayML, des groupes de recherche du centre Machine Vision & Learning au LMU de Munich (anciennement laboratoire CompVis à l’Université de Heidelberg), d’EleutherAI et de LAION.
En janvier 2023, la célèbre banque d’images et agence de photographie américaine, Getty Images, lui a intenté un procès devant la Haute Cour de justice de Londres, affirmant que la start-up avait enfreint les droits de propriété intellectuelle, y compris les droits d’auteur sur le contenu qu’elle détient ou représente. Le même mois, Matthew Butterick et Joseph Saveri déposaient la plainte initiale Andersen v. Stability au nom des trois artistes Sarah Andersen, Kelly McKernan et Karla Ortiz.
Celle-ci conteste la légalité des IA génératives d’images créées par Stability AI, Midjourney et DeviantArt (DreamUp, qui utilise le modèle Stable Diffusion). Toutes trois ont été entraînées sur de vastes ensembles de données d’images et de textes provenant de diverses sources sur Internet, notamment des bases de données LAION-5B et LAION-400M
Lorsqu’il a rejeté la plupart de leurs demandes en octobre 2023, le juge Orrick a laissé aux plaignantes le droit de modifier leur plainte pour la représenter, ce qui a été fait le mois suivant. Dans son ordonnance du 12 août dernier, il a autorisé les réclamations pour violation du droit d’auteur et de la marque. Stability AI, Midjourney et DeviantArt vont donc devoir fournir des informations sur les données d’entraînement de leurs modèles text-to-image, préciser si des œuvres protégées par le droit d’auteur en font partie et dans quelle mesure.
Matthew Butterick souligne dans son blog intitulé “La fin du début”:
“Non, cela ne veut pas dire que nous gagnons. Au contraire, cela signifie seulement que nous pouvons commencer : nous pouvons commencer la découverte et mettre l’affaire sur la voie du procès. Mais il s’agit d’un pas en avant important pour l’affaire, qui avait été suspendue pendant plus de 18 mois”.

-
ActuIA

-
Black Forest Labs, nouvel acteur européen de l’IA générative, lance FLUX-1, une famille de modèles text-to-image
Un nouvel acteur de l’IA générative européen vient de faire son apparition : Black Forest Labs. Le 1er août dernier, la start-up annonçait non seulement son lancement officiel et la clôture d’une ronde de financement de démarrage de 31 millions de dollars, mais également FLUX-1, une famille de modèles d’IA text-to-image. Basée à Fribourg-en-Brisgau, en Allemagne, au pied des montagnes de la Forêt-Noire, la start-up a été cofondée par Robin Rombach, Patrick Esser, Andreas Blattmann, Axel Sauer,
Black Forest Labs, nouvel acteur européen de l’IA générative, lance FLUX-1, une famille de modèles text-to-image
Un nouvel acteur de l’IA générative européen vient de faire son apparition : Black Forest Labs. Le 1er août dernier, la start-up annonçait non seulement son lancement officiel et la clôture d’une ronde de financement de démarrage de 31 millions de dollars, mais également FLUX-1, une famille de modèles d’IA text-to-image.
Basée à Fribourg-en-Brisgau, en Allemagne, au pied des montagnes de la Forêt-Noire, la start-up a été cofondée par Robin Rombach, Patrick Esser, Andreas Blattmann, Axel Sauer, Frederic Boesel et Tim Dockhorn. Composée de chercheurs et d’ingénieurs ayant développé des modèles d’IA pionniers comme VQGAN, Latent Diffusion, Stable Diffusion, SDXL, son équipe se concentre sur l’accessibilité et la transparence pour favoriser l’innovation.
Black Forest Labs (BFL) déclare sur son site web :
“Notre mission est de développer et de faire progresser des modèles d’apprentissage profond génératif de pointe pour les médias tels que les images et les vidéos, et de repousser les limites de la créativité, de l’efficacité et de la diversité. Nous pensons que l’IA générative sera un élément fondamental de toutes les technologies futures. En rendant nos modèles accessibles à un large public, nous voulons en faire profiter tout le monde, éduquer le public et renforcer la confiance dans la sécurité de ces modèles”.
Une levée de fonds de 31 millions de dollars
Cette levée témoigne de la confiance de l’industrie dans le potentiel de la start-up à transformer le paysage de l’IA générative. Menée par le fonds de capital-risque Andreessen Horowitz, elle a attiré des contributeurs notables comme Brendan Iribe, Michael Ovitz, Garry Tan, Timo Aila et Vladlen Koltun, des figures reconnues dans le domaine de l’IA et de la création d’entreprises technologiques. Des fonds supplémentaires ont été apportés par General Catalyst et MätchVC, deux sociétés d’investissement qui ont décidé de soutenir la mission de Black Forest Labs de développer et de diffuser des technologies d’IA avancées issues de l’Europe à l’échelle mondiale.
Le conseil consultatif de la start-up comprend Michael Ovitz, qui apporte une vaste expérience dans le secteur de la création de contenu, et le professeur Matthias Bethge, un pionnier du transfert de style neuronal et expert de premier plan dans la recherche européenne ouverte sur l’IA.
FLUX.1 : repousser les frontières de la synthèse texte-image
FLUX.1 est proposé en trois variantes, chacune adaptée à des besoins spécifiques :
- FLUX.1 [pro] : la version la plus performante, conçue pour offrir des images de qualité supérieure avec un suivi d’invite précis, une diversité de style et une complexité de scène inégalée. Cette version, accessible via l’API de BFL, est idéale pour les entreprises ou les utilisateurs recherchant la meilleure qualité disponible ;
- FLUX.1 [dev] : Ce modèle est destiné aux applications non commerciales. Il s’agit d’une version distillée de FLUX.1 [pro], offrant une qualité d’image similaire tout en étant plus efficace en termes de ressources. Les utilisateurs peuvent accéder à ses poids ouverts sur HuggingFace pour l’explorer et l’intégrer dans des projets ;
- FLUX.1 [schnell] : Adapté à un usage personnel et au développement local, ce modèle est le plus rapide de la gamme. Il est disponible gratuitement sous une licence Apache2.0, permettant aux développeurs de l’utiliser pour des projets individuels ou expérimentaux.
Les trois versions sont accessibles via Replicate et fal.ai.
Architecture et performance
Les modèles FLUX.1 reposent sur une architecture hybride avancée combinant des transformateurs de diffusion multimodaux. Comptant 12 milliards de paramètres, ils intègrent des techniques de pointe comme l’appariement de flux (flow matching), les plongements positionnels rotatifs et les couches d’attention parallèles pour améliorer les performances et l’efficacité matérielle. Ces innovations permettent à FLUX.1 de surpasser les modèles concurrents dans diverses catégories, y compris la qualité visuelle, la diversité de sortie, et la complexité des scènes générées.
![]()
Crédit : BFL
Selon la start-up, FLUX.1 [pro] et [dev] surpassent les modèles populaires comme Midjourney v6.0, DALL· E 3 (HD) et SD3-Ultra dans chacun des aspects suivants : qualité visuelle, suivi des invites, variabilité de la taille et de l’aspect, typographie et diversité de sortie. FLUX.1 [schnell] serait le modèle en quelques étapes le plus avancé à ce jour, surpassant non seulement les concurrents de sa catégorie, mais aussi de puissants modèles non distillés comme Midjourney v6.0 et DALL· E 3 (HD).
Les 3 variantes du modèle FLUX.1 prennent en charge une large gamme de rapports d’aspect et de résolutions allant de 0,1 à 2 mégapixels.
Perspectives de BFL : les modèles text-to-video
Black Forest Labs ne compte pas s’arrêter à la génération d’images. En s’appuyant sur les capacités robustes de FLUX.1, l’entreprise travaille au développement d’une suite de modèles génératifs texte-vidéo. La start-up conclut ses annonces par :
“Nos modèles vidéo débloqueront une création et un montage précis en haute définition et à une vitesse sans précédent. Nous nous engageons à continuer à innover dans l’avenir des médias génératifs”.

-
ActuIA

-
RunwayML présente Gen-3 Alpha, son dernier modèle de fondation pour la génération de vidéos
RunwayML, pionnier dans les outils de création multimédia alimentés par l’IA, a récemment annoncé la prochaine sortie de Gen-3 Alpha. Ce modèle de fondation, offrant des améliorations majeures en termes de fidélité, de cohérence et de mouvement par rapport à son prédécesseur, Gen-2, est présenté par la start-up comme le premier d’une série de modèles entraînés sur une nouvelle infrastructure conçue pour l’entraînement multimodal à grande échelle. Gen-3 Alpha, dont le prédécesseur a été lancé en
RunwayML présente Gen-3 Alpha, son dernier modèle de fondation pour la génération de vidéos
RunwayML, pionnier dans les outils de création multimédia alimentés par l’IA, a récemment annoncé la prochaine sortie de Gen-3 Alpha. Ce modèle de fondation, offrant des améliorations majeures en termes de fidélité, de cohérence et de mouvement par rapport à son prédécesseur, Gen-2, est présenté par la start-up comme le premier d’une série de modèles entraînés sur une nouvelle infrastructure conçue pour l’entraînement multimodal à grande échelle.
Gen-3 Alpha, dont le prédécesseur a été lancé en juin 2023, a été entraîné conjointement sur des vidéos et des images. Il alimentera, selon Runway, ses outils Text-to-Video, Image-to-Video et Text-to-Image, les modes de contrôle existants tels que Motion Brush, les commandes avancées de la caméra, le mode réalisateur ainsi que les outils à venir pour un contrôle plus précis de la structure, du style et du mouvement.
Une étape vers la construction de modèles généraux du monde
Gen-3 Alpha est, selon la start-up, une avancée vers ce qu’elle appelle un “General World Model”, un système d’IA qui construit une représentation interne d’un environnement et l’utilise pour simuler des événements futurs dans cet environnement. Un tel modèle sera capable de représenter et de simuler un large éventail de situations et d’interactions, comme celles rencontrées dans le monde réel.
Il devra non seulement capturer la dynamique du monde, mais aussi la dynamique de ses habitants, ce qui implique également de construire des modèles réalistes du comportement humain.
L’entraînement de Gen-3 Alpha est le fruit d’une collaboration entre une équipe interdisciplinaire de chercheurs, d’ingénieurs et d’artistes.
Gen-3 Alpha permet la génération de vidéos de 5 à 10 secondes basées sur des invites créatives complexes, comme celles-ci :
- Reflets subtils d’une femme sur la fenêtre d’un train roulant à grande vitesse dans une ville japonaise ;
- Travelling à l’épaule la nuit, suivant un ballon bleu sale flottant au-dessus du sol dans une vieille rue européenne abandonnée.
Il a été entraîné avec des légendes très descriptives et temporellement denses, ce qui lui permet de passer d’une scène à une autre de manière créative et fluide, tout en maintenant une narration cohérente par rapport à l’invite. Le modèle est également très bon dans la génération de personnages humains photoréalistes, expressifs et dotés d’un large éventail d’actions, de gestes et d’émotions, offrant ainsi des opportunités pour la narration immersive.
Sécurité et intégrité du contenu généré renforcées
Runway a intégré des mesures de protection robustes dans Gen-3 Alpha. La start-up a amélioré son système de modération visuelle interne pour surveiller et filtrer le contenu généré, afin de s’assurer qu’il respecte les normes éthiques et ne contienne pas de matériel inapproprié ou offensant. Elle a également adopté les normes C2PA (Coalition for Content Provenance and Authenticity) qui attestent de l’origine et de l’authenticité d’un contenu.
Des modèles Gen-3 personnalisés
Runway dit avoir établi des partenariats avec des organisations de divertissement et de médias de premier plan pour créer des versions personnalisées de Gen-3 Alpha, qui permettent d’obtenir des personnages plus cohérents et plus contrôlés sur le plan stylistique, et ciblent des exigences artistiques et narratives spécifiques, entre autres fonctionnalités.
La start-up n’a toutefois pas précisé la date de sortie du modèle.

-
ActuIA

-
Stability AI annonce le lancement de Stable Diffusion 3 Medium, un modèle Text-to-Image open source léger mais très performant
En février dernier, Stability AI annonçait ses deux derniers modèles text-to-image : Stable Cascade et Stable Diffusion 3 ainsi que l’ouverture de la liste d’attente pour une prévisualisation anticipée de cette dernière itération de son modèle phare. La start-up a récemment publié Stable Diffusion 3 (SD3) Medium, un modèle open source de 2 milliards de paramètres qu’elle présente comme son modèle de génération d’images le plus sophistiqué à ce jour. La famille SD3 comprend des modèles allant de
Stability AI annonce le lancement de Stable Diffusion 3 Medium, un modèle Text-to-Image open source léger mais très performant
En février dernier, Stability AI annonçait ses deux derniers modèles text-to-image : Stable Cascade et Stable Diffusion 3 ainsi que l’ouverture de la liste d’attente pour une prévisualisation anticipée de cette dernière itération de son modèle phare. La start-up a récemment publié Stable Diffusion 3 (SD3) Medium, un modèle open source de 2 milliards de paramètres qu’elle présente comme son modèle de génération d’images le plus sophistiqué à ce jour.
La famille SD3 comprend des modèles allant de 800 millions à 8 milliards de paramètres, offrant aux utilisateurs un éventail d’options adaptées à leurs besoins créatifs spécifiques.
Les modèles de petite taille comme SD3 Medium offrent une combinaison équilibrée de performance, accessibilité et efficacité. Ils sont plus faciles à recycler et à affiner pour des cas d’utilisation spécifiques et accessibles à un plus large éventail d’utilisateurs, puisque compatibles avec le matériel grand public.
SD3 Medium
Selon Stability AI, “la petite taille de SD3 medium le rend parfait pour fonctionner sur des PC et des ordinateurs portables grand public ainsi que sur des GPU de niveau entreprise”.
Le minimum requis pour exécuter Stable Diffusion Medium n’est en effet que de 5 Go de VRAM (mémoire vidéo). Stability AI recommande néanmoins 16 Go de VRAM pour une utilisation vraiment confortable et optimale.
SD3 est un modèle de diffusion latente qui se compose de trois encodeurs de texte différents (CLIP L/14, OpenCLIP bigG/14 et T5-v1.1-XXL), d’un nouveau modèle de transformateur de diffusion multimodale (MMDiT) et d’un modèle d’auto-encodeur (VAE ou Variational Autoencoder) à 16 canaux similaire à celui utilisé pour Stable Diffusion XL
Les performances du modèle
Selon Stability AI, SD3 Medium se distingue par son photoréalisme, le respect des prompts, sa capacité à générer des textes et les possibilités de fine-tuning.
Il présente plusieurs améliorations significatives :
- Qualité Globale et Photoréalisme : Stable Diffusion 3 Medium produit des images d’une qualité exceptionnelle, avec des détails précis, des couleurs vives et un éclairage réaliste. Grâce à l’intégration d’un VAE à 16 canaux, il parvient à surmonter les défis typiques des modèles IA, notamment le réalisme des mains et des visages ;
- Compréhension Rapide : SD3 Medium peut traiter des invites longues et complexes, il excellerait dans la gestion du raisonnement spatial, des éléments de composition, des actions et des styles. Les utilisateurs peuvent optimiser les performances et l’efficacité grâce aux trois encodeurs de texte intégrés ;
- Typographie : l’architecture Diffusion Transformer permet d’atteindre une qualité de texte inégalée, réduisant les erreurs d’orthographe, de crénage, de formation des lettres et d’espacement.
- Économe en Ressources : Stable Diffusion 3 Medium fonctionne parfaitement sur des GPU grand public standards, sans dégradation des performances, grâce à son faible encombrement VRAM ;
- Réglage Fin : Ce modèle est conçu pour absorber des détails nuancés à partir de petits ensembles de données, le rendant idéal pour la personnalisation et les applications spécifiques ;
Voici quelques images générées par le modèle et leurs prompts partagées par Stability AI :
![]()
Collaboration avec NVIDIA et AMD
Stability AI a collaboré avec NVIDIA pour optimiser les performances de ses modèles, y compris Stable Diffusion 3 Medium, en utilisant les GPU NVIDIA® RTX™ et TensorRT™. Les versions optimisées pour TensorRT offrent une augmentation de 50 % des performances, garantissant une efficacité inégalée.
De plus, AMD a optimisé l’inférence pour Stable Diffusion 3 Medium sur divers appareils, y compris les derniers APU d’AMD, les GPU grand public et les GPU MI-300X Enterprise, assurant une compatibilité et des performances de pointe sur une large gamme de matériels.
Accessibilité et Licences
Stable Diffusion 3 Medium est un modèle open source publié sous la licence Stability Non-Commercial Research Community, réaffirmant l’engagement de Stability AI envers une IA générative ouverte. Pour un usage commercial, les artistes, designers et développeurs peuvent se tourner vers une nouvelle licence de créateur pour 20$ par mois. Quant aux entreprises souhaitant une utilisation commerciale à grande échelle, Stability AI propose des licences adaptées et invite à les contacter pour plus de détails.
Essayer Stable Diffusion 3
Stable Diffusion 3 Medium est désormais disponible via l’API alimentée par Fireworks AI. Les utilisateurs peuvent également essayer d’autres versions de la série Stable Diffusion 3, telles que le modèle SD3 Large et SD3 Ultra, grâce à un essai gratuit de trois jours sur le chatbot Stable Assistant et sur Discord via Stable Artisan.

-
ActuIA

-
Stable Cascade et Stable Diffusion 3, les deux derniers modèles text-to-image de Stability AI
Stability AI a présenté récemment deux modèles text-to-image : Stable Cascade disponible en prévisualisation de recherche sous une licence non commerciale et la nouvelle génération de son modèle phare Stable Diffusion 3.0. Si le premier est basé sur l’architecture Würstchen pour améliorer les performances et la précision, la dernière itération de Stable Diffusion utilise une nouvelle architecture combinant transformateur de diffusion et appariement de flux. Stable Cascade est un modèle très effi
Stable Cascade et Stable Diffusion 3, les deux derniers modèles text-to-image de Stability AI
Stability AI a présenté récemment deux modèles text-to-image : Stable Cascade disponible en prévisualisation de recherche sous une licence non commerciale et la nouvelle génération de son modèle phare Stable Diffusion 3.0. Si le premier est basé sur l’architecture Würstchen pour améliorer les performances et la précision, la dernière itération de Stable Diffusion utilise une nouvelle architecture combinant transformateur de diffusion et appariement de flux.
Stable Cascade est un modèle très efficace qui est, selon Stability AI, “exceptionnellement facile à entraîner et à affiner sur du matériel grand public grâce à son approche en trois étapes”, l’architecture Würstchen.
Il est construit sur un pipeline composé de trois modèles distincts : les étapes A, B et C. Cette architecture permet une compression hiérarchique :
- Le générateur latent (Stage C) transforme les entrées textuelles en latents compacts de 24×24 ;
- Le décodeur latent (Stages A et B) décompresse les latents en images à haute résolution ;
- Le réseau de contrôle (ControlNet) permet d’ajuster les caractéristiques des images générées.
![]()
Le modèle est capable de gérer des descriptions compliquées, de générer des détails fins et de suivre les variations de style et de couleur. Il dépasse largement les autres modèles en termes de qualité perçue, selon une évaluation humaine.
Chaque étape de la cascade peut être ajustée pour des besoins spécifiques, permettant de contrôler le niveau de détail, la résolution, le style et la couleur des images. De plus, le modèle dispose d’un réseau de contrôle (ControlNet), qui permet d’effectuer des modifications fines sur les images générées, telles que le changement de position, de taille, de forme ou de couleur des objets.
![]()
Stable Cascade est disponible en prévisualisation de recherche sous une licence non commerciale, le code pour l’inférence, l’entraînement, l’affinage et le ControlNet est publié sur la page GitHub de Stability. On peut l’essayer sur Hugging face ici
Stable Diffusion 3
Stability AI a annoncé le 22 février dernier l’ouverture de la liste d’attente pour un prévisualisation anticipée de son dernier modèle. Selon la start-up, il présenterait une nette amélioration des performances sur les requêtes multi-sujets, de la qualité d’image et des capacités orthographiques.
La suite Stable Diffusion 3 comprend des modèles allant de 800M à 8B de paramètres, offrant aux utilisateurs un éventail d’options adaptées à leurs besoins créatifs spécifiques. Stablity AI précise seulement que le modèle utilise une architecture de transformateur de diffusion et un appariement de flux, un rapport détaillé est prévu.
Voici quelques exemples d’images générées par le modèle partagées par la start-up:
![]()
Prompt : Une œuvre d’art épique d’anime d’un sorcier au sommet d’une montagne la nuit lançant un sort cosmique dans le ciel sombre qui dit “Stable Diffusion 3” fait d’énergie colorée .
![]()
Prompt : photo de studio en gros plan d’un caméléon sur un fond noir.
![]()
Prompt : Un tableau d’un astronaute chevauchant un cochon portant un tutu tenant un parapluie rose, sur le sol à côté du cochon se trouve un oiseau rouge-gorge portant un haut-de-forme, dans le coin sont les mots “stable diffusion”.

-
ActuIA

-
Lumiere, la nouvelle IA génératrice de vidéos de Google Research
Le modèle de génération de vidéos Lumiere, récemment présenté par des chercheurs de Google Research, utilise un modèle de diffusion probabiliste basé sur un réseau U-Net spatio-temporel, pour générer des vidéos de 5 secondes réalistes et cohérentes à partir d’invites ou d’images fixes, permettre de les styliser suivant son choix ou créer des cinémagraphes en animant seulement la partie sélectionnée d’une image. Les modèles de génération d’images tels qu’Adobe Firefly, DALL-E, Midjourney, Imagen
Lumiere, la nouvelle IA génératrice de vidéos de Google Research
Le modèle de génération de vidéos Lumiere, récemment présenté par des chercheurs de Google Research, utilise un modèle de diffusion probabiliste basé sur un réseau U-Net spatio-temporel, pour générer des vidéos de 5 secondes réalistes et cohérentes à partir d’invites ou d’images fixes, permettre de les styliser suivant son choix ou créer des cinémagraphes en animant seulement la partie sélectionnée d’une image.
Les modèles de génération d’images tels qu’Adobe Firefly, DALL-E, Midjourney, Imagen ou Stable Diffusion ont soulevé l’enthousiasme et été rapidement adoptés. Une suite logique était la génération de vidéos, Meta AI s’y est attaqué dès octobre 2022 avec Make-A-Video, le laboratoire NVIDIA AI de Toronto a dévoilé un modèle de synthèse Text-to-Video haute résolution basé sur le modèle Stable Diffusion open source de Stability AI qui a de son côté présenté en novembre dernier Stable Video Diffusion, un modèle très performant.
La génération de vidéos est une tâche beaucoup plus complexe que la génération d’images, impliquant une dimension temporelle en plus de la dimension spatiale, le modèle doit non seulement générer correctement chaque pixel, mais également prédire comment ce dernier évoluera pour produire une vidéo cohérente et fluide.
Pour Lumiere, Google Research, qui avait participé au développement du modèle de génération de vidéos W.A.L.T présenté le mois dernier, a opté pour une approche novatrice afin de surmonter les défis spécifiques liés à l’entraînement des modèles text-to-video.
Le modèle LUMIERE se compose d’un modèle de base et d’un modèle de super-résolution spatiale. Le modèle de base génère des clips vidéo à basse résolution en traitant le signal vidéo dans plusieurs échelles spatio-temporelles, en s’appuyant sur un modèle de text-to-image pré-entraîné. Le modèle de super-résolution spatiale augmente la résolution spatiale des clips vidéo en utilisant une technique de multidiffusion pour assurer la continuité globale du résultat.
Les chercheurs expliquent :
“Nous introduisons une architecture U-Net spatio-temporelle qui génère toute la durée temporelle de la vidéo en une seule fois, par un seul passage dans le modèle. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes suivies d’une super-résolution temporelle, une approche qui rend intrinsèquement difficile la réalisation d’une cohérence temporelle globale”.

Applications
Le modèle peut être facilement adapté à une variété de tâches de création et d’édition de contenu vidéo, telles que la génération de vidéos stylisées, la génération d’images-vers-vidéos, l’inpainting et l’outpainting vidéo, et la création de cinémagraphes, comme on peut le constater dans la vidéo ci-dessous.
Pour rappel, l’inpainting permet de remplir ou restaurer des parties manquantes ou endommagées d’une vidéo de manière réaliste. On peut l’utiliser pour remplacer des objets indésirables, réparer des artefacts (anomalies ou altérations non désirées) ou des zones corrompues dans une vidéo, ou même pour créer des effets spéciaux.
L’outpainting vidéo, en revanche, se réfère à l’extension ou à l’ajout de contenu au-delà des limites existantes de la vidéo. Il permet d’ajouter des éléments pour agrandir la scène, créer des transitions fluides entre les clips vidéo ou ajouter des éléments décoratifs ou contextuels.
Evaluations
Le modèle Lumiere a été évalué sur 113 descriptions textuelles ainsi que sur le jeu de données UCF101. Il a obtenu des résultats compétitifs en termes de Frechet Video Distance et d’Inception Score, et a été préféré par les utilisateurs pour sa qualité visuelle et sa cohérence de mouvement par rapport aux méthodes concurrentes.
Si le modèle a démontré de solides performances, les chercheurs rappellent :
“Notre objectif principal dans ce travail est de permettre aux utilisateurs novices de générer du contenu visuel de manière créative et flexible. Cependant, il existe un risque d’utilisation abusive pour la création de contenu faux ou préjudiciable avec notre technologie, et nous pensons qu’il est crucial de développer et d’appliquer des outils pour détecter les biais et les cas d’utilisation malveillants afin de garantir une utilisation sûre et équitable”.
Références de l’article :
Article “Lumiere: A Space-Time Diffusion Model for Video Generation”
arXiv, soumis le 23/01/2024, https://doi.org/10.48550/arXiv.2401.12945
Auteurs : Omer Bar-Tal 1 2, Hila Chefer 1 3, Omer Tov 1, Charles Herrmann 1, Roni Paiss 1, Shiran Zada 1, Ariel Ephrat 1, Junhwa Hur 1, Yuanzhen Li 1, Tomer Michaeli 1 4, Oliver Wang 1 Deqing Sun 1, Tali Dekel 1 2, Inbar Mosseri 1
1Google Research 2Weizmann Institute 3Tel-Aviv University 4Technion

-
Intelligence artificielle

-
Améliorez vos images avec Final2x, le logiciel de super-résolution open source
Vous avez sûrement déjà été confronté à cette situation : vous avez une image de faible résolution, et vous voulez absolument l’améliorer sans perdre en qualité pour ensuite l’imprimer ou la diffuser sur un bon vieux résal social. J’ai une excellente nouvelle pour vous : Final2x est là pour sauver la mise ! Cet outil puissant permet d’augmenter la résolution des images en utilisant plusieurs modèles tels que RealCUGAN, RealESRGAN, Waifu2x et SRMD. Ce qui veut dire que peu importe la tai
Améliorez vos images avec Final2x, le logiciel de super-résolution open source
![]()
Vous avez sûrement déjà été confronté à cette situation : vous avez une image de faible résolution, et vous voulez absolument l’améliorer sans perdre en qualité pour ensuite l’imprimer ou la diffuser sur un bon vieux résal social.
J’ai une excellente nouvelle pour vous : Final2x est là pour sauver la mise !
Cet outil puissant permet d’augmenter la résolution des images en utilisant plusieurs modèles tels que RealCUGAN, RealESRGAN, Waifu2x et SRMD. Ce qui veut dire que peu importe la taille de l’image que vous souhaitez obtenir, vous pouvez compter sur ces algorithmes pour améliorer la résolution et la qualité des oeuvres.

Comme ça vous pourrez zoomer comme dans les Expert à Miami sur la plaque d’immatriculation de la voiture du chasseur qui a tiré sur votre maison.
Final2x est disponible pour Windows, MacOS et Linux, et dispose d’une interface agréable avec un mode claire / sombre, et la possibilité de modifier l’échelle des images voulues pour avoir du très très gros.

Pour vous lancer, rendez-vous sur le dépôt GitHub du projet et suivez les instructions pour l’installation et l’utilisation de Final2x. Vous y trouverez également des exemples d’images améliorées, de quoi vous donner un aperçu de ce que cet outil est capable de faire.

-
Intelligence artificielle

-
Découvrez VideoCrafter – Votre réalisateur personnel en un clic!
Salut les amis geeks, je viens de tomber sur un outil qui a vous faire passer du bon temps, et pour cause, il est juste génial ! Je vais vous parler de VideoCrafter qui permet simplement en entrant un texte ou en uploadant une image de générer une petite vidéo de quelques secondes. On est loin de Spielberg, mais ça sonne quand même comme de la science-fiction, non ? Non, non, non… ne me regardez pas avec ces grands yeux… C’est la réalité les amis ! Je vous ai fait une Pamela Anderson
Découvrez VideoCrafter – Votre réalisateur personnel en un clic!
![]()
Salut les amis geeks, je viens de tomber sur un outil qui a vous faire passer du bon temps, et pour cause, il est juste génial ! Je vais vous parler de VideoCrafter qui permet simplement en entrant un texte ou en uploadant une image de générer une petite vidéo de quelques secondes.
On est loin de Spielberg, mais ça sonne quand même comme de la science-fiction, non ?
Non, non, non… ne me regardez pas avec ces grands yeux… C’est la réalité les amis !
Je vous ai fait une Pamela Anderson à partir d’un simple prompt :

Et voici le résultat très Uncanny Valley:
Vous pouvez régler le nombre de FPS voulu ainsi que le nombre d’étapes pour la génération. Plus y’en, plus ça prend du temps, mais plus ce sera détaillé.
Concernant l’animation d’une photo, j’ai également fait un test avec Lolo, la mascotte, et voici ce que j’obtiens.

Ça donne donc ceci :
Avouez qu’avec ses gros trous de nez, il a l’air encore plus honnête que l’original, non ?
Pour vous amuser avec ce truc, vous pouvez soit l’installer en suivant la doc sur Github, soit vous rendre sur Replicate ou encore aller sur le Discord du projet. Attention, Replicate sera limité à quelques essai, mais en navigation privée et / ou VPN, ça passe.
Notez que sur le Discord, il y a également un canal où vous pouvez mixer une photo avec un audio et ça animera les lèvres de la personne sur l’image pour lui faire dire le texte.

-
Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
-
Quand l’intelligence artificielle génère de fausses photos historiques (intox)
https://fakehistoryhunter.net/ Comment la revue Science veut s’assurer de l’intégrité des images dans ses publications https://www.actuia.com/actualite/comment-la-revue-science-veut-sassurer-de-lintegrite-des-images-dans-ses-publications/ Science a déclaré dans son éditorial de janvier qu’il utiliserait Proofig, un outil basé sur l’IA qui analyse les images, pour détecter les altérations dans ses six revues. ../.. travaillent à détecter ces altérations avec l’aide d’outils d’intégrité d’images
Quand l’intelligence artificielle génère de fausses photos historiques (intox)
Comment la revue Science veut s’assurer de l’intégrité des images dans ses publications
https://www.actuia.com/actualite/comment-la-revue-science-veut-sassurer-de-lintegrite-des-images-dans-ses-publications/
Science a déclaré dans son éditorial de janvier qu’il utiliserait Proofig, un outil basé sur l’IA qui analyse les images, pour détecter les altérations dans ses six revues. ../..
travaillent à détecter ces altérations avec l’aide d’outils d’intégrité d’images comme Imagetwin ou Proofig. Elle collabore d’ailleurs avec le site PubPeer où il est possible de partager les failles détectées dans les articles scientifiques.
Voir aussi actu iaimg
https://actu.azqs.com/geeknik/p/i/?a=normal&get=t_10
(Permalink)
-
Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
-
Art créé par intelligence artificielle (+ petit historique)
https://fr.wikipedia.org/wiki/Prompt_art https://fr.wikipedia.org/wiki/Art_génératif https://fr.wikipedia.org/wiki/Art_algorithmique https://fr.wikipedia.org/wiki/Art_numérique https://aiartists.org/ai-generated-art-tools https://en.wikipedia.org/wiki/Procedural_texture # Avant https://www.youtube.com/watch?v=StZeHL3Nef0 (Art Comptant Pour Rien - mi 2002) L'intelligence artificielle va dominer le monde de l'art ? (y'a moyen) https://nt2.uqam.ca/fr/dossiers-thematiques/lart-generatif (2008) ht
Art créé par intelligence artificielle (+ petit historique)
https://fr.wikipedia.org/wiki/Art_génératif
https://fr.wikipedia.org/wiki/Art_algorithmique
https://fr.wikipedia.org/wiki/Art_numérique
https://aiartists.org/ai-generated-art-tools
https://en.wikipedia.org/wiki/Procedural_texture
# Avant
https://www.youtube.com/watch?v=StZeHL3Nef0 (Art Comptant Pour Rien - mi 2002) L'intelligence artificielle va dominer le monde de l'art ? (y'a moyen)
https://nt2.uqam.ca/fr/dossiers-thematiques/lart-generatif (2008)
https://keys.art/fr/article/introduction-art-generatif : De l’ordre au chaos "déjà en 1965, avec le système biologique de Hans Haacke, Condensation Cube, la notion de procédé naturel comme source artistique a été explorée avec le procédé de la condensation et du glissement des gouttes d’eau sur les vitres du cube. Ces changements d’état de l’eau, passant par des états gazeux, brumeux pour revenir finalement à un état liquide, créent ainsi une œuvre d’art parfaitement unique à chaque itération."
"Harold Cohen dans les 70 développe le programme “Aaron” qui permet de générer des œuvres sur papier de manière autonome."
https://www.hisour.com/fr/generative-art-21197/ "processus autonomes mathématiques / mécaniques / aléatoires." "Le « Musikalisches Würfelspiel » 1757 est un exemple précoce d’un système générique basé sur le hasard."
"Dans leur article de 2009, Margaret Boden et Ernest Edmonds sont d’accord sur le fait que l’art génératif ne doit pas nécessairement se limiter à l’utilisation d’ordinateurs, et que certains arts basés sur des règles ne sont pas génératifs. Ils développent un vocabulaire technique qui comprend Ele-art (art électronique), C-art (art informatique), D-art (art numérique), CA-art (art assisté par ordinateur), G-art (art génératif), CG- art (art génératif basé sur ordinateur), Evo-art (art basé sur l’évolution), R-art (art robotique), I-art (art interactif), CI-art (art interactif par ordinateur) et VR-art (réalité virtuelle art)."
https://www.unitec.fr/lart-generatif-algorithmes-au-service-de-la-creation/
"Et si demain les artistes étaient remplacés par des machines ? C’est l’une des questions que soulèvent les travaux de Mario Klingemann, artiste allemand. Pionnier dans l’art de générer en utilisant l’intelligence artificielle, il utilise notamment le Deep Learning et les réseaux de neurones artificiels. Il appelle son mouvement, la neurographie." CF Memories of Passersby I 2018
"design génératif, c’est la possibilité de confier à la machine la conception de pièces complexes pour l’être humain. En définissant des contraintes, l’homme peut pousser l’algorithme à proposer des pièces dont les formes sont optimisées et parfaitement efficientes"
# 2014 L’ingénieur de Google Alxander Mordvintsev a créé Deep Dream en utilisant des réseaux de neurones convolutifs (CNN) et présenté en 2014 dans le cadre de l’ImageNet Large Scale Visual Recognition Challenge
https://fr.wikipedia.org/wiki/DeepDream
https://deepdreamgenerator.com/generator
https://intelligence-artificielle.com/google-deep-dream-0304/
# 2015 "La quête de l'art de l'IA a commencé avec une technologie appelée Neural Style Transfer (NST)"
https://creator.nightcafe.studio/
https://les-enovateurs.com/neural-style-transfer-developper-ia (tuto txt)
https://www.youtube.com/watch?v=GhBoDoNfQSw (tuto vidéo)
# 2017 : https://albertbarque.com/myartificialmuse/ https://sonarplusd.com/en/programs/barcelona-2017/areas/marketlab/my-artificial-muse
https://aiartists.org/mario-klingemann
# 2018 :
- Un tableau créé par algorithme mis à prix à 432 500 $ : une vente historique pour le collectif français Obvious !
https://www.ladn.eu/tech-a-suivre/art-et-intelligence-artificielle-decouvrez-le-collectif-obvious/ (https://obvious-art.com/)
- Robbie Barrat abreuve son compte Twitter de toiles étranges, nus mais aussi paysages, lesquelles semblent avoir été peintes par un adepte du surréalisme et de l’abstraction. GAN en est à l’origine.
# 2019 : GauGAN Nvidia a présenté à la GPU Technology Conference de la Silicon Valley, l'application interactive GauGAN capable de convertir des croquis basiques, en images photoréalistes.
https://www.futura-sciences.com/tech/breves/technologie-gaugan-application-nvidia-transforme-vos-dessins-chefs-oeuvre-photorealistes-510/
# 2020 : "Le projet Fidenza est devenu une véritable référence en terme d’art génératif." Lors du lancement, le Fidenza #313 coûtait 0.17 ETH, 10 semaines plus tard a été achetée pour 1000 ETH ( 3.3 millions $)
https://nftfrance.fr/top-3-projets-art-generatif/
# 2020 : Generative design. Premier violon imprimé en 3D par la firme Dassault Systèmes en partenariat avec Laurent Bernadac, “3Dvarius”
# 2021 début : Toustes le monde est artiste https://www.ladn.eu/mondes-creatifs/on-teste-pour-vous-faire-lart-avec-intelligence-artificielle/
VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance
https://arxiv.org/abs/2204.08583
Le paradigme texte-image que VQGAN+CLIP a popularisé ouvre certainement de nouvelles voies pour créer des médias synthétiques et peut-être même démocratise la « créativité », en déplaçant les compétences de l'exécution (graphique) ou de l'instruction algorithmique (programmation) à une « ingénierie rapide » astucieuse.
https://ichi.pro/fr/vqgan-clip-comment-ca-marche-36328406933074
# 2021 fin : Guided Diffusion -
OpenAI https://github.com/openai/guided-diffusion
https://arxiv.org/abs/2210.03142
https://shape-guided-diffusion.github.io/
# 2022 :
- Succes grand publique des ia : Dall-e (mot valise Dalí et WALL.E) Midjourney Stable Diffusion
https://ichi.pro/fr/la-renaissance-de-l-art-de-l-ia-en-2022-136862285289618
- Shutterstock La banque d'images a annoncé le 25 octobre 2022 commercialiser des images générées par des intelligences artificielles avec l'aide d'OpenAI. A l'inverse, Getty Images a interdit en septembre dernier le chargement et la vente d'images générées par des outils comme DALL-E, Midjourney, Stable Diffusion ou Make-A-Scene (meta).
https://www.usine-digitale.fr/article/dall-e-bientot-accessible-sur-shutterstock-pour-generer-des-images-a-partir-d-un-texte.N2059702
https://www.youtube.com/watch?v=QKa6UA0Jxi8 (fin 2002) L'intelligence artificielle : artiste ou voleuse ????
https://www.youtube.com/watch?v=-1fs6TAiDXQ (L'œuvre et l'intelligence artificielle - Le Dessous des images - ARTE)
https://www.ladn.eu/mondes-creatifs/incroyable-histoire-art-numerique-genere-intelligence-artificielle/
L’art génératif : les algorithmes au service de la création
https://www.unitec.fr/lart-generatif-algorithmes-au-service-de-la-creation/
https://en.wikipedia.org/wiki/Category:Simulation_software
notebooks ?
(Permalink)
-
Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
- Tuto GFP-GAN (Anglois sous titré) (retouche img visage)
-
Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
- Tutos MIDJOURNEY