Intelligence artificielle
IA générative : Microsoft veut aider les développeurs de jeux vidéo dans l'idéation du gameplay
Qu'existe-t-il à l'intersection de l'intelligence artificielle et des jeux vidéo ? Muse. Ce modèle d’IA générative appliqué au domaine...

IA générative : Microsoft veut aider les développeurs de jeux vidéo dans l'idéation du gameplay

Par : Célia Séramour

20 février 2025 à 15:15

Qu'existe-t-il à l'intersection de l'intelligence artificielle et des jeux vidéo ? Muse. Ce modèle d’IA générative appliqué au domaine...

Intelligence artificielle
CES 2025 : PC IA, ordinateur déroulant, console Legion Go S… Les principales annonces de Lenovo
À l'occasion du CES 2025, qui se tient jusqu'au 10 janvier à Las Vegas, le constructeur chinois d'électronique Lenovo a dévoilé de nombreux...

CES 2025 : PC IA, ordinateur déroulant, console Legion Go S… Les principales annonces de Lenovo

Intelligence artificielle

Par : Yoann Bourgin

9 janvier 2025 à 14:37

À l'occasion du CES 2025, qui se tient jusqu'au 10 janvier à Las Vegas, le constructeur chinois d'électronique Lenovo a dévoilé de nombreux...

Intelligence artificielle
CES 2025 : Ryzen 9950X3D, RDNA 4, Radeon RX 9000, PC IA... Les actus d'AMD à retenir
AMD profite du CES qui se déroule en ce moment même à Las Vegas pour mettre le paquet sur l'IA générative. Gaming, PC IA, et de nouveaux...

CES 2025 : Ryzen 9950X3D, RDNA 4, Radeon RX 9000, PC IA... Les actus d'AMD à retenir

Intelligence artificielle

Par : Célia Séramour

8 janvier 2025 à 11:32

AMD profite du CES qui se déroule en ce moment même à Las Vegas pour mettre le paquet sur l'IA générative. Gaming, PC IA, et de nouveaux...

Intelligence artificielle
CES 2025 : Intel dévoile ses processeurs optimisés pour les applications d'IA et le gaming
À l'occasion du CES 2025, qui se tient jusqu'au 10 janvier à Las Vegas, Intel a levé le voile sur la génération de puces Core Ultra 200 “Arrow...

CES 2025 : Intel dévoile ses processeurs optimisés pour les applications d'IA et le gaming

Intelligence artificielle

Par : Yoann Bourgin

7 janvier 2025 à 12:45

À l'occasion du CES 2025, qui se tient jusqu'au 10 janvier à Las Vegas, Intel a levé le voile sur la génération de puces Core Ultra 200 “Arrow...

ActuIA
Sora Turbo : l’IA générative de vidéos d’OpenAI est désormais disponible
En février dernier, OpenAI dévoilait son premier modèle text-to-video, Sora, depuis lors en preview. La société a annoncé ce 9 décembre le déploiement de Sora Turbo, une version plus rapide, sur sora.com. Elle est disponible sans frais supplémentaires pour les abonnés ChatGPT Plus et Pro dans tous les pays où ChatGPT est disponible, hors l’UE, le Royaume-Uni et la Suisse où il faudra patienter encore quelques mois. La nouvelle version, Sora Turbo, partage les caractéristiques techniques de Sora

Sora Turbo : l’IA générative de vidéos d’OpenAI est désormais disponible

ActuIA

Par : Marie-Claude Benoit

10 décembre 2024 à 11:00

En février dernier, OpenAI dévoilait son premier modèle text-to-video, Sora, depuis lors en preview. La société a annoncé ce 9 décembre le déploiement de Sora Turbo, une version plus rapide, sur sora.com. Elle est disponible sans frais supplémentaires pour les abonnés ChatGPT Plus et Pro dans tous les pays où ChatGPT est disponible, hors l’UE, le Royaume-Uni et la Suisse où il faudra patienter encore quelques mois.

La nouvelle version, Sora Turbo, partage les caractéristiques techniques de Sora présenté en février dernier, mais propose une vitesse de génération significativement améliorée, réduisant le temps nécessaire pour produire des contenus réalistes de haute qualité à partir de descriptions textuelles. Les utilisateurs peuvent créer des vidéos de 20 secondes maximum, idéales pour les réseaux sociaux ou le marketing.

Avec des capacités de résolution allant jusqu’à 1080p sous différents formats (panoramiques, verticaux ou carrés), il offre une flexibilité qui plaira autant aux créateurs amateurs qu’aux professionnels.

Une interface intuitive pour une création précise

Afin de simplifier l’expérience utilisateur, OpenAI a conçu une interface dédiée à Sora, incluant un outil de storyboard qui permet de définir précisément chaque élément de la vidéo. Des flux récents en vedette mettent en avant les créations de la communauté, inspirant les utilisateurs tout en démontrant le potentiel du modèle.

Sora supporte également l’utilisation de ressources personnalisées : les utilisateurs peuvent combiner textes, images et vidéos existants pour étendre ou remixer leurs créations. Cette modularité renforce l’attrait de la plateforme pour un large éventail d’applications.

Les limitations de SORA

La version initiale avait parfois des difficultés à modéliser la physique complexe, la causalité, les détails spatiaux et temporels, et les interactions entre les objets et les personnages. Bien qu’atténués, Sora Turbo rencontre ces mêmes problèmes, les mouvements manquent parfois de naturel.

Si le modèle reste perfectible, son déploiement marque une étape clé pour OpenAI. On peut découvrir le flux de vidéos générées ici.

Un déploiement responsable

Les méthodes de sécurité conçues pour DALL-E 3 garantissant le respect des politiques d’utilisation, comme l’interdiction de la violence, du contenu haineux ou de la divulgation d’informations personnelles ont été appliquées à Sora. OpenAI y a ajouté d’autres mesures pour plus de sécurité et de transparence :

Toutes les vidéos incluent des métadonnées C2PA pour garantir leur traçabilité ;
Des filigranes visibles par défaut assurent une transparence quant à leur origine ;
Un outil interne de vérification aide à identifier les contenus issus de Sora.

Les deepfakes à caractère sexuel ou les contenus illégaux sont bloqués par la société qui a en outre volontairement restreint les fonctionnalités liées aux visages humains pour prévenir les détournements et les abus potentiels.

Disponibilité et modèles d’abonnement

Sora est disponible exclusivement pour les abonnés de ChatGPT Plus et Pro.

Les premiers ont la possibilité de générer jusqu’à 50 vidéos de 5 secondes de 480p à 720p chaque mois. Pour les utilisateurs ayant des besoins plus élevés, l’abonnement Pro leur permet de produire 500 vidéos, d’une durée plus longue (20 secondes) et à une résolution supérieure (jusqu’à 1080p).

OpenAI prévoit également de proposer des tarifs adaptés à différents types d’utilisateurs, rendant la technologie accessible aux créateurs individuels comme aux grandes entreprises. Ces offres devraient être disponibles dès le début de 2025.

ActuIA
X-Ray Recaps : Amazon lance une fonctionnalité de résumés intelligents pour enrichir l’expérience streaming
Amazon a lancé cette semaine la version bêta d’une nouvelle fonctionnalité basée sur la GenAI pour son service de streaming Prime Vidéo. Baptisée X-Ray Recaps, elle génère des résumés concis et personnalisés de séries, d’épisodes, et même de moments précis, évitant les spoilers tout en permettant aux téléspectateurs de se souvenir des points essentiels de l’intrigue. X-Ray Recaps s’appuie sur les fonctionnalités existantes X-Ray de Prime Video, qui apportent des informations contextuelles sur le

X-Ray Recaps : Amazon lance une fonctionnalité de résumés intelligents pour enrichir l’expérience streaming

ActuIA

Par : Marie-Claude Benoit

8 novembre 2024 à 11:26

Amazon a lancé cette semaine la version bêta d’une nouvelle fonctionnalité basée sur la GenAI pour son service de streaming Prime Vidéo. Baptisée X-Ray Recaps, elle génère des résumés concis et personnalisés de séries, d’épisodes, et même de moments précis, évitant les spoilers tout en permettant aux téléspectateurs de se souvenir des points essentiels de l’intrigue.

X-Ray Recaps s’appuie sur les fonctionnalités existantes X-Ray de Prime Video, qui apportent des informations contextuelles sur le film ou la série visionné : nom des acteurs, détails sur la bande sonore, anecdotes de production, contenu exclusif…

Adam Gray, vice-président des produits chez Prime Video, explique :

“Les équipes produit et technologique de Prime Video travaillent sans relâche en coulisses pour améliorer l’expérience de visionnage des clients, et avec la création de X-Ray Recaps, nous nous attaquons directement à un problème courant auquel les clients sont confrontés lorsqu’ils diffusent du contenu : oublier là où ils se sont arrêtés. Grâce à cette fonctionnalité contextuelle, Prime Video fournira des résumés de moments mémorables et de points importants de l’intrigue afin que nos clients puissent rapidement se replonger dans ce qu’ils regardaient ou redécouvrir pourquoi ils sont tombés amoureux d’une série en premier lieu”.

X-Ray Recaps est optimisé par Amazon Bedrock, un service d’AWS qui permet de créer et de mettre à l’échelle des applications d’IA génératives à l’aide de modèles de fondation. La fonctionnalité analyse les segments de la vidéo, exploite les dialogues et les sous-titres pour détecter les événements et conversations importantes. Les utilisateurs peuvent ainsi accéder à des résumés ciblés en fonction de l’endroit exact où ils se trouvent dans l’épisode ou la saison. Grâce à des garde-fous intégrés, le système peut éviter de révéler des détails de l’intrigue qui gâcheraient le plaisir de la découverte.

X-Ray Recaps est actuellement disponible uniquement pour les clients de Fire TV aux États-Unis, mais Amazon prévoit d’étendre cette fonctionnalité à d’autres appareils d’ici la fin de l’année.

X-Ray Recaps : Amazon lance une fonctionnalité de résumés intelligents pour enrichir l'expérience streaming

Intelligence artificielle
Avec le Snapdragon 8 Elite, Qualcomm veut surpasser les performances de l'iPhone
À l’occasion de sa conférence annuelle, qui se tient à Hawaï, Qualcomm lève le voile ce 21 octobre sur sa dernière puce pour smartphones...

Avec le Snapdragon 8 Elite, Qualcomm veut surpasser les performances de l'iPhone

Intelligence artificielle

Par : Yoann Bourgin

21 octobre 2024 à 21:00

À l’occasion de sa conférence annuelle, qui se tient à Hawaï, Qualcomm lève le voile ce 21 octobre sur sa dernière puce pour smartphones...

ActuIA
Firefly Video, le dernier ajout d’Adobe à sa famille d’IA générative
L’Adobe Firefly Summit 2024, en avril dernier, a été l’occasion pour l’éditeur de logiciels graphiques dont InDesign, Acrobat, Photoshop et Illustrator, de présenter les innovations qui allaient permettre aux marques d’optimiser leur créations de contenu. Cette semaine, lors de sa conférence annuelle Adobe MAX, il a lancé la version bêta de l’extension de la famille à la génération vidéos à partir de texte ou d’image : Firefly Video. Adobe avait dévoilé le modèle le mois dernier et donné un accè

Firefly Video, le dernier ajout d’Adobe à sa famille d’IA générative

ActuIA

Par : Thomas Calvi

18 octobre 2024 à 10:30

L’Adobe Firefly Summit 2024, en avril dernier, a été l’occasion pour l’éditeur de logiciels graphiques dont InDesign, Acrobat, Photoshop et Illustrator, de présenter les innovations qui allaient permettre aux marques d’optimiser leur créations de contenu. Cette semaine, lors de sa conférence annuelle Adobe MAX, il a lancé la version bêta de l’extension de la famille à la génération vidéos à partir de texte ou d’image : Firefly Video.

Adobe avait dévoilé le modèle le mois dernier et donné un accès anticipé à certains créateurs, la version bêta publique est déployée dans l’application Web Firefly, mais pour y accéder, il faut au préalable s’inscrire sur la liste d’attente. Pour l’instant, la durée maximale des clips générés n’est que de cinq secondes.

Tout comme Sora, le modèle text-to-video d’OpenAI, Movie Gen, présenté récemment par Meta, Firefly Video peut générer des vidéos à partir d’une invite textuelle. Plus celle-ci sera détaillée, comprenant des descriptions précises de la prise de vue, des mouvements de caméra, de l’éclairage et de l’ambiance, plus elle répondra aux attentes de l’utilisateur, comme ci-dessous.

Prompt : Gros plan cinématographique et portrait détaillé d’un homme âgé au milieu d’une rue la nuit. L’éclairage est sombre et dramatique. L’homme a une texture de peau détaillée extrêmement réaliste et des pores visibles. Le mouvement est subtil et doux. La caméra ne bouge pas. Grain de pellicule. Objectif anamorphique vintage.

Le modèle peut générer des séquences vidéo B-roll pour compléter des plans manquants ou des effets visuels comme du feu ou de la fumée que l’on peut ensuite superposer sur une vidéo existante, à l’aide de modes de fusion ou d’incrustations dans des outils Adobe tels qu’Adobe Premiere Pro ou Adobe After Effects.

Prompt : Fuites de lumière sur fond noir, texture organique, réaliste.

Composite dans Premiere Pro avec le mode de fusion Écran

Firefly permet également de créer des vidéos à partir d’images fixes, donnant une nouvelle vie aux bibliothèques de photos existantes. Par exemple, un simple cliché de fleurs peut être transformé en une vidéo avec l’invite “les fleurs bougent dans le vent et un papillon se pose délicatement sur l’une d’entre elles”

Adobe s’engage à adopter une approche éthique de l’IA. Le modèle Firefly est exclusivement entraîné sur des contenus sous licence ou du domaine public. En outre, chaque création générée par Firefly intègrera des Content Credentials, qui offrent une transparence totale sur l’origine du contenu et le rôle de l’IA dans sa création.

ActuIA
L’essor de la GenAI en Chine : MiniMax dévoile Video-01, son premier modèle text-to-video
Zhipu AI a annoncé récemment CogVideoX-5B, son dernier modèle text-to-video open source. Une autre start-up chinoise, tout aussi prometteuse, Minimax, a dévoilé sa première IA générative de vidéos lors de sa conférence des développeurs. “Magic Coin”, la vidéo générée par Video-01, la première itération du modèle éponyme de la start-up, a suscité un vif enthousiasme. La génération de vidéos est une tâche beaucoup plus complexe que la génération d’images, impliquant une dimension temporelle en plu

L’essor de la GenAI en Chine : MiniMax dévoile Video-01, son premier modèle text-to-video

ActuIA

Par : Pierre-yves Gerlat

10 septembre 2024 à 14:00

Zhipu AI a annoncé récemment CogVideoX-5B, son dernier modèle text-to-video open source. Une autre start-up chinoise, tout aussi prometteuse, Minimax, a dévoilé sa première IA générative de vidéos lors de sa conférence des développeurs. “Magic Coin”, la vidéo générée par Video-01, la première itération du modèle éponyme de la start-up, a suscité un vif enthousiasme.

La génération de vidéos est une tâche beaucoup plus complexe que la génération d’images, impliquant une dimension temporelle en plus de la dimension spatiale, le modèle doit non seulement générer correctement chaque pixel, mais également prédire comment ce dernier évoluera pour produire une vidéo cohérente et fluide.

Alors que les modèles text-to-video précédents pouvaient générer des vidéos de quelques secondes, OpenAI avait fait sensation en février dernier avec Sora, son IA capable de produire des vidéos très réalistes d’une minute. Cependant, le modèle n’est toujours pas disponible au public.

Depuis, plusieurs entreprises chinoises sont entrées en compétition dans ce domaine avec l’objectif de rattraper, voire surpasser, leurs concurrents américains. En juin dernier, Kuaishou présentait ainsi Kling, capable de générer quant à lui des vidéos allant jusqu’à 2 minutes.

Minimax Video-01

Basée à Shanghai, fondée en 2021 par d’anciens employés de SenseTime, Minimax bénéficie du soutien de géants technologiques tels qu’Alibaba et Tencent. La première démonstration du modèle avec la vidéo “Magic Coin”, met en lumière sa capacité à générer des vidéos cohérentes à partir de simples descriptions textuelles. On peut constater dans la vidéo ci-dessous partagée par AI Movie que le mouvement des mains, une difficulté majeure pour les IA génératives, est ici plutôt naturel.

Cette première version du modèle permet déjà de produire des vidéos de six secondes en seulement deux minutes, à une résolution de 1280 x 720 pixels et une fréquence de 25 images par seconde. Cependant, MiniMax prévoit d’étendre rapidement leur durée à 10 secondes, et travaille à plusieurs mises à jour, notamment la possibilité de générer des vidéos à partir d’images et d’éditer ces vidéos de manière plus complexe dans les futures versions du modèle. Pour l’instant, la start-up n’a pas communiqué sur les paramètres et les détails techniques du modèle.

Les utilisateurs peuvent générer les vidéos à partir d’invites textuelles simples ou plus complexes allant jusqu’à 2000 caractères, ce qui leur permet de détailler le genre de contenu attendu, notamment l’action et le style.

Si vous désirez tester gratuitement le modèle, il suffit de vous rendre sur le site de Minimax, vous pourrez également y découvrir des vidéos générées par le modèle.

L’essor de la GenAI en Chine MiniMax dévoile Video-01, son premier modèle text-to-video

ActuIA
Zhipu AI dévoile CogVideoX-5B, son dernier modèle text-to-video open source
Zhipu AI, licorne chinoise spin-off de l’Université Tsinghua de Pékin a annoncé récemment le lancement de son dernier modèle text-to-vidéo CogVideoX-5B. Comme son prédécesseur, CogVideoX-2B, le modèle est open source, mais est, quant à lui, publié sous la licence CogVideoX qui permet une utilisation gratuite uniquement à des fins de recherche. Développé avec les techniques d’IA les plus récentes, notamment un auto-encodeur variationnel (VAE) 3D et un transformateur expert pour améliorer l’aligne

Zhipu AI dévoile CogVideoX-5B, son dernier modèle text-to-video open source

ActuIA

Par : Thomas Calvi

4 septembre 2024 à 11:00

Zhipu AI, licorne chinoise spin-off de l’Université Tsinghua de Pékin a annoncé récemment le lancement de son dernier modèle text-to-vidéo CogVideoX-5B. Comme son prédécesseur, CogVideoX-2B, le modèle est open source, mais est, quant à lui, publié sous la licence CogVideoX qui permet une utilisation gratuite uniquement à des fins de recherche.

Développé avec les techniques d’IA les plus récentes, notamment un auto-encodeur variationnel (VAE) 3D et un transformateur expert pour améliorer l’alignement entre le contenu vidéo et les descriptions textuelles, CogVideoX se distingue par sa capacité à créer des vidéos cohérentes, capturant non seulement des détails visuels riches, mais aussi des mouvements complexes avec une fluidité sans précédent.

Les deux modèles génèrent des vidéos de six secondes, à une fréquence de 8 images par seconde et une résolution de 720×480 pixels. Cette dernière version surpasse son prédécesseur en termes de qualité et de performance.

Des technologies de pointe

L’un des éléments clés de l’architecture de CogVideoX est le VAE causal 3D qui permet une compression efficace des données vidéo, à la fois dans les dimensions spatiales et temporelles. Contrairement aux modèles de génération vidéo antérieurs utilisant un VAE 2D, où l’on observe couramment des scintillements, il permet d’assurer une continuité entre les images dans les vidéos produites par CogVideoX.

La structure du VAE comprend un encodeur, un décodeur et un régularisateur d’espace latent, permettant de réduire la longueur des séquences et les exigences computationnelles pendant l’entraînement, tout en maintenant une reconstruction vidéo de haute qualité.

Un Transformateur Expert pour fusionner les données textuelles et visuelles

L’Expert Transformer est lui aussi un élément essentiel de l’architecture de CogVideoX, spécialement conçu pour gérer l’interaction complexe entre les données textuelles et vidéo.

Dans les transformateurs classiques, toutes les modalités de données sont traitées de manière uniforme, ce qui peut entraîner des inefficacités, notamment lors de la combinaison d’entrées textuelles et vidéo aux caractéristiques et échelles variées. Le transformateur expert de CogVideoX utilise la technique de normalisation “Adaptive LayerNorm” (AdaLN), pour traiter distinctement les caractéristiques du texte et de la vidéo, facilitant leur intégration fluide.

Un entraînement progressif

Les chercheurs ont adopté et conçu plusieurs techniques d’entraînement avancées pour optimiser les performances du modèle. L’entraînement à durée mixte avec la méthode Frame Pack améliore les capacités de généralisation du modèle pour différentes longueurs de vidéo, tout en maintenant une qualité constante, tandis que l’entraînement progressif, utilisant tout d’abord des vidéos basse résolution puis des vidéos de résolution de plus en plus haute, permet au modèle de capturer d’abord les détails généraux avant de les affiner.

L’échantillonnage uniforme explicite, quant à lui, stabilise la courbe de perte d’entraînement et accélère la convergence en définissant différents intervalles d’échantillonnage temporel sur chaque rang parallèle de données. Le modèle apprend ainsi efficacement sur l’ensemble de la séquence vidéo.

CogVideoX-5B

CogVideoX-2B avait été salué pour ses performances, notamment en matière de capture de mouvement humain, de contenu dynamique et de restauration de scènes. Le nouveau modèle, avec ses paramètres plus élevés, le surpasse non seulement dans ces domaines, mais également en termes de suivi des instructions, de génération vidéo et d’effets visuels.

Des exemples de vidéos qu’il a générées sont partagées sur Hugging Face.

Pour faciliter les développements futurs, les chercheurs ont rendu open-source une partie des poids du modèle CogVideoX accessible sur GitHub et du VAE 3D. Ils travaillent au développement de modèles plus grands. Pour plus d’informations sur leur approche, vous pouvez consulter leur article de recherche sur arXiv.

La sortie du modèle marque une nouvelle étape dans le domaine de la génération vidéo à partir de texte, avec des implications potentielles dans divers secteurs, allant de la production cinématographique à l’éducation, en passant par le marketing et les médias.

Zhipu AI dévoile CogVideoX-5B, son dernier modèle text-to-video open source

Intelligence artificielle
IA générative : Avec 3D Gen, Meta réalise une percée dans le rendu d'objets 3D
La maison mère de Facebook ne chôme pas en matière d'IA générative. Meta vient de dévoiler 3D Gen, un pipeline pour la génération de ressources...

IA générative : Avec 3D Gen, Meta réalise une percée dans le rendu d'objets 3D

Intelligence artificielle

Par : Célia Séramour

3 juillet 2024 à 11:26

La maison mère de Facebook ne chôme pas en matière d'IA générative. Meta vient de dévoiler 3D Gen, un pipeline pour la génération de ressources...

ActuIA
V2A, la technologie de Google DeepMind qui génère l’audio à partir d’une vidéo
Lors de sa conférence Google I/O 2024, Google a présenté VEO, un modèle text-to-video mais les vidéos qu’il génère manquent d’une composante essentielle : le son, ce à quoi DeepMind travaille. Il a dernièrement partagé les avancées de sa technologie vidéo-audio (V2A) qui combine des pixels vidéo avec des invites textuelles pour générer des bandes sonores synchronisées. Si le modèle V2A peut être associé à des modèles de génération vidéo comme Veo pour créer des effets sonores, de la musique et

V2A, la technologie de Google DeepMind qui génère l’audio à partir d’une vidéo

ActuIA

Par : Marie-Claude Benoit

21 juin 2024 à 10:00

Lors de sa conférence Google I/O 2024, Google a présenté VEO, un modèle text-to-video mais les vidéos qu’il génère manquent d’une composante essentielle : le son, ce à quoi DeepMind travaille. Il a dernièrement partagé les avancées de sa technologie vidéo-audio (V2A) qui combine des pixels vidéo avec des invites textuelles pour générer des bandes sonores synchronisées.

Si le modèle V2A peut être associé à des modèles de génération vidéo comme Veo pour créer des effets sonores, de la musique et des dialogues adaptés à chaque scène, il peut également ajouter des bandes sonores à des séquences variées, telles que des films muets, des documents d’archives et plus encore, élargissant ainsi les possibilités créatives.

V2A permet aux utilisateurs d’avoir un contrôle précis sur la sortie audio. Grâce à des invites positives et négatives, les créateurs peuvent orienter la génération sonore vers des sons spécifiques ou éviter ceux qui ne conviennent pas. Cette flexibilité facilite l’expérimentation rapide de différentes options audio, permettant ainsi de choisir la meilleure correspondance pour chaque vidéo.

Processus de Génération

Le système V2A commence par encoder l’entrée vidéo dans une représentation compressée. Ensuite, un modèle de diffusion affine de manière itérative l’audio à partir de bruit aléatoire, guidé par les pixels vidéo et les invites textuelles. Finalement, l’audio généré est décodé en une forme d’onde et synchronisé avec la vidéo.

Pour améliorer la qualité et la pertinence des sons générés, V2A utilise des annotations et des transcriptions détaillées lors de son entraînement. Cette méthode permet au système d’apprendre à associer des événements audio spécifiques à diverses scènes visuelles, créant ainsi une synchronisation audio-vidéo convaincante.

Défis et limitations

Selon DeepMind, V2A se distingue des solutions vidéo-audio existantes car elle peut comprendre les pixels bruts et l’ajout d’une invite textuelle est facultatif.

Malgré ses avancées, V2A doit encore surmonter certains défis. La qualité de l’audio généré dépendant de celle de l’entrée vidéo, elle peut être affectée par les artefacts ou distorsions présents dans la vidéo. Il peut y avoir également une mauvaise synchronisation entre les dialogues avec les mouvements des lèvres, si le modèle text-to-vidéo n’est pas aligné avec les transcriptions.

Invite pour l’audio : Musique, Transcription : “cette dinde a l’air incroyable, j’ai tellement faim”.

Engagement éthique et sécurité

DeepMind développe V2A en collaboration avec des créateurs et cinéastes de renom pour s’assurer d’un impact positif. De plus, pour prévenir les abus potentiels, tout contenu généré est filigrané grâce à la boîte à outils SynthID. Avant une diffusion publique, V2A sera soumis à des tests de sécurité rigoureux pour garantir son efficacité et sa sûreté.

V2A-technologie-Google-DeepMind-audio-video

ActuIA
Modèles Text-to-Video : Kling, le modèle chinois de Kuaishou, entre en lice
En février dernier, OpenAI dévoilait Sora, un modèle Text-to-Video capable de générer des vidéos très réalistes allant jusqu’à une minute, surpassant ainsi les modèles existants qui produisaient des vidéos de quelques secondes. Le mois dernier, lors de la conférence Google I/O 2024, Google a présenté VEO, étendant les capacités de génération vidéos de Sora à plus d’une minute. Aujourd’hui, ces deux modèles ont un sérieux concurrent : Kling, développé par l’entreprise chinoise Kuaishou Technology

Modèles Text-to-Video : Kling, le modèle chinois de Kuaishou, entre en lice

ActuIA

Par : Thomas Calvi

10 juin 2024 à 11:00

En février dernier, OpenAI dévoilait Sora, un modèle Text-to-Video capable de générer des vidéos très réalistes allant jusqu’à une minute, surpassant ainsi les modèles existants qui produisaient des vidéos de quelques secondes. Le mois dernier, lors de la conférence Google I/O 2024, Google a présenté VEO, étendant les capacités de génération vidéos de Sora à plus d’une minute. Aujourd’hui, ces deux modèles ont un sérieux concurrent : Kling, développé par l’entreprise chinoise Kuaishou Technology, qui génère des vidéos allant jusqu’à 2 minutes.

Kuaishou est surtout connu pour sa plateforme de partage de vidéos courtes, qui permet aux utilisateurs de créer, partager et visionner des vidéos de courte durée. Lancée en 2011, Kuaishou est devenue le second réseau social le plus populaire en Chine derrière TikTok et a également gagné en popularité à l’international, opérant sous le nom de Kwai dans certains marchés. L’application propose une grande variété de contenus, allant des vidéos de divertissement et des défis viraux aux tutoriels et aux vlogs personnels.

En parallèle, l’entreprise a mis en place une stratégie d’IA l’an passé, notamment dans le domaine de l’IA générative : son équipe dédiée a présenté en août 2023 sa famille de LLM KwaiYii et plus récemment son modèle texte-image Kolors.

Le dernier né de Kuaishou, Kling, actuellement en phase d’essai, permet de convertir du texte en clips vidéo d’une durée maximale de 2 minutes avec une résolution de 1080p et une fréquence de 30 images par seconde grâce, selon la société, “à une infrastructure d’entraînement efficace, une optimisation extrême de l’inférence et une infrastructure évolutive”.

Kling, tout comme Sora, est un modèle de diffusion utilisant une architecture de transformer et possédant une compréhension approfondie de la sémantique texte-vidéo. Une stratégie d’entraînement à résolution variable lui permet de prendre en charge divers formats d’image. D’après Kuaishou, il peut simuler avec précision les propriétés du monde physique grâce à une architecture auto-développée en interne et à de puissantes capacités de modélisation inspirées de la loi de mise à l’échelle physique du monde réel.

Le modèle adopte un mécanisme d’attention conjointe spatio-temporelle 3D, ce qui lui permet de mieux modéliser des mouvements spatio-temporels complexes. La technologie de reconstruction 3D du visage et du corps humain développée en interne (3D VAE) améliore l’expression des visages et du corps, et ce, à partir d’une seule image.

Kuaishou publie une série de vidéos de démonstration sur son site :

un petit garçon fait du vélo dans le jardin et vit les saisons

certaines ont été partagées également sur X :

2. Traveling by train, viewing all sorts of landscapes through the windowpic.twitter.com/WqF9rlJxbh

— Angry Tom (@AngryTomtweets) June 6, 2024

Des modèles tels que Kling ont le potentiel de transformer l’industrie du cinéma, preuve en est la projection samedi prochain des “Sora Shorts”, une série de courts métrages créés avec l’aide de Sora, par cinq cinéastes ayant eu un accès anticipé au modèle d’OpenAI, dans le cadre du Tribeca Film Festival, un festival de cinéma indépendant américain.

Modèles Text-to-Video Kling, le modèle chinois de Kuaishou, entre en lice

Intelligence artificielle
Microsoft va intégrer l'upscaling par IA directement dans DirectX
Microsoft a annoncé le 28 février le lancement prochain d’une nouvelle interface de programmation (API), nommée DirectSR, en partenariat avec...

Microsoft va intégrer l'upscaling par IA directement dans DirectX

Intelligence artificielle

Par : Yoann Bourgin

1 mars 2024 à 18:27

Microsoft a annoncé le 28 février le lancement prochain d’une nouvelle interface de programmation (API), nommée DirectSR, en partenariat avec...

Intelligence artificielle
Nvidia annonce des résultats records portés par un boom de sa division datacenter
La semaine dernière, l’éditeur de puces américain faisait parler de lui après avoir dépassé deux géants de la tech en bourse, se hissant à la...

Nvidia annonce des résultats records portés par un boom de sa division datacenter

Intelligence artificielle

Par : Célia Séramour

22 février 2024 à 15:00

La semaine dernière, l’éditeur de puces américain faisait parler de lui après avoir dépassé deux géants de la tech en bourse, se hissant à la...

ActuIA
OpenAI dévoile SORA, son premier modèle text-to-video
Jeudi dernier, le jour même où Meta présentait V-Jepa, OpenAI dévoilait SORA, un modèle de génération de vidéos. Plusieurs modèles text-to-video ont été présentés dernièrement comme Stable Video Diffusion de Stability AI ou W.A.L.T, au développement duquel a participé Google Research qui vient de dévoiler Lumiere, Make A Video, le modèle de Meta, avait quant à lui fait son apparition dès 2022. Alors que ces modèles peuvent générer des vidéos de quelques secondes, Sora peut produire des vidéos tr

OpenAI dévoile SORA, son premier modèle text-to-video

ActuIA

Par : Marie-Claude Benoit

19 février 2024 à 07:12

Jeudi dernier, le jour même où Meta présentait V-Jepa, OpenAI dévoilait SORA, un modèle de génération de vidéos. Plusieurs modèles text-to-video ont été présentés dernièrement comme Stable Video Diffusion de Stability AI ou W.A.L.T, au développement duquel a participé Google Research qui vient de dévoiler Lumiere, Make A Video, le modèle de Meta, avait quant à lui fait son apparition dès 2022. Alors que ces modèles peuvent générer des vidéos de quelques secondes, Sora peut produire des vidéos très réalistes d’une minute.

Entraîné sur un large corpus de vidéos et d’images provenant d’Internet, couvrant une grande variété de sujets et de scènes, Sora est capable de générer des vidéos de haute qualité, de différentes durées, résolutions et formats.

Comment fonctionne Sora ?

Sora utilise une architecture de transformer qui opère sur des patchs spatio-temporels de codes latents de vidéos et d’images. Les patchs sont des morceaux de vidéos ou d’images qui servent de tokens pour le transformeur. Les patchs permettent à Sora de traiter des vidéos et des images de tailles variables, sans avoir besoin de les redimensionner ou de les recadrer. Sora utilise également un réseau de compression qui réduit la dimensionnalité des données visuelles, et un réseau de décompression qui reconstruit les pixels à partir des latents générés.

Sora est un modèle de diffusion, c’est-à-dire qu’il génère des vidéos en partant d’un bruit aléatoire et en le rapprochant progressivement de la distribution cible. Il est conditionné par du texte, que ce soit une invite de l’utilisateur ou une description plus détaillée générée par un modèle de langage. Il utilise la technique de retitrage de DALL-E 3 ce qui lui permet de suivre plus fidèlement les instructions textuelles de l’utilisateur.

Cependant, il peut également être invité par d’autres entrées, comme des images générées par les modèles DALL-E qu’il va animer ou des vidéos existantes, qu’il va rallonger ou auxquelles il va ajouter de nouveaux éléments.

Sora peut simuler des effets de caméra, comme des mouvements, des rotations ou des zooms, en respectant la cohérence 3D des scènes. Selon OpenAI, il peut maintenir une cohérence temporelle sur de longues durées, en préservant les objets, les personnages et les actions même quand ils sont occultés ou qu’ils sortent du cadre.

OpenAi a partagé quelques vidéos sur son site et sur son compte X :

Invite (traduction) : La caméra fait directement face à des bâtiments colorés à Burano, en Italie. Une adorable dalmatien regarde à travers une fenêtre d’un immeuble au rez-de-chaussée. De nombreuses personnes marchent et font du vélo le long des rues du canal devant les bâtiments.

Invite (traduction) : Plusieurs mammouths laineux géants s’approchent en marchant dans une prairie enneigée, leur longue fourrure laineuse souffle légèrement dans le vent pendant qu’ils marchent, des arbres couverts de neige et des montagnes enneigées spectaculaires au loin, la lumière du milieu de l’après-midi avec des nuages vaporeux et un soleil haut au loin crée une lueur chaude, la vue de la caméra basse est époustouflante capturant le grand mammifère à fourrure avec de belles photographies, profondeur de champ.

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf

— OpenAI (@OpenAI) February 15, 2024

Les limites de SORA

Bien que très performant, Sora peut toutefois avoir du mal à modéliser la physique complexe, la causalité, les détails spatiaux et temporels, et les interactions entre les objets et les personnages.

Il peut ainsi faire apparaître des animaux ou des personnes de manière aléatoire, surtout dans des scènes contenant de nombreuses entités, comme on peut le voir avec les cinq louveteaux dans la vidéo générée par Sora ci-dessous.

Invite (traduction) : Cinq louveteaux gris gambadent et se poursuivent autour d’une route de gravier isolée, entourés d’herbe. Les chiots courent et sautent, se pourchassent et se mordillent les uns les autres, jouent.

Sora peut également mélanger les détails spatiaux d’un texte, comme la gauche et la droite ou produire des incohérences, comme un cookie ne présentant pas de marque de morsure après avoir été croqué.

Les mesures de sécurité prises par OpenAI

Avant de rendre Sora disponible dans ses produits, OpenAI travaille avec une Red Team, des experts en sécurité, en biais, et en désinformation pour tester et améliorer le modèle.

Outre les méthodes de sécurité conçues pour DALL-E 3 pour garantir le respect des politiques d’utilisation, comme l’interdiction de la violence, du contenu haineux ou de la divulgation d’informations personnelles qui sont appliquées à Sora, OpenAI travaille au développement d’un classificateur de détection de vidéos générées par Sora.

En plus de toutes ces précautions de sécurité, OpenAI a également déclaré qu’il travaillerait avec les décideurs, les éducateurs et les artistes pour comprendre leurs préoccupations et identifier les cas positifs d’utilisation du modèle.

Sora, modèle de génération de vidéo basé sur l'intelligence artificielle

ActuIA
Lumiere, la nouvelle IA génératrice de vidéos de Google Research
Le modèle de génération de vidéos Lumiere, récemment présenté par des chercheurs de Google Research, utilise un modèle de diffusion probabiliste basé sur un réseau U-Net spatio-temporel, pour générer des vidéos de 5 secondes réalistes et cohérentes à partir d’invites ou d’images fixes, permettre de les styliser suivant son choix ou créer des cinémagraphes en animant seulement la partie sélectionnée d’une image. Les modèles de génération d’images tels qu’Adobe Firefly, DALL-E, Midjourney, Imagen

Lumiere, la nouvelle IA génératrice de vidéos de Google Research

ActuIA

Par : Thomas Calvi

29 janvier 2024 à 10:30

Le modèle de génération de vidéos Lumiere, récemment présenté par des chercheurs de Google Research, utilise un modèle de diffusion probabiliste basé sur un réseau U-Net spatio-temporel, pour générer des vidéos de 5 secondes réalistes et cohérentes à partir d’invites ou d’images fixes, permettre de les styliser suivant son choix ou créer des cinémagraphes en animant seulement la partie sélectionnée d’une image.

Les modèles de génération d’images tels qu’Adobe Firefly, DALL-E, Midjourney, Imagen ou Stable Diffusion ont soulevé l’enthousiasme et été rapidement adoptés. Une suite logique était la génération de vidéos, Meta AI s’y est attaqué dès octobre 2022 avec Make-A-Video, le laboratoire NVIDIA AI de Toronto a dévoilé un modèle de synthèse Text-to-Video haute résolution basé sur le modèle Stable Diffusion open source de Stability AI qui a de son côté présenté en novembre dernier Stable Video Diffusion, un modèle très performant.

La génération de vidéos est une tâche beaucoup plus complexe que la génération d’images, impliquant une dimension temporelle en plus de la dimension spatiale, le modèle doit non seulement générer correctement chaque pixel, mais également prédire comment ce dernier évoluera pour produire une vidéo cohérente et fluide.

Pour Lumiere, Google Research, qui avait participé au développement du modèle de génération de vidéos W.A.L.T présenté le mois dernier, a opté pour une approche novatrice afin de surmonter les défis spécifiques liés à l’entraînement des modèles text-to-video.

Le modèle LUMIERE se compose d’un modèle de base et d’un modèle de super-résolution spatiale. Le modèle de base génère des clips vidéo à basse résolution en traitant le signal vidéo dans plusieurs échelles spatio-temporelles, en s’appuyant sur un modèle de text-to-image pré-entraîné. Le modèle de super-résolution spatiale augmente la résolution spatiale des clips vidéo en utilisant une technique de multidiffusion pour assurer la continuité globale du résultat.

Les chercheurs expliquent :

“Nous introduisons une architecture U-Net spatio-temporelle qui génère toute la durée temporelle de la vidéo en une seule fois, par un seul passage dans le modèle. Cela contraste avec les modèles vidéo existants qui synthétisent des images clés distantes suivies d’une super-résolution temporelle, une approche qui rend intrinsèquement difficile la réalisation d’une cohérence temporelle globale”.

Applications

Le modèle peut être facilement adapté à une variété de tâches de création et d’édition de contenu vidéo, telles que la génération de vidéos stylisées, la génération d’images-vers-vidéos, l’inpainting et l’outpainting vidéo, et la création de cinémagraphes, comme on peut le constater dans la vidéo ci-dessous.

Pour rappel, l’inpainting permet de remplir ou restaurer des parties manquantes ou endommagées d’une vidéo de manière réaliste. On peut l’utiliser pour remplacer des objets indésirables, réparer des artefacts (anomalies ou altérations non désirées) ou des zones corrompues dans une vidéo, ou même pour créer des effets spéciaux.

L’outpainting vidéo, en revanche, se réfère à l’extension ou à l’ajout de contenu au-delà des limites existantes de la vidéo. Il permet d’ajouter des éléments pour agrandir la scène, créer des transitions fluides entre les clips vidéo ou ajouter des éléments décoratifs ou contextuels.

Evaluations

Le modèle Lumiere a été évalué sur 113 descriptions textuelles ainsi que sur le jeu de données UCF101. Il a obtenu des résultats compétitifs en termes de Frechet Video Distance et d’Inception Score, et a été préféré par les utilisateurs pour sa qualité visuelle et sa cohérence de mouvement par rapport aux méthodes concurrentes.

Si le modèle a démontré de solides performances, les chercheurs rappellent :

“Notre objectif principal dans ce travail est de permettre aux utilisateurs novices de générer du contenu visuel de manière créative et flexible. Cependant, il existe un risque d’utilisation abusive pour la création de contenu faux ou préjudiciable avec notre technologie, et nous pensons qu’il est crucial de développer et d’appliquer des outils pour détecter les biais et les cas d’utilisation malveillants afin de garantir une utilisation sûre et équitable”.

Références de l’article :

Article “Lumiere: A Space-Time Diffusion Model for Video Generation”

arXiv, soumis le 23/01/2024, https://doi.org/10.48550/arXiv.2401.12945

Auteurs : Omer Bar-Tal 1 2, Hila Chefer 1 3, Omer Tov 1, Charles Herrmann 1, Roni Paiss 1, Shiran Zada 1, Ariel Ephrat 1, Junhwa Hur 1, Yuanzhen Li 1, Tomer Michaeli 1 4, Oliver Wang 1 Deqing Sun 1, Tali Dekel 1 2, Inbar Mosseri 1

1Google Research 2Weizmann Institute 3Tel-Aviv University 4Technion

Lumiere-nouvelle-IA-generatrice-videos-Google-Research

Intelligence artificielle
Découvrez VideoCrafter – Votre réalisateur personnel en un clic!
Salut les amis geeks, je viens de tomber sur un outil qui a vous faire passer du bon temps, et pour cause, il est juste génial ! Je vais vous parler de VideoCrafter qui permet simplement en entrant un texte ou en uploadant une image de générer une petite vidéo de quelques secondes. On est loin de Spielberg, mais ça sonne quand même comme de la science-fiction, non ? Non, non, non… ne me regardez pas avec ces grands yeux… C’est la réalité les amis ! Je vous ai fait une Pamela Anderson

Découvrez VideoCrafter – Votre réalisateur personnel en un clic!

Intelligence artificielle

Par : Korben

7 novembre 2023 à 15:37

Salut les amis geeks, je viens de tomber sur un outil qui a vous faire passer du bon temps, et pour cause, il est juste génial ! Je vais vous parler de VideoCrafter qui permet simplement en entrant un texte ou en uploadant une image de générer une petite vidéo de quelques secondes.

On est loin de Spielberg, mais ça sonne quand même comme de la science-fiction, non ?

Non, non, non… ne me regardez pas avec ces grands yeux… C’est la réalité les amis !

Je vous ai fait une Pamela Anderson à partir d’un simple prompt :

Et voici le résultat très Uncanny Valley:

Vous pouvez régler le nombre de FPS voulu ainsi que le nombre d’étapes pour la génération. Plus y’en, plus ça prend du temps, mais plus ce sera détaillé.

Concernant l’animation d’une photo, j’ai également fait un test avec Lolo, la mascotte, et voici ce que j’obtiens.

Ça donne donc ceci :

Avouez qu’avec ses gros trous de nez, il a l’air encore plus honnête que l’original, non ?

Pour vous amuser avec ce truc, vous pouvez soit l’installer en suivant la doc sur Github, soit vous rendre sur Replicate ou encore aller sur le Discord du projet. Attention, Replicate sera limité à quelques essai, mais en navigation privée et / ou VPN, ça passe.

Notez que sur le Discord, il y a également un canal où vous pouvez mixer une photo avec un audio et ça animera les lèvres de la personne sur l’image pour lui faire dire le texte.

Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc
Demo tuto ChatGPT
ChatGPT : Demo simple https://www.youtube.com/watch?v=yNoN82NIly4 Chat Generative Pre-trained Transformer (ChatGPT), https://en.wikipedia.org/wiki/ChatGPT ChatGPT : Pourquoi le robot conversationnel d’OpenAI bouleverse autant la Silicon Valley https://www.20minutes.fr/high-tech/4013692-20221207-chatgpt-pourquoi-robot-conversationnel-openai-bouleverse-autant-silicon-valley ChatGPT : Qu'est-ce que c'est ? Comment l'utiliser ? (+ Cas d'utilisation) https://www.sales-hacking.com/post/chatgpt Te

Demo tuto ChatGPT

Filou fait le GeekNik : Sécurité / libre / p2P / réseaux / bidouilles / no net / etc

23 décembre 2022 à 02:02

ChatGPT : Demo simple
https://www.youtube.com/watch?v=yNoN82NIly4

Chat Generative Pre-trained Transformer (ChatGPT),
https://en.wikipedia.org/wiki/ChatGPT

ChatGPT : Pourquoi le robot conversationnel d’OpenAI bouleverse autant la Silicon Valley
https://www.20minutes.fr/high-tech/4013692-20221207-chatgpt-pourquoi-robot-conversationnel-openai-bouleverse-autant-silicon-valley

ChatGPT : Qu'est-ce que c'est ? Comment l'utiliser ? (+ Cas d'utilisation)
https://www.sales-hacking.com/post/chatgpt

Test "métaphysique" par une personne technoIaCritique
https://www.richard-dern.fr/blog/2024/02/19/j-ai-discute-avec-chatgpt/

# Dev

ChatGPT - Utiliser l'IA quand on est dev et securité
https://www.youtube.com/watch?v=MUJW-90ILvo
https://www.youtube.com/watch?v=5o_sv9xo3Gs
- Tiffany Souterre (dev python, employé microsoft)
https://www.youtube.com/watch?v=16cryV3zLKk
#sketch2code #copilot (exemple utilisation sdk api vscode ) exemple bot Minecraft
- Liste IA Dévelopeur
https://www.youtube.com/playlist?list=PLdGGI4cYr7lwrFX5WBN3zrNpDJzPv_466
(Permalink)

Vue normale

Une interface intuitive pour une création précise

Les limitations de SORA

Un déploiement responsable

Disponibilité et modèles d’abonnement

Minimax Video-01

Des technologies de pointe

Un Transformateur Expert pour fusionner les données textuelles et visuelles

Un entraînement progressif

CogVideoX-5B

Processus de Génération

Défis et limitations

Engagement éthique et sécurité

Comment fonctionne Sora ?

Les limites de SORA

Les mesures de sécurité prises par OpenAI

Applications

Evaluations