ActuIA
Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles
Dans le domaine de la vision par ordinateur, le suivi précis de points dans des vidéos reste une tâche complexe, notamment en raison de la difficulté d’annoter des vidéos réelles. Les modèles traditionnels s’appuient souvent sur des données synthétiques, ce qui limite leur performance dans des environnements non contrôlés. Pour pallier cette lacune, une équipe de chercheurs de l’Université d’Oxford et de Meta AI a développé CoTracker3, un nouveau modèle de suivi de points qui intègre une méthode

Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles

Par : Marie-Claude Benoit

21 octobre 2024 à 14:00

Dans le domaine de la vision par ordinateur, le suivi précis de points dans des vidéos reste une tâche complexe, notamment en raison de la difficulté d’annoter des vidéos réelles. Les modèles traditionnels s’appuient souvent sur des données synthétiques, ce qui limite leur performance dans des environnements non contrôlés. Pour pallier cette lacune, une équipe de chercheurs de l’Université d’Oxford et de Meta AI a développé CoTracker3, un nouveau modèle de suivi de points qui intègre une méthode d’entraînement semi-supervisé innovante.

Le suivi de points est crucial pour des tâches telles que la reconstruction 3D, le montage vidéo, où il est nécessaire de suivre précisément les correspondances dans une séquence d’images, il est également utilisé dans d’autres domaines comme la réalité augmentée ou la robotique. Des modèles récents comme PIPs, TAP-Vid, TAPIR et CoTracker utilisent des réseaux de neurones transformateurs pour améliorer le suivi de points, notamment dans des cas complexes comme les occlusions et les mouvements rapides. Cependant, la disponibilité de données d’entraînement de haute qualité est cruciale pour tirer pleinement parti de ces réseaux neuronaux.

Or, l’annotation manuelle de points spécifiques dans une vidéo pour créer des ensembles de données d’entraînement est souvent longue et coûteuse, nécessitant une attention minutieuse et une expertise humaine. Si les vidéos synthétiques, qui peuvent être annotées automatiquement, sont une alternative efficace pour les tâches de bas niveau, l’écart entre les données synthétiques et réelles (le “sim-to-real gap”) reste une limitation notable, particulièrement pour des tâches plus complexes. D’autre part, constituer une collection diversifiée de vidéos synthétiques à grande échelle représente un coût élevé. Par conséquent, l’entraînement des modèles de suivi de points à l’aide de vidéos réelles reste une option intéressante.

L’apport du pseudo-étiquetage

Contrairement aux modèles traditionnels, CoTracker3 exploite ainsi des pseudo-étiquettes générées à partir de vidéos réelles, produites par d’autres modèles préalablement entraînés sur des données synthétiques. Ce processus permet de contourner l’écart statistique entre les données synthétiques et réelles, en utilisant les vidéos réelles comme source d’entraînement, sans nécessiter une annotation humaine laborieuse.

Simplicité et performance accrue

L’une des principales caractéristiques de CoTracker3 est la simplification de son architecture. Il emprunte des éléments aux modèles précédents, y compris les mises à jour itératives et les caractéristiques convolutionnelles de PIPs, l’attention inter-piste pour le suivi conjoint, les pistes virtuelles pour l’efficacité, et l’entraînement déroulé pour une opération par fenêtre de CoTracker, ainsi que la corrélation 4D de LocoTrack. En même temps, il simplifie considérablement certains de ces composants et en élimine d’autres, comme l’étape de correspondance globale de BootsTAPIR et LocoTrack.

En réduisant le nombre de composants souvent complexes dans les modèles concurrents, il parvient à offrir une performance accrue tout en nécessitant beaucoup moins de données d’entraînement. Ce modèle est capable de suivre des points avec une précision améliorée, même lorsqu’ils sont temporairement occlus ou sortent du champ de vision.

Mise à l’échelle et résultats

CoTracker3 se distingue également par sa capacité à bénéficier d’une mise à l’échelle, aussi bien en mode en ligne qu’hors ligne. Son efficacité dans le suivi de points, même sur des périodes prolongées et dans des conditions difficiles, en fait une solution performante sur des benchmarks standards. Bien que certains cas spécifiques, comme le suivi sur des surfaces sans caractéristiques distinctes (par exemple, un ciel dégagé), restent des défis, le modèle surpasse globalement ses prédécesseurs tels que LocoTrack et BootsTAPIR.

Pour les chercheurs, il démontre la puissance d’un protocole d’entraînement semi-supervisé simple, où des vidéos réelles sont annotées en utilisant plusieurs modèles de suivi disponibles sur le marché, puis utilisées pour affiner un modèle qui surpasse tous les enseignants. Cette approche lui permet de surpasser les modèles entraînés sur 1 000 fois plus de vidéos. En suivant les points conjointement, CoTracker3 gère les occlusions mieux que tout autre modèle, particulièrement en mode hors ligne, comme on peut le voir dans la vidéo ci-dessous.

Il pourrait, selon eux, servir de bloc de construction pour des tâches nécessitant une estimation de mouvement, telles que le suivi 3D, la génération de vidéos contrôlées ou la reconstruction 3D dynamique.

Retrouver son référentiel GitHub ici, la démo sur Hugging Face ici. CoTracker3 et les ressources associées sont mis à disposition sous une licence A-NC afin de faciliter la poursuite des recherches.

Références de l’article :

“COTRACKER3: SIMPLER AND BETTER POINT
TRACKING BY PSEUDO-LABELLING REAL VIDEOS”arXiv:2410.11831v1 [cs.CV] 15 Oct 2024

Auteurs et affiliations :

Nikita Karaev^1,2,Iurii Makarov¹,Jianyuan Wang^1,2,Natalia Neverova¹,Andrea Vedaldi¹,Christian Rupprecht²
^{1 Meta AI, ²Groupe de géométrie visuelle, Université d’Oxford}

Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles

ActuIA
Meta dévoile Movie Gen, son dernier modèle Text-to-Video
Meta s’est intéressé très tôt à la génération de vidéos : dès 2022, il présentait Make-a Video, un système d’IA générant des vidéos de quelques secondes à partir d’invites textuelles basé notamment sur Make-A-Scene. Il s’appuie sur ces recherches pour Movie Gen, une nouvelle suite de modèles pouvant générer une vidéo à partir d’une invite textuelle, ajouter de la musique ou des effets sonores à une vidéo générée ou existante, ainsi que de produire une vidéo personnalisée à partir d’une photo et

Meta dévoile Movie Gen, son dernier modèle Text-to-Video

ActuIA

Par : Marie-Claude Benoit

7 octobre 2024 à 11:15

Meta s’est intéressé très tôt à la génération de vidéos : dès 2022, il présentait Make-a Video, un système d’IA générant des vidéos de quelques secondes à partir d’invites textuelles basé notamment sur Make-A-Scene. Il s’appuie sur ces recherches pour Movie Gen, une nouvelle suite de modèles pouvant générer une vidéo à partir d’une invite textuelle, ajouter de la musique ou des effets sonores à une vidéo générée ou existante, ainsi que de produire une vidéo personnalisée à partir d’une photo et d’une invite.

Movie Gen repose sur deux modèles de fondation, qui tirent parti des avancées des modèles de diffusion et des modèles Llama Image, pour offrir des capacités accrues de génération et d’édition multimodale :

Movie Gen Video : ce modèle de 30 milliards de paramètres peut produire des vidéos HD de 1080 pixels, allant jusqu’à 16 secondes, à une vitesse de 16 images par seconde, à partir de prompts textuels. Il est capable de générer des vidéos dans plusieurs formats et résolutions, en ayant été pré-entraîné sur un vaste ensemble de vidéos et d’images, ce qui lui permet d’apprendre la dynamique visuelle, les mouvements d’objets, les interactions et la physique.
Movie Gen Audio : un modèle de 13 milliards de paramètres dédié à la génération d’effets sonores et de musique synchronisés avec les vidéos, à une qualité de 48kHz. Ce modèle peut générer des sons cinématiques adaptés à l’atmosphère visuelle, et est capable de produire à la fois des effets sonores diégétiques (liés aux actions visibles) et non-diégétiques (comme la musique d’ambiance), synchronisés au contenu vidéo.

En plus de leurs capacités de génération, les modèles ont été enrichis de fonctionnalités de personnalisation et d’édition. Cependant, la génération de voix n’est pas encore prise en charge. Selon Meta, Movie Gen Video a été entraîné sur un ensemble de “données sous licence et accessibles au public”.

La personnalisation permet de générer des vidéos mettant en scène une personne à partir d’une photo et d’un texte. La vidéo personnalisée préserve l’identité de la personne tout en suivant l’invite textuelle. Pour entraîner le modèle, un sous-ensemble de vidéos avec des humains est utilisé pour créer automatiquement des paires d’entrées (image, texte) et de sorties vidéo.

L’édition permet aux utilisateurs d’apporter des modifications à des vidéos réelles et générées en utilisant des instructions textuelles. Le modèle peut ajouter, supprimer ou remplacer des éléments spécifiques, ainsi que réaliser des changements globaux comme la modification de l’arrière-plan ou du style. Contrairement aux outils traditionnels qui nécessitent des compétences spécialisées ou aux outils génératifs qui manquent de précision, Movie Gen conserve le contenu original, ne modifiant que les pixels pertinents.

On peut retrouver d’autres exemples de vidéos générées par Movie Gen dans la vidéo ci-dessous.

Performances et limitations

Selon les évaluations humaines présentées par Meta, Movie Gen arrive devant ses concurrents de pointe : Sora d’OpenAI, Runway Gen3 et le modèle chinois Kling de Kuaishou.

Cependant, Meta n’entend pas publier Movie Gen dans l’état, il le présente comme un projet de recherche et lui a d’ailleurs consacré un article.

Les auteurs déclarent :

“Bien que la recherche que nous partageons aujourd’hui montre un potentiel immense pour les futures applications, nous reconnaissons que nos modèles actuels ont des limitations. Notamment, de nombreuses optimisations peuvent encore être faites pour réduire davantage le temps d’inférence et améliorer la qualité des modèles en les faisant évoluer davantage”.

Movie Gen est avant tout pour Meta “un outil d’amélioration de la créativité”, il entend collaborer activement avec les créateurs et les professionnels du secteur pour affiner les modèles et les rendre encore plus performants avant un potentiel déploiement à grande échelle.

Meta dévoile Movie Gen, son dernier modèle Text-to-Video

ActuIA
RunwayML présente Gen-3 Alpha, son dernier modèle de fondation pour la génération de vidéos
RunwayML, pionnier dans les outils de création multimédia alimentés par l’IA, a récemment annoncé la prochaine sortie de Gen-3 Alpha. Ce modèle de fondation, offrant des améliorations majeures en termes de fidélité, de cohérence et de mouvement par rapport à son prédécesseur, Gen-2, est présenté par la start-up comme le premier d’une série de modèles entraînés sur une nouvelle infrastructure conçue pour l’entraînement multimodal à grande échelle. Gen-3 Alpha, dont le prédécesseur a été lancé en

RunwayML présente Gen-3 Alpha, son dernier modèle de fondation pour la génération de vidéos

ActuIA

Par : Thomas Calvi

25 juin 2024 à 12:30

RunwayML, pionnier dans les outils de création multimédia alimentés par l’IA, a récemment annoncé la prochaine sortie de Gen-3 Alpha. Ce modèle de fondation, offrant des améliorations majeures en termes de fidélité, de cohérence et de mouvement par rapport à son prédécesseur, Gen-2, est présenté par la start-up comme le premier d’une série de modèles entraînés sur une nouvelle infrastructure conçue pour l’entraînement multimodal à grande échelle.

Gen-3 Alpha, dont le prédécesseur a été lancé en juin 2023, a été entraîné conjointement sur des vidéos et des images. Il alimentera, selon Runway, ses outils Text-to-Video, Image-to-Video et Text-to-Image, les modes de contrôle existants tels que Motion Brush, les commandes avancées de la caméra, le mode réalisateur ainsi que les outils à venir pour un contrôle plus précis de la structure, du style et du mouvement.

Une étape vers la construction de modèles généraux du monde

Gen-3 Alpha est, selon la start-up, une avancée vers ce qu’elle appelle un “General World Model”, un système d’IA qui construit une représentation interne d’un environnement et l’utilise pour simuler des événements futurs dans cet environnement. Un tel modèle sera capable de représenter et de simuler un large éventail de situations et d’interactions, comme celles rencontrées dans le monde réel.

Il devra non seulement capturer la dynamique du monde, mais aussi la dynamique de ses habitants, ce qui implique également de construire des modèles réalistes du comportement humain.

L’entraînement de Gen-3 Alpha est le fruit d’une collaboration entre une équipe interdisciplinaire de chercheurs, d’ingénieurs et d’artistes.

Gen-3 Alpha permet la génération de vidéos de 5 à 10 secondes basées sur des invites créatives complexes, comme celles-ci :

Reflets subtils d’une femme sur la fenêtre d’un train roulant à grande vitesse dans une ville japonaise ;
Travelling à l’épaule la nuit, suivant un ballon bleu sale flottant au-dessus du sol dans une vieille rue européenne abandonnée.

Il a été entraîné avec des légendes très descriptives et temporellement denses, ce qui lui permet de passer d’une scène à une autre de manière créative et fluide, tout en maintenant une narration cohérente par rapport à l’invite. Le modèle est également très bon dans la génération de personnages humains photoréalistes, expressifs et dotés d’un large éventail d’actions, de gestes et d’émotions, offrant ainsi des opportunités pour la narration immersive.

Sécurité et intégrité du contenu généré renforcées

Runway a intégré des mesures de protection robustes dans Gen-3 Alpha. La start-up a amélioré son système de modération visuelle interne pour surveiller et filtrer le contenu généré, afin de s’assurer qu’il respecte les normes éthiques et ne contienne pas de matériel inapproprié ou offensant. Elle a également adopté les normes C2PA (Coalition for Content Provenance and Authenticity) qui attestent de l’origine et de l’authenticité d’un contenu.

Des modèles Gen-3 personnalisés

Runway dit avoir établi des partenariats avec des organisations de divertissement et de médias de premier plan pour créer des versions personnalisées de Gen-3 Alpha, qui permettent d’obtenir des personnages plus cohérents et plus contrôlés sur le plan stylistique, et ciblent des exigences artistiques et narratives spécifiques, entre autres fonctionnalités.

La start-up n’a toutefois pas précisé la date de sortie du modèle.

Vue normale