Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Quand les IA miment l’activité cérébrale

Grâce à la technique de l’apprentissage autosupervisé, les réseaux de neurones artificiels sont désormais capables d’identifier par eux-mêmes ce qui est important. Une performance qui pourrait être à la base du succès de notre propre cerveau.

Consultable à Strasbourg
https://www.mediatheques.strasbourg.eu/Default/doc/IGUANA_2/304409/pour-la-science-dossier-pour-la-science-supplement
https://liens.azqs.com/filoumascarade/?searchtags=cerveau
(Permalink)
  • ✇ActuIA
  • Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles
    Dans le domaine de la vision par ordinateur, le suivi précis de points dans des vidéos reste une tâche complexe, notamment en raison de la difficulté d’annoter des vidéos réelles. Les modèles traditionnels s’appuient souvent sur des données synthétiques, ce qui limite leur performance dans des environnements non contrôlés. Pour pallier cette lacune, une équipe de chercheurs de l’Université d’Oxford et de Meta AI a développé CoTracker3, un nouveau modèle de suivi de points qui intègre une méthode

Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles

21 octobre 2024 à 14:00

Dans le domaine de la vision par ordinateur, le suivi précis de points dans des vidéos reste une tâche complexe, notamment en raison de la difficulté d’annoter des vidéos réelles. Les modèles traditionnels s’appuient souvent sur des données synthétiques, ce qui limite leur performance dans des environnements non contrôlés. Pour pallier cette lacune, une équipe de chercheurs de l’Université d’Oxford et de Meta AI a développé CoTracker3, un nouveau modèle de suivi de points qui intègre une méthode d’entraînement semi-supervisé innovante.

Le suivi de points est crucial pour des tâches telles que la reconstruction 3D, le montage vidéo, où il est nécessaire de suivre précisément les correspondances dans une séquence d’images, il est également utilisé dans d’autres domaines comme la réalité augmentée ou la robotique. Des modèles récents comme PIPs, TAP-Vid, TAPIR et CoTracker utilisent des réseaux de neurones transformateurs pour améliorer le suivi de points, notamment dans des cas complexes comme les occlusions et les mouvements rapides. Cependant, la disponibilité de données d’entraînement de haute qualité est cruciale pour tirer pleinement parti de ces réseaux neuronaux.

Or, l’annotation manuelle de points spécifiques dans une vidéo pour créer des ensembles de données d’entraînement est souvent longue et coûteuse, nécessitant une attention minutieuse et une expertise humaine. Si les vidéos synthétiques, qui peuvent être annotées automatiquement, sont une alternative efficace pour les tâches de bas niveau,  l’écart entre les données synthétiques et réelles (le “sim-to-real gap”) reste une limitation notable, particulièrement pour des tâches plus complexes. D’autre part, constituer une collection diversifiée de vidéos synthétiques à grande échelle représente un coût élevé. Par conséquent, l’entraînement des modèles de suivi de points à l’aide de vidéos réelles reste une option intéressante.

L’apport du pseudo-étiquetage

Contrairement aux modèles traditionnels, CoTracker3 exploite ainsi des pseudo-étiquettes générées à partir de vidéos réelles, produites par d’autres modèles préalablement entraînés sur des données synthétiques. Ce processus permet de contourner l’écart statistique entre les données synthétiques et réelles, en utilisant les vidéos réelles comme source d’entraînement, sans nécessiter une annotation humaine laborieuse.

Simplicité et performance accrue

L’une des principales caractéristiques de CoTracker3 est la simplification de son architecture. Il emprunte des éléments aux modèles précédents, y compris les mises à jour itératives et les caractéristiques convolutionnelles de PIPs, l’attention inter-piste pour le suivi conjoint, les pistes virtuelles pour l’efficacité, et l’entraînement déroulé pour une opération par fenêtre de CoTracker, ainsi que la corrélation 4D de LocoTrack. En même temps, il simplifie considérablement certains de ces composants et en élimine d’autres, comme l’étape de correspondance globale de BootsTAPIR et LocoTrack.

En réduisant le nombre de composants souvent complexes dans les modèles concurrents, il parvient à offrir une performance accrue tout en nécessitant beaucoup moins de données d’entraînement. Ce modèle est capable de suivre des points avec une précision améliorée, même lorsqu’ils sont temporairement occlus ou sortent du champ de vision.

Mise à l’échelle et résultats

CoTracker3 se distingue également par sa capacité à bénéficier d’une mise à l’échelle, aussi bien en mode en ligne qu’hors ligne. Son efficacité dans le suivi de points, même sur des périodes prolongées et dans des conditions difficiles, en fait une solution performante sur des benchmarks standards. Bien que certains cas spécifiques, comme le suivi sur des surfaces sans caractéristiques distinctes (par exemple, un ciel dégagé), restent des défis, le modèle surpasse globalement ses prédécesseurs tels que LocoTrack et BootsTAPIR.

Pour les chercheurs, il démontre la puissance d’un protocole d’entraînement semi-supervisé simple, où des vidéos réelles sont annotées en utilisant plusieurs modèles de suivi disponibles sur le marché, puis utilisées pour affiner un modèle qui surpasse tous les enseignants. Cette approche lui permet de surpasser les modèles entraînés sur 1 000 fois plus de vidéos. En suivant les points conjointement, CoTracker3 gère les occlusions mieux que tout autre modèle, particulièrement en mode hors ligne, comme on peut le voir dans la vidéo ci-dessous.

Il pourrait, selon eux, servir de bloc de construction pour des tâches nécessitant une estimation de mouvement, telles que le suivi 3D, la génération de vidéos contrôlées ou la reconstruction 3D dynamique.

Retrouver son référentiel GitHub ici, la démo sur Hugging Face ici. CoTracker3 et les ressources associées sont mis à disposition sous une licence A-NC afin de faciliter la poursuite des recherches.

Références de l’article :

COTRACKER3: SIMPLER AND BETTER POINT
TRACKING BY PSEUDO-LABELLING REAL VIDEOS”arXiv:2410.11831v1 [cs.CV] 15 Oct 2024

Auteurs et affiliations :

Nikita Karaev1,2,Iurii Makarov1,Jianyuan Wang1,2,Natalia Neverova1,Andrea Vedaldi1,Christian Rupprecht2
1 Meta AI, 2Groupe de géométrie visuelle, Université d’Oxford

Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles
  • ✇ActuIA
  • V-JEPA, le modèle de Meta qui se rapproche de l’intelligence humaine et de la vision de Yann LeCun
    Lorsqu’ils avaient présenté I-JEPA en juin dernier, les chercheurs de Meta avaient déclaré appliquer prochainement leur approche à la vidéo. C’est chose faite : Meta vient de publier V-JEPA (Video Joint Embedding Predictive Architecture), un modèle non génératif qui prédit les parties manquantes d’une vidéo grâce à l’apprentissage auto-supervisé. V-JEPA a été publié sous une licence Creative Commons Non Commercial pour que d’autres chercheurs puissent l’explorer et le développer. En 2022, Yann L

V-JEPA, le modèle de Meta qui se rapproche de l’intelligence humaine et de la vision de Yann LeCun

19 février 2024 à 14:00

Lorsqu’ils avaient présenté I-JEPA en juin dernier, les chercheurs de Meta avaient déclaré appliquer prochainement leur approche à la vidéo. C’est chose faite : Meta vient de publier V-JEPA (Video Joint Embedding Predictive Architecture), un modèle non génératif qui prédit les parties manquantes d’une vidéo grâce à l’apprentissage auto-supervisé. V-JEPA a été publié sous une licence Creative Commons Non Commercial pour que d’autres chercheurs puissent l’explorer et le développer.

En 2022, Yann LeCun avait partagé Joint-Embedding Predictive Architecture (JEPA), l’architecture sur laquelle ont été construits I-JEPA en 2023 et V-JEPA qui vient d’être publié.

Pour lui :

“Les animaux humains et non humains semblent capables d’acquérir d’énormes quantités de connaissances de base sur la façon dont le monde fonctionne grâce à l’observation et à travers une quantité incompréhensible d’interactions d’une manière indépendante des tâches et non supervisée. On peut émettre l’hypothèse que ces connaissances accumulées peuvent constituer la base de ce que l’on appelle souvent le bon sens.”

Ajoutant :

“Et le bon sens peut être vu comme une collection de modèles du monde qui peuvent guider sur ce qui est probable, ce qui est plausible et ce qui est impossible”.

Selon lui, pour construire une IA de niveau humain, les systèmes doivent apprendre des “modèles mondiaux”. Dans son blog “V-JEPA: The next step toward Yann LeCun’s vision of advanced machine intelligence (AMI)”, Meta explique :

“En tant qu’êtres humains, une grande partie de ce que nous apprenons sur le monde qui nous entoure, en particulier dans nos premières étapes de vie, est obtenue par l’observation. Prenons la troisième loi de Newton : même un nourrisson (ou un chat) peut intuitivement, après avoir renversé plusieurs objets d’une table et observé les résultats, comprendre que ce qui monte doit redescendre. Vous n’avez pas besoin de passer des heures à être instruit ou à lire des milliers de livres pour arriver à ce résultat”.

V-JEPA, un modèle non génératif

Les architectures génératives apprennent en supprimant ou en déformant des parties de l’entrée du modèle, par exemple, en effaçant une partie d’une photo ou en masquant certains mots dans un passage de texte. Elles essaient ensuite de prédire les pixels ou les mots manquants.

V-JEPA n’essaie pas de combler les pixels manquants dans une vidéo. Pré-entraîné sur 2 millions de vidéos collectées à partir de jeux de données publics, il apprend à prédire les parties manquantes ou masquées d’une vidéo dans un espace de représentation abstrait, sans utiliser de données étiquetées.

Son approche non générative lui confère une grande flexibilité, lui permettant d’ignorer les informations imprévisibles et de se concentrer sur ce qui est essentiel. “Après tout, si une vidéo montre un arbre, vous n’êtes probablement pas préoccupé par les mouvements minimes de chaque feuille individuelle”, souligne Meta.

De plus, sa capacité à fonctionner avec un minimum de données étiquetées après le pré-entraînement pour une tâche spécifique en fait un outil extrêmement efficace pour l’apprentissage et l’adaptation à de nouveaux domaines et tâches.

 V-JEPA entraîne un encodeur visuel en prédisant des régions spatio-temporelles masquées dans un espace latent appris. Contrairement aux méthodes génératives qui ont un décodeur de pixels, V-JEPA a un prédicteur qui fait des prédictions dans cet espace latent.

L’équipe a utilisé une approche où elle masquait des parties de la vidéo à la fois dans l’espace et dans le temps, ce qui force le modèle à apprendre et à développer une compréhension de la scène.

V-JEPA peut être adapté à différentes tâches en aval, comme la classification d’actions, la reconnaissance d’interactions fines entre objets, et la localisation d’activités. L’équipe de Meta envisage d’améliorer V-JEPA en intégrant l’audio, en augmentant l’horizon temporel des prédictions, et en utilisant le modèle pour la planification et la prise de décision séquentielle. L’objectif est de construire une intelligence artificielle plus ancrée dans le monde physique et capable d’apprendre comme les humains.

Yann LeCun conclut :

“V-JEPA est un pas vers une compréhension plus approfondie du monde afin que les machines puissent atteindre un raisonnement et une planification plus généralisés. Notre objectif est de construire une intelligence artificielle avancée qui peut apprendre davantage comme le font les humains, en formant des modèles internes du monde qui les entoure pour apprendre, s’adapter et élaborer des plans efficacement dans le but de réaliser des tâches complexes”.

Meta-vjepa
❌
❌