OpenAI continue d’étendre sa présence en Europe. Après Londres, Paris, Bruxelles et Dublin, la société va ouvrir un bureau en Suisse à Zurich, qui se concentrera notamment sur l’IA multimodale. Trois experts de renom dans ce domaine venant de Google DeepMind : Lucas Beyer, Alexander Kolesnikov et Xiaohua Zhai, feront partie de l’équipe de recherche.
Selon Mark Chen, Vice-président Senior de la recherche chez OpenAI, Zurich s’impose comme un pôle technologique de premier plan en Europe. Comme
OpenAI continue d’étendre sa présence en Europe. Après Londres, Paris, Bruxelles et Dublin, la société va ouvrir un bureau en Suisse à Zurich, qui se concentrera notamment sur l’IA multimodale. Trois experts de renom dans ce domaine venant de Google DeepMind : Lucas Beyer, Alexander Kolesnikov et Xiaohua Zhai, feront partie de l’équipe de recherche.
Selon Mark Chen, Vice-président Senior de la recherche chez OpenAI, Zurich s’impose comme un pôle technologique de premier plan en Europe. Comme son concurrent Google DeepMind, la société a fait le choix de s’y installer, mais a de plus recruté trois de ses meilleurs chercheurs en vision par ordinateur et en apprentissage automatique pour diriger cette nouvelle filiale.
Lucas Beyer, spécialiste des cadres d’apprentissage automatique pour les systèmes d’IA multimodale, Alexander Kolesnikov, expert en reconnaissance visuelle et analyse via l’apprentissage profond, et Xiaohua Zhai, expert en apprentissage multimodal et vision par ordinateur, apporteront leur expertise pour renforcer les capacités de recherche d’OpenAI.
Ces chercheurs de haut niveau, qui ont réalisé individuellement des percées significatives, travaillaient depuis six ans en étroite collaboration au sein de Google DeepMind. Ils ont notamment contribué au développement de technologies comme le Vision Transformer (ViT), un cadre révolutionnaire dans la vision par ordinateur et à celui des modèles Open Weights Vision (SigLIP) et multimodaux (PaliGemma).
Mark Chen a commenté ces recrutements :
“Nous sommes ravis d’accueillir Lucas, Alexander et Xiaohua chez OpenAI. Leur expertise et leurs travaux novateurs en IA multimodale sont reconnus dans toute l’industrie et seront cruciaux alors que nous continuons à développer des technologies capables d’apprendre et d’interagir avec le monde de manière de plus en plus complexe”.
OpenAI renforce son équipe de recherche multimodale pour ouvrir un bureau à Zurich
Dans le domaine de la vision par ordinateur, le suivi précis de points dans des vidéos reste une tâche complexe, notamment en raison de la difficulté d’annoter des vidéos réelles. Les modèles traditionnels s’appuient souvent sur des données synthétiques, ce qui limite leur performance dans des environnements non contrôlés. Pour pallier cette lacune, une équipe de chercheurs de l’Université d’Oxford et de Meta AI a développé CoTracker3, un nouveau modèle de suivi de points qui intègre une méthode
Dans le domaine de la vision par ordinateur, le suivi précis de points dans des vidéos reste une tâche complexe, notamment en raison de la difficulté d’annoter des vidéos réelles. Les modèles traditionnels s’appuient souvent sur des données synthétiques, ce qui limite leur performance dans des environnements non contrôlés. Pour pallier cette lacune, une équipe de chercheurs de l’Université d’Oxford et de Meta AI a développé CoTracker3, un nouveau modèle de suivi de points qui intègre une méthode d’entraînement semi-supervisé innovante.
Le suivi de points est crucial pour des tâches telles que la reconstruction 3D, le montage vidéo, où il est nécessaire de suivre précisément les correspondances dans une séquence d’images, il est également utilisé dans d’autres domaines comme la réalité augmentée ou la robotique. Des modèles récents comme PIPs, TAP-Vid, TAPIR et CoTracker utilisent des réseaux de neurones transformateurs pour améliorer le suivi de points, notamment dans des cas complexes comme les occlusions et les mouvements rapides. Cependant, la disponibilité de données d’entraînement de haute qualité est cruciale pour tirer pleinement parti de ces réseaux neuronaux.
Or, l’annotation manuelle de points spécifiques dans une vidéo pour créer des ensembles de données d’entraînement est souvent longue et coûteuse, nécessitant une attention minutieuse et une expertise humaine. Si les vidéos synthétiques, qui peuvent être annotées automatiquement, sont une alternative efficace pour les tâches de bas niveau, l’écart entre les données synthétiques et réelles (le “sim-to-real gap”) reste une limitation notable, particulièrement pour des tâches plus complexes. D’autre part, constituer une collection diversifiée de vidéos synthétiques à grande échelle représente un coût élevé. Par conséquent, l’entraînement des modèles de suivi de points à l’aide de vidéos réelles reste une option intéressante.
L’apport du pseudo-étiquetage
Contrairement aux modèles traditionnels, CoTracker3 exploite ainsi des pseudo-étiquettes générées à partir de vidéos réelles, produites par d’autres modèles préalablement entraînés sur des données synthétiques. Ce processus permet de contourner l’écart statistique entre les données synthétiques et réelles, en utilisant les vidéos réelles comme source d’entraînement, sans nécessiter une annotation humaine laborieuse.
Simplicité et performance accrue
L’une des principales caractéristiques de CoTracker3 est la simplification de son architecture. Il emprunte des éléments aux modèles précédents, y compris les mises à jour itératives et les caractéristiques convolutionnelles de PIPs, l’attention inter-piste pour le suivi conjoint, les pistes virtuelles pour l’efficacité, et l’entraînement déroulé pour une opération par fenêtre de CoTracker, ainsi que la corrélation 4D de LocoTrack. En même temps, il simplifie considérablement certains de ces composants et en élimine d’autres, comme l’étape de correspondance globale de BootsTAPIR et LocoTrack.
En réduisant le nombre de composants souvent complexes dans les modèles concurrents, il parvient à offrir une performance accrue tout en nécessitant beaucoup moins de données d’entraînement. Ce modèle est capable de suivre des points avec une précision améliorée, même lorsqu’ils sont temporairement occlus ou sortent du champ de vision.
Mise à l’échelle et résultats
CoTracker3 se distingue également par sa capacité à bénéficier d’une mise à l’échelle, aussi bien en mode en ligne qu’hors ligne. Son efficacité dans le suivi de points, même sur des périodes prolongées et dans des conditions difficiles, en fait une solution performante sur des benchmarks standards. Bien que certains cas spécifiques, comme le suivi sur des surfaces sans caractéristiques distinctes (par exemple, un ciel dégagé), restent des défis, le modèle surpasse globalement ses prédécesseurs tels que LocoTrack et BootsTAPIR.
Pour les chercheurs, il démontre la puissance d’un protocole d’entraînement semi-supervisé simple, où des vidéos réelles sont annotées en utilisant plusieurs modèles de suivi disponibles sur le marché, puis utilisées pour affiner un modèle qui surpasse tous les enseignants. Cette approche lui permet de surpasser les modèles entraînés sur 1 000 fois plus de vidéos. En suivant les points conjointement, CoTracker3 gère les occlusions mieux que tout autre modèle, particulièrement en mode hors ligne, comme on peut le voir dans la vidéo ci-dessous.
Il pourrait, selon eux, servir de bloc de construction pour des tâches nécessitant une estimation de mouvement, telles que le suivi 3D, la génération de vidéos contrôlées ou la reconstruction 3D dynamique.
Retrouver son référentiel GitHub ici, la démo sur Hugging Face ici. CoTracker3 et les ressources associées sont mis à disposition sous une licence A-NC afin de faciliter la poursuite des recherches.
Références de l’article :
“COTRACKER3: SIMPLER AND BETTER POINT TRACKING BY PSEUDO-LABELLING REAL VIDEOS”arXiv:2410.11831v1 [cs.CV] 15 Oct 2024
Auteurs et affiliations :
Nikita Karaev1,2,Iurii Makarov1,Jianyuan Wang1,2,Natalia Neverova1,Andrea Vedaldi1,Christian Rupprecht2 1 Meta AI, 2Groupe de géométrie visuelle, Université d’Oxford
Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles
Picsellia, start-up française spécialisée dans le domaine de l’IA et de la vision par ordinateur annonce un plan de recrutements visant à doubler ses effectifs à Paris et Toulouse. L’entreprise prépare également pour la fin de l’année une levée de fonds de 5 à 10 millions d’euros qui lui permettra de poursuivre son ambition : s’étendre à l’international et devenir la norme pour le développement de la vision par ordinateur, tout en capitalisant sur l’écosystème technologique français et européen
Picsellia, start-up française spécialisée dans le domaine de l’IA et de la vision par ordinateur annonce un plan de recrutements visant à doubler ses effectifs à Paris et Toulouse. L’entreprise prépare également pour la fin de l’année une levée de fonds de 5 à 10 millions d’euros qui lui permettra de poursuivre son ambition : s’étendre à l’international et devenir la norme pour le développement de la vision par ordinateur, tout en capitalisant sur l’écosystème technologique français et européen en matière de données et de puissance de calcul.
Fondée en 2020 par Thibaut Lucas (CEO) et Pierre-Nicolas Tiffreau (CTO), Picsellia a développé une plateforme qui permet aux équipes de data science et de développement d’IA de gérer le cycle de vie complet de leurs modèles d’IA, depuis l’annotation des données jusqu’à la mise en production, tout en facilitant la collaboration et le suivi des performances.
Conçue avec une approche de véritable “chef d’orchestre” pour l’IA Vision, la plateforme CVOps (qui combine MLOps et Computer Vision) met à disposition tous les outils dédiés à la création de modèles de Computer Vision tout en se connectant aux outils existant des clients, garantissant ainsi une couverture de l’ensemble du cycle de vie des applications. Ces solutions sont déployées dans des secteurs clés tels que les Smart Cities, les infrastructures énergétiques, l’agriculture de précision, la défense et l’écologie.
Thibaut Lucas, co-fondateur et PDG de Picsellia, commente :
“La France se distingue dans le domaine de la recherche en intelligence artificielle, mais doit s’imposer dans les applications de l’IA, notamment la vision par ordinateur. Nous souhaitons que la France exploite réellement son écosystème technologique pour se positionner en leader de ce secteur crucial et établisse un standard de développement qui régira et maximisera le déploiement de cette technologie prometteuse. C’est notre mission chez Picsellia, en faisant de la vision par ordinateur et du MLOps des priorités stratégiques”.
Recrutements en cours pour soutenir la croissance
Pour accompagner son développement, la startup recrute 15 personnes à Paris et Toulouse pour renforcer ses effectifs techniques commerciaux et créer des fonctions supports, aujourd’hui assurées par les fondateurs de la société :
Ingénieurs Logiciel Back-end senior
Développeur Front-end junior
Ingénieur DevOps
Solution Engineer
Product Manager
Sales Development representative Anglophone
Marketing Associate Anglophone
Designer
Contrôleur de gestion
Assistant administratif
Directeur RH (head of staff)
Un pôle de recherche en IA et Computer Vision
Le développement rapide de l’IA générative offre de nouvelles opportunités de recherche pour optimiser les méthodes de création d’IA dédiées à l’analyse d’images. Picsellia, qui entend se positionner comme un acteur majeur des applications GenAI industrielles pour l’analyse d’image, a décidé de créer un centre de recherche et recrute pour celui-ci :
Data Scientist
Computer Vision Engineer
Chercheur en IA
Doctorant CIFFRE IA
Si vous êtes intéressé par l’un de ces postes, vous pouvez postuler ici.
Ce 1er octobre, le projet DATAWISE (Data Annotation Technology Advancement With Innovative Solutions for Efficiency), lauréat de l’AAP R&D Booster de la région AURA (Auvergne-Rhône-Alpes), est officiellement lancé. Porté par Neovision, en collaboration avec le laboratoire LIRIS (Laboratoire d’Informatique en Images et Systèmes d’Information), ce projet a pour objectif automatiser l’annotation des données, étape cruciale pour l’entraînement des modèles d’IA en vision par ordinateur.
Datawise
Ce 1er octobre, le projet DATAWISE (Data Annotation Technology Advancement With Innovative Solutions for Efficiency), lauréat de l’AAP R&D Booster de la région AURA (Auvergne-Rhône-Alpes), est officiellement lancé. Porté par Neovision, en collaboration avec le laboratoire LIRIS (Laboratoire d’Informatique en Images et Systèmes d’Information), ce projet a pour objectif automatiser l’annotation des données, étape cruciale pour l’entraînement des modèles d’IA en vision par ordinateur.
Datawise est l’un des projets labellisés par Minalogic, le pôle de compétitivité des technologies du numérique en Auvergne-Rhône-Alpes, retenus par le programme R&D Booster de la région AURA, dans la thématique “Intelligence Artificielle”. Ce dispositif vise à favoriser et soutenir des projets collaboratifs de R&D entre acteurs de la recherche académique et entreprises de la région pour concrétiser le développement de nouveaux produits, procédés ou services.
Ce projet d’automatisation d’annotation des données a été proposé par Neovision, une société grenobloise créée en 2014, experte en ML et computer vision, spécialisée dans le développement de solutions d’IA sur mesure et est mené en collaboration avec le LIRIS. Cette unité mixte de recherche (UMR 5205) du CNRS, de l’INSA de Lyon, de l’Université Claude Bernard Lyon 1, de l’Université Lumière Lyon 2 et de l’Ecole Centrale de Lyon, à laquelle nous avions consacré un article dans le n° 10 de notre magazine est largement reconnue pour ses travaux de pointe dans les domaines du traitement d’image, des systèmes d’information et des sciences des données.
Automatiser l’annotation des données : une réponse à un défi crucial
L’accès à de vastes volumes de données de qualité est essentiel pour le développement de modèles d’IA performants. Cependant, dans des domaines comme la vision par ordinateur, la préparation et l’annotation manuelles de ces données, fastidieuses et chronophages, représentent souvent un obstacle majeur.
Comme l’explique Stefan Duffner, chercheur au LIRIS,
“Cette préparation des données peut considérablement ralentir les cycles de développement des IAs et détourner les Data Scientists de leur cœur de métier : l’analyse et la valorisation des données”.
Ce partenariat allie l’innovation technologique du secteur privé aux dernières avancées académiques, créant une synergie propice à la création de solutions robustes et évolutives pour répondre aux besoins des secteurs industriels. Il permettra de développer des technologies capables d’automatiser non seulement l’annotation des données, mais également leur nettoyage, permettant ainsi d’accélérer le développement des modèles d’IA et d’en améliorer les performances tout en limitant les biais.
Lucas Nacsa, PDG et cofondateur de Neovision, explique :
“Les IA dédiées au traitement d’images sont souvent initialement entraînées sur des tâches simples, comme la reconnaissance de chiens ou de chats, avant de passer à des objets plus complexes. Cette méthode d’apprentissage limite parfois leurs performances. Notre ambition est de développer des modèles capables de s’entraîner directement sur des données industrielles complexes, sans nécessiter une préparation manuelle massive des données. Cela représente un bond en avant significatif en matière de performance et accélère considérablement le processus de création de solutions d’IA.”
Un partenariat stratégique
En automatisant l’annotation des données, DATAWISE ouvrira de nouvelles perspectives pour de nombreux secteurs industriels, en particulier ceux qui manipulent de grandes quantités de données visuelles. Les technologies développées dans le cadre de ce projet rendront les solutions d’IA plus accessibles et renforceront la compétitivité des entreprises, notamment en leur permettant d’exploiter des bases de données jusqu’ici sous-utilisées.
À terme, les partenaires envisagent l’intégration de grands modèles de langage (LLM) aux outils développés, afin d’améliorer l’ergonomie des solutions et ainsi encourager leur adoption par les entreprises.
L’an passé, Meta dévoilait Segment Anything (SAM), un modèle de vision par ordinateur conçu pour la segmentation d’objets dans les images. SAM 2, qui étend les capacités de son prédécesseur aux vidéos, est lui aussi publié sous une licence Apache 2.0, permettant à chacun de l’utiliser pour créer ses propres expériences. Meta partage également le dataset SA-V sous une licence CC BY 4.0 et publie une démo en ligne permettant de tester le modèle en action.
La segmentation d’objets, une tâche fondam
L’an passé, Meta dévoilait Segment Anything (SAM), un modèle de vision par ordinateur conçu pour la segmentation d’objets dans les images. SAM 2, qui étend les capacités de son prédécesseur aux vidéos, est lui aussi publié sous une licence Apache 2.0, permettant à chacun de l’utiliser pour créer ses propres expériences. Meta partage également le dataset SA-V sous une licence CC BY 4.0 et publie une démo en ligne permettant de tester le modèle en action.
La segmentation d’objets, une tâche fondamentale en vision par ordinateur consistant à identifier les pixels d’une image correspondant à un objet d’intérêt, est utilisée dans de nombreuses applications, de la retouche de photos à l’analyse de l’imagerie scientifique. SAM, publié l’année dernière, a établi un modèle de référence pour les images, SAM 2 permet désormais des expériences de segmentation en temps réel et une utilisation fluide dans les applications d’image et de vidéo.
Capacités et applications de SAM 2
SAM 2 dépasse les capacités des modèles précédents en termes de précision et de rapidité, tout en permettant la généralisation zero-shot, c’est-à-dire qu’il peut segmenter des objets dans des contenus visuels inédits sans adaptation personnalisée. Avant SAM, la création de modèles de segmentation précis pour des tâches spécifiques nécessitait généralement un travail hautement spécialisé de la part d’experts techniques ayant accès à une infrastructure d’entraînement à l’IA et à de grands volumes de données soigneusement annotées dans le domaine. Le modèle, en réduisant ces besoins, a transformé ce domaine, et SAM 2 promet d’ouvrir encore plus de possibilités.
Depuis son lancement, SAM a eu un impact significatif dans diverses disciplines, de l’application dans les sciences marines à l’analyse d’images satellites pour les secours en cas de catastrophe, en passant par la segmentation d’images médicales pour aider à détecter le cancer de la peau. SAM 2 peut être immédiatement appliqué à une large gamme de cas d’utilisation, tels que le suivi d’objets pour créer des effets vidéo ou la segmentation de cellules en mouvement dans des vidéos scientifiques.
Conformément à la vision de Mark Zuckerberg sur l’IA open source, SAM 2 pourrait considérablement augmenter la productivité, la créativité et la qualité de vie, tout en accélérant la croissance économique et les avancées scientifiques.
Développement et architecture de SAM 2
Méthodologie
Pour réussir la segmentation d’objets dans les vidéos, il est nécessaire de comprendre où se trouvent les entités dans l’espace et dans le temps. Les vidéos présentent des défis tels que le mouvement, la déformation, l’occlusion et les changements d’éclairage. SAM 2 relève ces défis en utilisant une architecture unifiée pour les images et les vidéos, ce qui introduit un mécanisme de mémoire pour rappeler les informations traitées précédemment et générer des prédictions de masques précises.
Tâche de segmentation visuelle incitative
SAM 2 prend en charge la sélection et l’affinage d’objets dans n’importe quelle image vidéo. Il est entraîné à utiliser des invites d’entrée pour définir le masque spatio-temporel (ou “masquelet”) à prédire. SAM 2 fait une prédiction immédiate du masque et le propage temporellement sur toutes les images vidéo. Ce processus peut être affiné itérativement avec des invites supplémentaires jusqu’à obtention du masquelet souhaité.
L’architecture de SAM 2 est une généralisation de SAM du domaine de l’image au domaine vidéo. Un mécanisme de mémoire composé d’un encodeur de mémoire, d’une banque de mémoire et d’un module d’attention de mémoire permet à SAM 2 de stocker des informations sur les objets segmentés et de générer des prédictions de masques tout au long de la vidéo.
Dataset SA-V
Collecte et annotations
Pour surmonter la disponibilité limitée des données annotées pour la segmentation vidéo, Meta a construit un moteur de données exploitant une configuration interactive de modèle en boucle avec des annotateurs humains. Ces derniers ont utilisé SAM 2 pour annoter des masques dans les vidéos, améliorant ainsi itérativement le modèle et l’ensemble de données.
Points forts de l’ensemble de données SA-V
Plus de 600 000 annotations de masques sur environ 51 000 vidéos ;
Vidéos couvrant des scénarios réels et géographiquement divers, collectées dans 47 pays ;
Annotations incluant des objets entiers, des parties d’objets et des cas d’occlusion.
Résultats et performances
SAM 2 surpasse les approches précédentes en matière de segmentation vidéo interactive, nécessitant environ trois fois moins d’interactions humaines et offrant une précision de segmentation supérieure. Il excelle également dans les tests de segmentation d’objets vidéo existants et permet une annotation de segmentation vidéo 8,4 fois plus rapide que l’annotation manuelle par image.
Limites et perspectives
Bien que SAM 2 démontre des performances solides, des améliorations peuvent encore être apportées, il lui arrive parfois de perdre la trace d’objets ou de les confondre avec des objets similaires. Même s’il est capable de segmenter plusieurs objets individuels simultanément, son efficacité dans ce cas de figure diminue alors considérablement. Le modèle est conçu pour être interactif, permettant des interventions manuelles pour récupérer des objets cibles en cas de perte de suivi.
Pour tester le modèle, retrouver la démonstration en ligne ici.
Segment Anything Model 2 le dernier modèle de vision par ordinateur de Meta étend les capacités de segmentation de SAM aux vidéos
Pure Storage, fournisseur de technologies et l’un des leaders des services de stockage de données, a annoncé récemment un investissement dans la start-up Landing AI, spécialisée dans les solutions de vision par ordinateur.
Fondée en 2009 par John “Coz” Colgrove et John Hayes, Pure Storage est réputée pour ses solutions de stockage de données flash qui optimisent les performances, la simplicité et l’efficacité du stockage pour les entreprises. Ses produits phares incluent FlashArray, une solutio
Pure Storage, fournisseur de technologies et l’un des leaders des services de stockage de données, a annoncé récemment un investissement dans la start-up Landing AI, spécialisée dans les solutions de vision par ordinateur.
Fondée en 2009 par John “Coz” Colgrove et John Hayes, Pure Storage est réputée pour ses solutions de stockage de données flash qui optimisent les performances, la simplicité et l’efficacité du stockage pour les entreprises. Ses produits phares incluent FlashArray, une solution de stockage all-flash pour les environnements de centres de données, FlashBlade, un système de stockage en mode fichier et objet conçu pour les charges de travail analytiques, l’IA et le big data et Pure1, une plateforme de gestion et d’analyse basée sur le cloud qui fournit des informations sur les performances et la gestion proactive des environnements de stockage Pure Storage.
Grâce à son programme Evergreen Storage, l’entreprise permet à ses clients de mettre à jour leur infrastructure de stockage sans interruption, évitant ainsi des migrations de données complexes et coûteuses.
Créée en 2017 par Andrew Ng, ancien Directeur scientifique spécialisé IA chez Baidu, fondateur de deeplearning.ai, cofondateur de Coursera et de Google Brain, Landing AI se spécialise dans les solutions d’IA visuelle, en particulier dans la création de LVM (Large Vision Models) spécifiques à un domaine. Ces LVM permettent aux entreprises de résoudre plus efficacement les problèmes de vision par ordinateur en utilisant des modèles entraînés sur leurs données d’images propriétaires. Ce qui représente une avancée significative par rapport aux approches traditionnelles qui nécessitent souvent l’étiquetage intensif de vastes bibliothèques d’images.
Les LVM de Landing AI sont conçus pour être déployés à la périphérie, sur site ou dans le cloud, offrant ainsi une flexibilité maximale aux entreprises dans divers secteurs.
Andrew Ng souligne :
“La révolution du modèle de grande vision des entreprises suit la révolution du modèle de langage large, mais avec une différence essentielle : alors que le texte Internet dont les LLM ont appris est suffisamment similaire à la plupart des textes d’entreprise pour que le modèle s’applique, de nombreuses entreprises de la fabrication, des sciences de la vie, des données géospatiales, de l’agriculture, de la vente au détail et d’autres secteurs ont des images propriétaires qui ne ressemblent en rien aux images Instagram typiques trouvées en ligne”.
Le partenariat Pure Storage – Landing AI
Les deux entreprises californiennes ont décidé de combiner leurs expertises pour répondre aux besoins croissants des entreprises en matière de données visuelles. Les solutions multimodales LVM de LandingAI joueront un rôle clé dans cette collaboration, offrant aux entreprises desservies par Pure Storage des outils puissants pour traiter et analyser des données visuelles complexes.
Andrew Ng déclare :
“Les entreprises auront besoin de solutions pour appliquer l’IA générative à leurs données, qui consisteront de plus en plus non seulement en texte, mais aussi en images et vidéos plus riches. Nous sommes ravis de nous associer à Pure Storage pour répondre à ce besoin des clients”.
Rob Lee, directeur technique de Pure Storage, ajoute :
“Nous sommes ravis d’investir dans Landing AI, une société dont l’affinité produit et les synergies avec les clients s’alignent étroitement sur celles de Pure. Nous pensons que notre partenariat stratégique avec l’équipe de Landing AI, y compris ses dirigeants pionniers Andrew Ng et Dan Maloney, conduira à des avancées significatives en matière d’IA/ML pour nos clients.”
Pure Storage et LandingAI un partenariat stratégique pour faire progresser les modèles de vision en entreprise
Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?
C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.
Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement
Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?
C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.
Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.
Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.
Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.
Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :
Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.
Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.
Vous devrez donc avoir Python 3.11, puis installez poetry :
brew install poetry
Ensuite, clonez le dépôt git et aller dans le dossier :
Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :
./run_ui.sh
Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.
En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :
curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
"url": "https://www.geico.com",
"webhook_callback_url": "",
"navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
"data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
"navigation_payload": "{Vos données ici}",
"proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks
Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.
FeatUp, c’est le nom de ce nouvel algorithme révolutionnaire développé par une équipe de chercheurs du MIT dont le but consiste à faire passer la vision par ordinateur à la vitesse supérieure en lui offrant une résolution digne d’un œil de lynx.
Comment ça marche ? En gros, FeatUp s’attaque au problème de la perte d’information qui se produit quand les algorithmes d’IA analysent une image. Normalement, ils la découpent en une grille de petits carrés de pixels qu’ils traitent par groupe. Rés
FeatUp, c’est le nom de ce nouvel algorithme révolutionnaire développé par une équipe de chercheurs du MIT dont le but consiste à faire passer la vision par ordinateur à la vitesse supérieure en lui offrant une résolution digne d’un œil de lynx.
Comment ça marche ? En gros, FeatUp s’attaque au problème de la perte d’information qui se produit quand les algorithmes d’IA analysent une image. Normalement, ils la découpent en une grille de petits carrés de pixels qu’ils traitent par groupe. Résultat, la résolution finale est bien plus faible que l’image de départ. Avec FeatUp, fini la myopie ! L’algo est capable de capter tous les détails, des plus évidents aux plus subtils.
La clé, c’est de faire légèrement bouger et pivoter les images pour voir comment l’IA réagit à ces micro-variations. En combinant des centaines de « cartes de caractéristiques » ainsi générées, on obtient un ensemble de données haute définition super précis. Un peu comme quand on crée un modèle 3D à partir de plusieurs images 2D sous différents angles.
Mais pour que ça turbine, il a fallu créer une nouvelle couche de réseau de neurones ultra-efficace, baptisée « suréchantillonnage bilatéral conjoint« . Grâce à elle, FeatUp améliore les performances d’un tas d’algos différents, de la segmentation sémantique à l’estimation de profondeur.
Les applications potentielles sont dingues : imaginez pouvoir repérer un minuscule panneau sur une autoroute encombrée pour une voiture autonome, ou localiser précisément une tumeur sur une radio des poumons. Avec sa capacité à transformer des suppositions vagues en détails précis, FeatUp pourrait rendre tous ces systèmes bien plus fiables et sûrs.
L’objectif des chercheurs, c’est que FeatUp devienne un outil fondamental du deep learning, pour enrichir les modèles sans sacrifier l’efficacité. Comme le résume Mark Hamilton, co-auteur de l’étude, l’enjeu est d’obtenir « le meilleur des deux mondes : des représentations très intelligentes avec la résolution de l’image d’origine« .
Bref, si FeatUp tient ses promesses, on n’a pas fini d’entendre parler de cette prouesse technologique qui pourrait donner un sacré coup de boost à l’IA visuelle puisqu’elle fournit des versions haute résolution d’analyses d’images qu’on pensait jusque-là limitées à la basse résolution. »
Une équipe de l’Université Mohamed bin Zayed d’intelligence artificielle (MBZUAI) a développé un système d’IA capable d’imiter le style d’écriture d’une personne à partir de quelques paragraphes d’écriture originale. Les chercheurs qui avaient partagé les premiers résultats de leurs recherches en 2021 lors de la Conférence internationale sur la vision par ordinateur (ICCV) ont récemment obtenu un brevet de l’Office des brevets et des marques des États-Unis pour cet outil.
L’équipe qui a présenté
Une équipe de l’Université Mohamed bin Zayed d’intelligence artificielle (MBZUAI) a développé un système d’IA capable d’imiter le style d’écriture d’une personne à partir de quelques paragraphes d’écriture originale. Les chercheurs qui avaient partagé les premiers résultats de leurs recherches en 2021 lors de la Conférence internationale sur la vision par ordinateur (ICCV) ont récemment obtenu un brevet de l’Office des brevets et des marques des États-Unis pour cet outil.
L’équipe qui a présenté “Handwriting Transformers” était composée du professeur adjoint de vision par ordinateur Rao Muhammad Anwer, du professeur agrégé d’informatique Vison Salman Khan, du directeur adjoint du département de vision par ordinateur et professeur de vision par ordinateur Fahad Shahbaz Khan, et d’Ankan Kumar Bhunia.
Des recherches antérieures s’appuyaient sur les réseaux antagonistes génératifs (GAN). Cependant, si ces approches permettent de capturer le style général d’un écrivain, par exemple, l’inclinaison de l’écriture ou la largeur des traits qui composent les lettres, elles rencontrent deux problèmes majeurs.
Tout d’abord, le lien entre le style et le contenu est faible, car ces caractéristiques sont traitées séparément et fusionnées, ce qui entraîne un manque d’enchevêtrement explicite au niveau du caractère. D’autre part, elles ne codent pas de manière explicite les modèles de style locaux, tels que le style de caractère et les ligatures, que l’on peut retrouver par exemple dans le mot cœur, ou la locution latine ex æquo.
Pour surmonter ces limitations, les chercheurs ont adopté une approche novatrice en utilisant des transformateurs de vision, des réseaux neuronaux conçus pour les tâches de vision par ordinateur.
Fahad Khan explique :
“Pour imiter le style d’écriture de quelqu’un, nous voulons regarder l’ensemble du texte, et ce n’est qu’alors que nous commencerons à comprendre comment l’écrivain a ligaturé les caractères, comment l’écrivain a relié les lettres ou les mots espacés. Toutes ces tâches nécessitent une sorte de champ réceptif global, ce qui n’est pas facile avec les réseaux de neurones convolutifs. Nous avons identifié cette lacune dans les méthodes existantes et avons adopté cette méthode basée sur des transformateurs”.
Les scientifiques ont comparé leur approche de génération d’images textuelles manuscrites, HWT (Handwriting Transformers) à deux autres technologies de génération d’écriture manuscrite. Ils ont demandé à 100 personnes d’évaluer le texte généré par les différents modèles à 100 personnes. Celles-ci ont préféré le HWT aux autres générateurs de texte dans 81 % des cas.
Une comparaison qualitative de HWT avec deux autres générateurs d’écriture manuscrite, GANwriting et Davis et al. Les trois générateurs ont reçu l’ordre de produire le même texte : « Deux personnes ne peuvent pas écrire exactement de la même manière, tout comme deux personnes ne peuvent pas avoir les mêmes empreintes digitales. » Les trois applications ont été entraînées sur des échantillons de texte manuscrit (colonne à l’extrême gauche) par six rédacteurs différents. Davis et al. capturent le style général d’un écrivain, par exemple l’inclinaison du texte, mais ont du mal à imiter les détails de style spécifiques au personnage. GANwriting est limité par la longueur des mots qu’il peut imiter et n’a pas été en mesure de compléter le contenu textuel fourni – par exemple, il a généré le mot « précis » au lieu de « précisément ». L’approche des chercheurs de MBZUAI imite mieux les modèles de style mondiaux et locaux, générant ainsi une écriture plus réaliste.
Ils leur ont également montré le texte d’origine et celui généré, les participants n’ont pu faire la distinction entre les deux, validant ainsi la performance du système d’IA.
Bien que cette avancée ouvre la voie à des applications prometteuses, les chercheurs sont conscients des implications éthiques liées à leur technologie et mettent en garde sur le danger potentiel de contrefaçons et d’autres abus. Ils soulignent la nécessité de prendre des mesures afin de les contrer dans le cadre d’un déploiement responsable.
Rao Muhammad Anwer déclare :
“Nous sommes très prudents à ce sujet car il pourrait être utilisé à mauvais escient. L’écriture manuscrite représente l’identité d’une personne, c’est pourquoi nous y réfléchissons attentivement avant de la déployer”.