Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierFlux principal

Googlebook : date de sortie, prix, constructeurs… Tout savoir sur les futurs rivaux des MacBook

Avec les Googlebook, une toute nouvelle gamme d'ordinateurs premium taillée pour l'intelligence artificielle Gemini, Google s'attaque frontalement aux MacBook d'Apple et aux PC Windows. Voici tout ce qu'il faut savoir sur ces nouveaux ordinateurs prévus pour la fin d'année 2026.

« Premier système européen à atteindre le seuil exaflopique » : le supercalculateur Jupiter franchit un cap historique

Le supercalculateur Jupiter, installé en Allemagne, est devenu le premier système européen à franchir le seuil d'un milliard de milliards de calculs par seconde (un trillion, soit 10 puissance 18). Le quatrième au monde.

« Le plus puissant d’Europe » : la France lance son supercalculateur top secret pour l’armée

superordinateur supercalculateur

Le ministre des Armées Sébastien Lecornu a annoncé le lancement d'un superordinateur classé secret défense, qui profitera aux armées françaises. Il est présenté comme l'un des meilleurs au monde. Il doit assurer la souveraineté du pays sur des traitements sensibles.

  • ✇ActuIA
  • OpenAI renforce son équipe de recherche multimodale pour ouvrir un bureau à Zurich
    OpenAI continue d’étendre sa présence en Europe. Après Londres, Paris, Bruxelles et Dublin, la société va ouvrir un bureau en Suisse à Zurich, qui se concentrera notamment sur l’IA multimodale. Trois experts de renom dans ce domaine venant de Google DeepMind : Lucas Beyer, Alexander Kolesnikov et Xiaohua Zhai, feront partie de l’équipe de recherche. Selon Mark Chen, Vice-président Senior de la recherche chez OpenAI, Zurich s’impose comme un pôle technologique de premier plan en Europe. Comme

OpenAI renforce son équipe de recherche multimodale pour ouvrir un bureau à Zurich

11 décembre 2024 à 10:06

OpenAI continue d’étendre sa présence en Europe. Après Londres, Paris, Bruxelles et Dublin, la société va ouvrir un bureau en Suisse à Zurich, qui se concentrera notamment sur l’IA multimodale. Trois experts de renom dans ce domaine venant de Google DeepMind : Lucas Beyer, Alexander Kolesnikov et Xiaohua Zhai, feront partie de l’équipe de recherche.

Selon Mark Chen, Vice-président Senior de la recherche chez OpenAI, Zurich s’impose comme un pôle technologique de premier plan en Europe. Comme son concurrent Google DeepMind, la société a fait le choix de s’y installer, mais a de plus recruté trois de ses meilleurs chercheurs en vision par ordinateur et en apprentissage automatique pour diriger cette nouvelle filiale.

Lucas Beyer, spécialiste des cadres d’apprentissage automatique pour les systèmes d’IA multimodale, Alexander Kolesnikov, expert en reconnaissance visuelle et analyse via l’apprentissage profond, et Xiaohua Zhai, expert en apprentissage multimodal et vision par ordinateur, apporteront leur expertise pour renforcer les capacités de recherche d’OpenAI.

Ces chercheurs de haut niveau, qui ont réalisé individuellement des percées significatives, travaillaient depuis six ans en étroite collaboration au sein de Google DeepMind. Ils ont notamment contribué au développement de technologies comme le Vision Transformer (ViT), un cadre révolutionnaire dans la vision par ordinateur et à celui des modèles Open Weights Vision (SigLIP) et multimodaux (PaliGemma).

Mark Chen a commenté ces recrutements :

“Nous sommes ravis d’accueillir Lucas, Alexander et Xiaohua chez OpenAI. Leur expertise et leurs travaux novateurs en IA multimodale sont reconnus dans toute l’industrie et seront cruciaux alors que nous continuons à développer des technologies capables d’apprendre et d’interagir avec le monde de manière de plus en plus complexe”.

OpenAI renforce son équipe de recherche multimodale pour ouvrir un bureau à Zurich
  • ✇ActuIA
  • Project Jarvis : Google travaille au développement d’un agent d’IA pour automatiser les tâches dans Chrome
    Selon plusieurs sources de The Information, Google travaille au développement d’un agent d’IA capable d’utiliser un ordinateur de façon autonome. L’entreprise aurait l’intention de présenter cette technologie, connue en interne sous le nom de code “Jarvis Project”, le mois prochain en même temps que la prochaine version de son LLM Gemini qui l’alimenterait. Plusieurs entreprises s’emploient à développer des agents d’IA autonomes pouvant, à partir d’instructions, contrôler un ordinateur et intera

Project Jarvis : Google travaille au développement d’un agent d’IA pour automatiser les tâches dans Chrome

29 octobre 2024 à 14:00

Selon plusieurs sources de The Information, Google travaille au développement d’un agent d’IA capable d’utiliser un ordinateur de façon autonome. L’entreprise aurait l’intention de présenter cette technologie, connue en interne sous le nom de code “Jarvis Project”, le mois prochain en même temps que la prochaine version de son LLM Gemini qui l’alimenterait.

Plusieurs entreprises s’emploient à développer des agents d’IA autonomes pouvant, à partir d’instructions, contrôler un ordinateur et interagir en temps réel avec diverses applications. Open AI devrait d’ailleurs lui aussi en présenter un prochainement, mais Anthropic leur a volé la vedette : la version bêta de la fonctionnalité “Computer Use”, présentée la semaine dernière, permet à Claude 3.5 Sonnet d’interagir avec des interfaces graphiques en simulant les actions humaines, telles que déplacer le curseur ou cliquer sur un bouton.

Claude traduit les instructions comme “utiliser les données de mon ordinateur et les données en ligne pour remplir ce formulaire” en commandes informatiques : “vérifier une feuille de calcul, déplacer le curseur pour ouvrir un navigateur Web, naviguer vers les pages Web pertinentes, remplir un formulaire avec les données de ces pages…”.

Selon The Information, Jarvis (en référence à J.A.R.V.I.S. dans Iron Man) serait une fonctionnalité similaire à Computer Use, mais qui sera intégrée au navigateur Chrome. Gemini 2, la prochaine itération du modèle de Google qui l’alimentera, pourra effectuer des tâches telles que la recherche, l’achat d’un produit ou la réservation d’un vol.

Le système d’IA fonctionnera en prenant des « captures d’écran fréquentes » de l’écran de l’utilisateur et analysera ces images pour effectuer des actions telles que cliquer sur un bouton ou taper dans un champ de texte. Cependant, le modèle serait relativement lent, prenant quelques secondes pour décider de chaque action.

Jarvis pourrait ne pas se cantonner au navigateur web : Google travaillerait avec Anthropic pour développer un agent d’IA capable de contrôler l’ordinateur. Si Jarvis est réellement présenté en décembre prochain parallèlement à Gemini 2, ce que Google n’a d’ailleurs pas confirmé, il ne devrait cependant pas être disponible aux internautes avant un certain temps.

Project Jarvis : Google travaille au développement d'un agent d'IA pour automatiser les tâches dans Chrome

« Le plus puissant d’Europe » : la France lance le chantier de son supercalculateur pour l’IA militaire

Les choses se précisent en France pour ce qui est de l'IA militaire. Le ministère des Armées a choisi le tandem Hewlett-Packard Entreprise/Orange pour fabriquer un supercalculateur de pointe. Celui-ci devra posséder la plus importante capacité de calcul classifiée dédiée à l’intelligence artificielle d’Europe.

Anthropic annonce une version améliorée de Claude 3.5 Sonnet, une nouvelle fonctionnalité “Computer Use” et le nouveau modèle Claude 3.5 Haiku

24 octobre 2024 à 10:12

En juin dernier, Anthropic lançait Claude 3.5 Sonnet, la première version de sa famille de modèles Claude 3.5. Mardi dernier, l’entreprise a présenté les améliorations apportées à ce modèle, notamment en matière de codage, et son dernier ajout à la famille : Claude 3.5 Haiku, un modèle qui égale les performances de Claude 3 Opus, son modèle le plus puissant. Elle a également introduit Computer Use, une fonctionnalité expérimentale d’interaction avec les ordinateurs qui fait, selon elle, de Claude 3.5 Sonnet “le premier modèle d’IA de pointe à offrir une utilisation informatique en version bêta publique”.

Cette fonctionnalité d’utilisation de l’ordinateur, disponible en version bêta, permet aux développeurs de demander au modèle d’interagir avec des interfaces graphiques en simulant les actions humaines, telles que déplacer le curseur ou cliquer sur un bouton.

Claude traduit ainsi les instructions comme “utiliser les données de mon ordinateur et les données en ligne pour remplir ce formulaire” en commandes informatiques : “vérifier une feuille de calcul, déplacer le curseur pour ouvrir un navigateur Web, naviguer vers les pages Web pertinentes, remplir un formulaire avec les données de ces pages…”.

Anthropic explique :

“Lorsqu’un développeur charge Claude d’utiliser un logiciel informatique et lui donne l’accès nécessaire, Claude regarde des captures d’écran de ce qui est visible par l’utilisateur, puis compte le nombre de pixels verticalement ou horizontalement dont il a besoin pour déplacer un curseur afin de cliquer au bon endroit. Il était essentiel d’apprendre à Claude à compter les pixels avec précision. Sans cette compétence, le modèle a du mal à donner des commandes à la souris, de la même manière que les modèles ont souvent du mal à répondre à des questions simples telles que « combien de A dans le mot « banane » ?”

Des entreprises comme Asana, Canva, Cognition, DoorDash, Replit et The Browser Company, exploitent déjà cette capacité pour automatiser des processus complexes qui peuvent nécessiter des dizaines, voire des centaines d’étapes.

Sur OSWorld, qui évalue la capacité des modèles d’IA à utiliser les ordinateurs comme le font les humains, Claude 3.5 Sonnet a obtenu un score de 14,9 % dans la catégorie des captures d’écran uniquement, ce qui est nettement mieux que le score de 7,8 % du meilleur système d’IA. Lorsqu’on lui a donné plus d’étapes pour accomplir la tâche, Claude a obtenu un score de 22,0 %.

Les développeurs peuvent l’essayer via l’API d’Anthropic, Amazon Bedrock et la plateforme Vertex AI de Google Cloud. Anthropic avertit toutefois qu’à ce stade expérimental, le modèle peut être sujet aux erreurs et recommande de ne pas lui donner accès à des données sensibles. L’entreprise a fait le choix de le publier pour recueillir leurs commentaires.

Claude 3.5 Sonnet : des gains en codage et en usage d’outils

Le modèle Claude 3.5 Sonnet montre des améliorations notables par rapport à ses versions précédentes, notamment dans des domaines critiques tels que le codage et l’utilisation d’outils. Selon les benchmarks de l’industrie, Sonnet a amélioré son score sur SWE-bench Verified, un test évaluant les capacités de codage agentique, passant de 33,4 % à 49 %. Cette progression est également visible sur TAU-bench, un benchmark évaluant l’utilisation d’outils en situation réelle, où Sonnet a amélioré ses performances dans les secteurs de la vente au détail et de l’aviation.

Des entreprises comme GitLab et The Browser Company, qui ont testé Sonnet pour des tâches complexes de développement logiciel et d’automatisation de processus web, ont signalé une meilleure capacité à suivre des instructions et à résoudre des problèmes sans augmenter les délais d’exécution.

Claude 3.5 Haiku : rapidité et performance

Claude 3.5 Haiku, de son côté, se positionne comme un modèle plus rapide, tout en offrant des performances similaires à celles de Claude 3 Opus, un modèle plus volumineux de la génération précédente. Il est particulièrement efficace pour les tâches nécessitant une génération rapide de texte, ainsi que pour l’analyse et l’exploitation de grandes bases de données. Haiku se distingue par sa faible latence et son coût maîtrisé, en faisant un choix adapté pour des produits interactifs ou des tâches spécialisées à grande échelle.

Anthropic annonce une version améliorée de Claude 3.5 Sonnet, une nouvelle fonctionnalité "Computer Use" et le nouveau modèle Claude 3.5 Haiku
  • ✇ActuIA
  • Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles
    Dans le domaine de la vision par ordinateur, le suivi précis de points dans des vidéos reste une tâche complexe, notamment en raison de la difficulté d’annoter des vidéos réelles. Les modèles traditionnels s’appuient souvent sur des données synthétiques, ce qui limite leur performance dans des environnements non contrôlés. Pour pallier cette lacune, une équipe de chercheurs de l’Université d’Oxford et de Meta AI a développé CoTracker3, un nouveau modèle de suivi de points qui intègre une méthode

Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles

21 octobre 2024 à 14:00

Dans le domaine de la vision par ordinateur, le suivi précis de points dans des vidéos reste une tâche complexe, notamment en raison de la difficulté d’annoter des vidéos réelles. Les modèles traditionnels s’appuient souvent sur des données synthétiques, ce qui limite leur performance dans des environnements non contrôlés. Pour pallier cette lacune, une équipe de chercheurs de l’Université d’Oxford et de Meta AI a développé CoTracker3, un nouveau modèle de suivi de points qui intègre une méthode d’entraînement semi-supervisé innovante.

Le suivi de points est crucial pour des tâches telles que la reconstruction 3D, le montage vidéo, où il est nécessaire de suivre précisément les correspondances dans une séquence d’images, il est également utilisé dans d’autres domaines comme la réalité augmentée ou la robotique. Des modèles récents comme PIPs, TAP-Vid, TAPIR et CoTracker utilisent des réseaux de neurones transformateurs pour améliorer le suivi de points, notamment dans des cas complexes comme les occlusions et les mouvements rapides. Cependant, la disponibilité de données d’entraînement de haute qualité est cruciale pour tirer pleinement parti de ces réseaux neuronaux.

Or, l’annotation manuelle de points spécifiques dans une vidéo pour créer des ensembles de données d’entraînement est souvent longue et coûteuse, nécessitant une attention minutieuse et une expertise humaine. Si les vidéos synthétiques, qui peuvent être annotées automatiquement, sont une alternative efficace pour les tâches de bas niveau,  l’écart entre les données synthétiques et réelles (le “sim-to-real gap”) reste une limitation notable, particulièrement pour des tâches plus complexes. D’autre part, constituer une collection diversifiée de vidéos synthétiques à grande échelle représente un coût élevé. Par conséquent, l’entraînement des modèles de suivi de points à l’aide de vidéos réelles reste une option intéressante.

L’apport du pseudo-étiquetage

Contrairement aux modèles traditionnels, CoTracker3 exploite ainsi des pseudo-étiquettes générées à partir de vidéos réelles, produites par d’autres modèles préalablement entraînés sur des données synthétiques. Ce processus permet de contourner l’écart statistique entre les données synthétiques et réelles, en utilisant les vidéos réelles comme source d’entraînement, sans nécessiter une annotation humaine laborieuse.

Simplicité et performance accrue

L’une des principales caractéristiques de CoTracker3 est la simplification de son architecture. Il emprunte des éléments aux modèles précédents, y compris les mises à jour itératives et les caractéristiques convolutionnelles de PIPs, l’attention inter-piste pour le suivi conjoint, les pistes virtuelles pour l’efficacité, et l’entraînement déroulé pour une opération par fenêtre de CoTracker, ainsi que la corrélation 4D de LocoTrack. En même temps, il simplifie considérablement certains de ces composants et en élimine d’autres, comme l’étape de correspondance globale de BootsTAPIR et LocoTrack.

En réduisant le nombre de composants souvent complexes dans les modèles concurrents, il parvient à offrir une performance accrue tout en nécessitant beaucoup moins de données d’entraînement. Ce modèle est capable de suivre des points avec une précision améliorée, même lorsqu’ils sont temporairement occlus ou sortent du champ de vision.

Mise à l’échelle et résultats

CoTracker3 se distingue également par sa capacité à bénéficier d’une mise à l’échelle, aussi bien en mode en ligne qu’hors ligne. Son efficacité dans le suivi de points, même sur des périodes prolongées et dans des conditions difficiles, en fait une solution performante sur des benchmarks standards. Bien que certains cas spécifiques, comme le suivi sur des surfaces sans caractéristiques distinctes (par exemple, un ciel dégagé), restent des défis, le modèle surpasse globalement ses prédécesseurs tels que LocoTrack et BootsTAPIR.

Pour les chercheurs, il démontre la puissance d’un protocole d’entraînement semi-supervisé simple, où des vidéos réelles sont annotées en utilisant plusieurs modèles de suivi disponibles sur le marché, puis utilisées pour affiner un modèle qui surpasse tous les enseignants. Cette approche lui permet de surpasser les modèles entraînés sur 1 000 fois plus de vidéos. En suivant les points conjointement, CoTracker3 gère les occlusions mieux que tout autre modèle, particulièrement en mode hors ligne, comme on peut le voir dans la vidéo ci-dessous.

Il pourrait, selon eux, servir de bloc de construction pour des tâches nécessitant une estimation de mouvement, telles que le suivi 3D, la génération de vidéos contrôlées ou la reconstruction 3D dynamique.

Retrouver son référentiel GitHub ici, la démo sur Hugging Face ici. CoTracker3 et les ressources associées sont mis à disposition sous une licence A-NC afin de faciliter la poursuite des recherches.

Références de l’article :

COTRACKER3: SIMPLER AND BETTER POINT
TRACKING BY PSEUDO-LABELLING REAL VIDEOS”arXiv:2410.11831v1 [cs.CV] 15 Oct 2024

Auteurs et affiliations :

Nikita Karaev1,2,Iurii Makarov1,Jianyuan Wang1,2,Natalia Neverova1,Andrea Vedaldi1,Christian Rupprecht2
1 Meta AI, 2Groupe de géométrie visuelle, Université d’Oxford

Simplification du suivi de points dans les vidéos : CoTracker3 et le pseudo-étiquetage de vidéos réelles
  • ✇ActuIA
  • Picsellia double ses effectifs avant une levée de fonds et crée un pôle de recherche en IA et vision par ordinateur
    Picsellia, start-up française spécialisée dans le domaine de l’IA et de la vision par ordinateur annonce un plan de recrutements visant à doubler ses effectifs à Paris et Toulouse. L’entreprise prépare également pour la fin de l’année une levée de fonds de 5 à 10 millions d’euros qui lui permettra de poursuivre son ambition : s’étendre à l’international et devenir la norme pour le développement de la vision par ordinateur, tout en capitalisant sur l’écosystème technologique français et européen

Picsellia double ses effectifs avant une levée de fonds et crée un pôle de recherche en IA et vision par ordinateur

18 octobre 2024 à 12:00

Picsellia, start-up française spécialisée dans le domaine de l’IA et de la vision par ordinateur annonce un plan de recrutements visant à doubler ses effectifs à Paris et Toulouse. L’entreprise prépare également pour la fin de l’année une levée de fonds de 5 à 10 millions d’euros qui lui permettra de poursuivre son ambition : s’étendre à l’international et devenir la norme pour le développement de la vision par ordinateur, tout en capitalisant sur l’écosystème technologique français et européen en matière de données et de puissance de calcul.

Fondée en 2020 par Thibaut Lucas (CEO) et Pierre-Nicolas Tiffreau (CTO), Picsellia a développé une plateforme qui permet aux équipes de data science et de développement d’IA de gérer le cycle de vie complet de leurs modèles d’IA, depuis l’annotation des données jusqu’à la mise en production, tout en facilitant la collaboration et le suivi des performances.

Conçue avec une approche de véritable “chef d’orchestre” pour l’IA Vision, la plateforme CVOps (qui combine MLOps et Computer Vision) met à disposition tous les outils dédiés à la création de modèles de Computer Vision tout en se connectant aux outils existant des clients, garantissant ainsi une couverture de l’ensemble du cycle de vie des applications. Ces solutions sont déployées dans des secteurs clés tels que les Smart Cities, les infrastructures énergétiques, l’agriculture de précision, la défense et l’écologie.

Thibaut Lucas, co-fondateur et PDG de Picsellia, commente :

“La France se distingue dans le domaine de la recherche en intelligence artificielle, mais doit s’imposer dans les applications de l’IA, notamment la vision par ordinateur. Nous souhaitons que la France exploite réellement son écosystème technologique pour se positionner en leader de ce secteur crucial et établisse un standard de développement qui régira et maximisera le déploiement de cette technologie prometteuse. C’est notre mission chez Picsellia, en faisant de la vision par ordinateur et du MLOps des priorités stratégiques”.

Recrutements en cours pour soutenir la croissance

Pour accompagner son développement, la startup recrute 15 personnes à Paris et Toulouse pour renforcer ses effectifs techniques commerciaux et créer des fonctions supports, aujourd’hui assurées par les fondateurs de la société :

  • Ingénieurs Logiciel Back-end senior
  • Développeur Front-end junior
  • Ingénieur DevOps
  • Solution Engineer
  • Product Manager
  • Sales Development representative Anglophone
  • Marketing Associate Anglophone
  • Designer
  • Contrôleur de gestion
  • Assistant administratif
  • Directeur RH (head of staff)

Un pôle de recherche en IA et Computer Vision

Le développement rapide de l’IA générative offre de nouvelles opportunités de recherche pour optimiser les méthodes de création d’IA dédiées à l’analyse d’images. Picsellia, qui entend se positionner comme un acteur majeur des applications GenAI industrielles pour l’analyse d’image, a décidé de créer un centre de recherche et recrute pour celui-ci :

  • Data Scientist
  • Computer Vision Engineer
  • Chercheur en IA
  • Doctorant CIFFRE IA

Si vous êtes intéressé par l’un de ces postes, vous pouvez postuler ici.

levee-de-fonds-picsellia-recrutement
  • ✇ActuIA
  • Automatisation de l’annotation des données : Neovision et le LIRIS lancent le projet Datawise
    Ce 1er octobre, le projet DATAWISE (Data Annotation Technology Advancement With Innovative Solutions for Efficiency), lauréat de l’AAP R&D Booster de la région AURA (Auvergne-Rhône-Alpes), est officiellement lancé. Porté par Neovision, en collaboration avec le laboratoire LIRIS (Laboratoire d’Informatique en Images et Systèmes d’Information), ce projet a pour objectif automatiser l’annotation des données, étape cruciale pour l’entraînement des modèles d’IA en vision par ordinateur. Datawise

Automatisation de l’annotation des données : Neovision et le LIRIS lancent le projet Datawise

Par : Thomas Calvi
1 octobre 2024 à 15:00

Ce 1er octobre, le projet DATAWISE (Data Annotation Technology Advancement With Innovative Solutions for Efficiency), lauréat de l’AAP R&D Booster de la région AURA (Auvergne-Rhône-Alpes), est officiellement lancé. Porté par Neovision, en collaboration avec le laboratoire LIRIS (Laboratoire d’Informatique en Images et Systèmes d’Information), ce projet a pour objectif automatiser l’annotation des données, étape cruciale pour l’entraînement des modèles d’IA en vision par ordinateur.

Datawise est l’un des projets labellisés par Minalogic, le pôle de compétitivité des technologies du numérique en Auvergne-Rhône-Alpes, retenus par le programme R&D Booster de la région AURA, dans la thématique “Intelligence Artificielle”. Ce dispositif vise à favoriser et soutenir des projets collaboratifs de R&D entre acteurs de la recherche académique et entreprises de la région pour concrétiser le développement de nouveaux produits, procédés ou services.

Ce projet d’automatisation d’annotation des données a été proposé par Neovision, une société grenobloise créée en 2014, experte en ML et computer vision, spécialisée dans le développement de solutions d’IA sur mesure et est mené en collaboration avec le LIRIS. Cette unité mixte de recherche (UMR 5205) du CNRS, de l’INSA de Lyon, de l’Université Claude Bernard Lyon 1, de l’Université Lumière Lyon 2 et de l’Ecole Centrale de Lyon, à laquelle nous avions consacré un article dans le n° 10 de notre magazine est largement reconnue pour ses travaux de pointe dans les domaines du traitement d’image, des systèmes d’information et des sciences des données.

Automatiser l’annotation des données : une réponse à un défi crucial

L’accès à de vastes volumes de données de qualité est essentiel pour le développement de modèles d’IA performants. Cependant, dans des domaines comme la vision par ordinateur, la préparation et l’annotation manuelles de ces données, fastidieuses et chronophages, représentent souvent un obstacle majeur.

Comme l’explique Stefan Duffner, chercheur au LIRIS,

“Cette préparation des données peut considérablement ralentir les cycles de développement des IAs et détourner les Data Scientists de leur cœur de métier : l’analyse et la valorisation des données”.

Ce partenariat allie l’innovation technologique du secteur privé aux dernières avancées académiques, créant une synergie propice à la création de solutions robustes et évolutives pour répondre aux besoins des secteurs industriels. Il permettra de développer des technologies capables d’automatiser non seulement l’annotation des données, mais également leur nettoyage, permettant ainsi d’accélérer le développement des modèles d’IA et d’en améliorer les performances tout en limitant les biais.

Lucas Nacsa, PDG et cofondateur de Neovision, explique :

“Les IA dédiées au traitement d’images sont souvent initialement entraînées sur des tâches simples, comme la reconnaissance de chiens ou de chats, avant de passer à des objets plus complexes. Cette méthode d’apprentissage limite parfois leurs performances. Notre ambition est de développer des modèles capables de s’entraîner directement sur des données industrielles complexes, sans nécessiter une préparation manuelle massive des données. Cela représente un bond en avant significatif en matière de performance et accélère considérablement le processus de création de solutions d’IA.”

Un partenariat stratégique

En automatisant l’annotation des données, DATAWISE ouvrira de nouvelles perspectives pour de nombreux secteurs industriels, en particulier ceux qui manipulent de grandes quantités de données visuelles. Les technologies développées dans le cadre de ce projet rendront les solutions d’IA plus accessibles et renforceront la compétitivité des entreprises, notamment en leur permettant d’exploiter des bases de données jusqu’ici sous-utilisées.

À terme, les partenaires envisagent l’intégration de grands modèles de langage (LLM) aux outils développés, afin d’améliorer l’ergonomie des solutions et ainsi encourager leur adoption par les entreprises.

tag label
  • ✇ActuIA
  • Une interface cerveau-ordinateur permet à un homme atteint de SLA de retrouver sa voix
    Une équipe de chercheurs de l’UC Davis Health a développé une interface cerveau-ordinateur (BCI) qui permet à un homme atteint de sclérose latérale amyotrophique (SLA) de retrouver sa capacité à communiquer. Cette technologie innovante, qui traduit les signaux cérébraux en paroles avec une précision pouvant atteindre 97 %, pourrait redonner espoir aux millions de personnes atteintes de paralysie et de troubles de la parole dans le monde. L’interface BCI a été implantée dans le cerveau de Casey H

Une interface cerveau-ordinateur permet à un homme atteint de SLA de retrouver sa voix

Par : Thomas Calvi
10 septembre 2024 à 11:00

Une équipe de chercheurs de l’UC Davis Health a développé une interface cerveau-ordinateur (BCI) qui permet à un homme atteint de sclérose latérale amyotrophique (SLA) de retrouver sa capacité à communiquer. Cette technologie innovante, qui traduit les signaux cérébraux en paroles avec une précision pouvant atteindre 97 %, pourrait redonner espoir aux millions de personnes atteintes de paralysie et de troubles de la parole dans le monde.

L’interface BCI a été implantée dans le cerveau de Casey Harrell, un homme de 45 ans souffrant de la maladie de Lou Gehrig (SLA), une maladie neurodégénérative qui affecte les cellules nerveuses responsables du contrôle des mouvements et des muscles de la parole. Grâce à ce dispositif, Casey Harrell peut désormais s’exprimer par l’intermédiaire d’un ordinateur qui convertit son activité cérébrale en texte parlé, avec une précision qui n’avait jamais été atteinte dans le domaine des neuroprothèses vocales.

L’étude rapportant ces travaux “An Accurate and Rapidly Calibrating Speech Neuroprosthesis” a été publiée le 14 août dernier dans le New England Journal of Medicine.

Des débuts prometteurs pour une technologie innovante

Le Dr David Brandman, neurochirurgien à l’UC Davis et co-auteur principal de l’étude avec Nicholas Card, a supervisé l’implantation de quatre réseaux de microélectrodes dans le gyrus précentral gauche de Casey Harrell une région du cerveau clé pour la coordination des mouvements de la parole. Ces électrodes captent l’activité neuronale lorsque Casey tente de parler, permettant ainsi au système de déchiffrer les phonèmes et les mots qu’il essaie de prononcer. Les mots sont affichés sur l’écran de l’ordinateur avant d’être traduits à voix haute par un modèle de synthèse vocale pré-entraîné affiné par les chercheurs.

David Brandman souligne :

“Cette technologie BCI a non seulement permis à Casey de communiquer avec ses proches, mais elle ouvre la voie à un nouveau monde d’interactions pour des patients incapables de parler. Nous avons franchi une étape décisive dans la compréhension et la décodification de l’activité cérébrale liée à la parole”. 

Lors des premiers tests, le dispositif a montré une précision impressionnante de 99,6 % avec un vocabulaire limité à 50 mots, après seulement 30 minutes d’entraînement. En augmentant la taille du vocabulaire à 125 000 mots, le BCI a maintenu une précision de 97,5 %, marquant ainsi une avancée sans précédent.

Une voix retrouvée grâce à l’intelligence artificielle

Malgré les avancées récentes dans la technologie BCI, les tentatives de rétablir la communication ont été lentes et souvent imparfaites. En effet, les algorithmes de machine learning utilisés pour décoder les signaux cérébraux demandaient beaucoup de temps et de données pour fonctionner efficacement.

David Brandman explique :

“Les systèmes BCI de discours précédents comportaient de fréquentes erreurs de mots. Il était donc difficile pour l’utilisateur d’être compris de manière cohérente et constituait un obstacle à la communication. Notre objectif était de développer un système qui permette à quelqu’un d’être compris chaque fois qu’il veut parler.”

Ce qui rend cette technologie encore plus remarquable est la capacité du système à reproduire la voix de Casey telle qu’elle était avant l’apparition de la SLA, cinq ans plus tôt. L’équipe a utilisé des enregistrements audio de Casey datant d’avant la maladie pour entraîner l’IA à générer une voix proche de celle d’origine, restituant non seulement ses mots, mais aussi son identité vocale.

Sergey Stavisky, neuroscientifique à l’UC Davis et co-directeur du laboratoire de neuroprothèses, a souligné l’importance de cette avancée :

“Voir Casey exprimer des pensées et des émotions à travers sa propre voix a été incroyablement émouvant. Pour lui, comme pour nous, c’était un moment de joie pure”.

Perspectives

L’essai clinique, intitulé BrainGate 2, se poursuit avec d’autres participants, et les chercheurs espèrent que cette technologie pourra bientôt être généralisée pour améliorer la vie de milliers de patients atteints de paralysie sévère.

Casey Harrell, le premier patient à bénéficier de cette technologie, résume son expérience :

“Ne pas pouvoir parler, c’est être prisonnier de soi-même. Grâce à cette technologie, je retrouve une partie de ma liberté, et je peux à nouveau participer aux conversations”.

L’équipe de recherche continue de perfectionner le système pour augmenter encore plus la précision et la fluidité du dialogue, avec l’espoir que d’autres applications médicales suivront.

Cette percée est un immense pas en avant pour la science et la technologie, mais surtout pour les millions de personnes dans le monde qui rêvent de retrouver une voix. Avec cette technologie, ce rêve pourrait bientôt devenir une réalité.

Références de l’article :

  • Université de Californie – Davis Health
  • “An Accurate and Rapidly Calibrating Speech Neuroprosthesis” New England Journal of Medicine. DOI : 10.1056/NEJMoa2314132

Auteurs : Nicholas S. Card, Maitreyee Wairagkar, Carrina Iacobacci, Xianda Hou, Tyler Singer-Clark, Francis R. Willett, Erin M. Kunz, Chaofei Fan, Maryam Vahdati Nia, Darrel R. Deo, Aparna Srinivasan, Eun Young Choi, Matthew F. Glasser, Leigh R. Hochberg, Jaimie M. Henderson, Kiarash Shahlaie, Sergey D. Stavisky, David M. Brandman.

Une interface cerveau-ordinateur permet à un homme atteint de SLA de retrouver sa voix

Segment Anything Model 2 : le dernier modèle de vision par ordinateur de Meta étend les capacités de segmentation de SAM aux vidéos

31 juillet 2024 à 09:30

L’an passé, Meta dévoilait Segment Anything (SAM), un modèle de vision par ordinateur conçu pour la segmentation d’objets dans les images. SAM 2, qui étend les capacités de son prédécesseur aux vidéos, est lui aussi publié sous une licence Apache 2.0, permettant à chacun de l’utiliser pour créer ses propres expériences. Meta partage également le dataset SA-V sous une licence CC BY 4.0 et publie une démo en ligne permettant de tester le modèle en action.

La segmentation d’objets, une tâche fondamentale en vision par ordinateur consistant à identifier les pixels d’une image correspondant à un objet d’intérêt, est utilisée dans de nombreuses applications, de la retouche de photos à l’analyse de l’imagerie scientifique. SAM, publié l’année dernière, a établi un modèle de référence pour les images, SAM 2 permet désormais des expériences de segmentation en temps réel et une utilisation fluide dans les applications d’image et de vidéo.

Capacités et applications de SAM 2

SAM 2 dépasse les capacités des modèles précédents en termes de précision et de rapidité, tout en permettant la généralisation zero-shot, c’est-à-dire qu’il peut segmenter des objets dans des contenus visuels inédits sans adaptation personnalisée. Avant SAM, la création de modèles de segmentation précis pour des tâches spécifiques nécessitait généralement un travail hautement spécialisé de la part d’experts techniques ayant accès à une infrastructure d’entraînement à l’IA et à de grands volumes de données soigneusement annotées dans le domaine. Le modèle, en réduisant ces besoins, a transformé ce domaine, et SAM 2 promet d’ouvrir encore plus de possibilités.

Depuis son lancement, SAM a eu un impact significatif dans diverses disciplines, de l’application dans les sciences marines à l’analyse d’images satellites pour les secours en cas de catastrophe, en passant par la segmentation d’images médicales pour aider à détecter le cancer de la peau. SAM 2 peut être immédiatement appliqué à une large gamme de cas d’utilisation, tels que le suivi d’objets pour créer des effets vidéo ou la segmentation de cellules en mouvement dans des vidéos scientifiques.

Conformément à la vision de Mark Zuckerberg sur l’IA open source, SAM 2 pourrait considérablement augmenter la productivité, la créativité et la qualité de vie, tout en accélérant la croissance économique et les avancées scientifiques.

Développement et architecture de SAM 2

Méthodologie

Pour réussir la segmentation d’objets dans les vidéos, il est nécessaire de comprendre où se trouvent les entités dans l’espace et dans le temps. Les vidéos présentent des défis tels que le mouvement, la déformation, l’occlusion et les changements d’éclairage. SAM 2 relève ces défis en utilisant une architecture unifiée pour les images et les vidéos, ce qui introduit un mécanisme de mémoire pour rappeler les informations traitées précédemment et générer des prédictions de masques précises.

Tâche de segmentation visuelle incitative

SAM 2 prend en charge la sélection et l’affinage d’objets dans n’importe quelle image vidéo. Il est entraîné à utiliser des invites d’entrée pour définir le masque spatio-temporel (ou “masquelet”) à prédire. SAM 2 fait une prédiction immédiate du masque et le propage temporellement sur toutes les images vidéo. Ce processus peut être affiné itérativement avec des invites supplémentaires jusqu’à obtention du masquelet souhaité.

L’architecture de SAM 2 est une généralisation de SAM du domaine de l’image au domaine vidéo. Un mécanisme de mémoire composé d’un encodeur de mémoire, d’une banque de mémoire et d’un module d’attention de mémoire permet à SAM 2 de stocker des informations sur les objets segmentés et de générer des prédictions de masques tout au long de la vidéo.

Dataset SA-V

Collecte et annotations

Pour surmonter la disponibilité limitée des données annotées pour la segmentation vidéo, Meta a construit un moteur de données exploitant une configuration interactive de modèle en boucle avec des annotateurs humains. Ces derniers ont utilisé SAM 2 pour annoter des masques dans les vidéos, améliorant ainsi itérativement le modèle et l’ensemble de données.

Points forts de l’ensemble de données SA-V

  • Plus de 600 000 annotations de masques sur environ 51 000 vidéos ;
  • Vidéos couvrant des scénarios réels et géographiquement divers, collectées dans 47 pays ;
  • Annotations incluant des objets entiers, des parties d’objets et des cas d’occlusion.

Résultats et performances

SAM 2 surpasse les approches précédentes en matière de segmentation vidéo interactive, nécessitant environ trois fois moins d’interactions humaines et offrant une précision de segmentation supérieure. Il excelle également dans les tests de segmentation d’objets vidéo existants et permet une annotation de segmentation vidéo 8,4 fois plus rapide que l’annotation manuelle par image.

Limites et perspectives

Bien que SAM 2 démontre des performances solides, des améliorations peuvent encore être apportées, il lui arrive parfois de perdre la trace d’objets ou de les confondre avec des objets similaires. Même s’il est capable de segmenter plusieurs objets individuels simultanément, son efficacité dans ce cas de figure diminue alors considérablement. Le modèle est conçu pour être interactif, permettant des interventions manuelles pour récupérer des objets cibles en cas de perte de suivi.

Pour tester le modèle, retrouver la démonstration en ligne ici.

Segment Anything Model 2 le dernier modèle de vision par ordinateur de Meta étend les capacités de segmentation de SAM aux vidéos
  • ✇ActuIA
  • Pure Storage et LandingAI : un partenariat stratégique pour faire progresser les modèles de vision en entreprise
    Pure Storage, fournisseur de technologies et l’un des leaders des services de stockage de données, a annoncé récemment un investissement dans la start-up Landing AI, spécialisée dans les solutions de vision par ordinateur. Fondée en 2009 par John “Coz” Colgrove et John Hayes, Pure Storage est réputée pour ses solutions de stockage de données flash qui optimisent les performances, la simplicité et l’efficacité du stockage pour les entreprises. Ses produits phares incluent FlashArray, une solutio

Pure Storage et LandingAI : un partenariat stratégique pour faire progresser les modèles de vision en entreprise

13 juin 2024 à 11:00

Pure Storage, fournisseur de technologies et l’un des leaders des services de stockage de données, a annoncé récemment un investissement dans la start-up Landing AI, spécialisée dans les solutions de vision par ordinateur.

Fondée en 2009 par John “Coz” Colgrove et John Hayes, Pure Storage est réputée pour ses solutions de stockage de données flash qui optimisent les performances, la simplicité et l’efficacité du stockage pour les entreprises. Ses produits phares incluent FlashArray, une solution de stockage all-flash pour les environnements de centres de données, FlashBlade, un système de stockage en mode fichier et objet conçu pour les charges de travail analytiques, l’IA et le big data et Pure1, une plateforme de gestion et d’analyse basée sur le cloud qui fournit des informations sur les performances et la gestion proactive des environnements de stockage Pure Storage.

Grâce à son programme Evergreen Storage, l’entreprise permet à ses clients de mettre à jour leur infrastructure de stockage sans interruption, évitant ainsi des migrations de données complexes et coûteuses.

Créée en 2017 par Andrew Ng, ancien Directeur scientifique spécialisé IA chez Baidu, fondateur de deeplearning.ai, cofondateur de Coursera et de Google Brain, Landing AI se spécialise dans les solutions d’IA visuelle, en particulier dans la création de LVM (Large Vision Models) spécifiques à un domaine. Ces LVM permettent aux entreprises de résoudre plus efficacement les problèmes de vision par ordinateur en utilisant des modèles entraînés sur leurs données d’images propriétaires. Ce qui représente une avancée significative par rapport aux approches traditionnelles qui nécessitent souvent l’étiquetage intensif de vastes bibliothèques d’images.

Les LVM de Landing AI sont conçus pour être déployés à la périphérie, sur site ou dans le cloud, offrant ainsi une flexibilité maximale aux entreprises dans divers secteurs.

Andrew Ng souligne :

“La révolution du modèle de grande vision des entreprises suit la révolution du modèle de langage large, mais avec une différence essentielle : alors que le texte Internet dont les LLM ont appris est suffisamment similaire à la plupart des textes d’entreprise pour que le modèle s’applique, de nombreuses entreprises de la fabrication, des sciences de la vie, des données géospatiales, de l’agriculture, de la vente au détail et d’autres secteurs ont des images propriétaires qui ne ressemblent en rien aux images Instagram typiques trouvées en ligne”.

Le partenariat Pure Storage – Landing AI

Les deux entreprises californiennes ont décidé de combiner leurs expertises pour répondre aux besoins croissants des entreprises en matière de données visuelles. Les solutions multimodales LVM de LandingAI joueront un rôle clé dans cette collaboration, offrant aux entreprises desservies par Pure Storage des outils puissants pour traiter et analyser des données visuelles complexes.

Andrew Ng déclare :

“Les entreprises auront besoin de solutions pour appliquer l’IA générative à leurs données, qui consisteront de plus en plus non seulement en texte, mais aussi en images et vidéos plus riches. Nous sommes ravis de nous associer à Pure Storage pour répondre à ce besoin des clients”.

Rob Lee, directeur technique de Pure Storage, ajoute :

“Nous sommes ravis d’investir dans Landing AI, une société dont l’affinité produit et les synergies avec les clients s’alignent étroitement sur celles de Pure. Nous pensons que notre partenariat stratégique avec l’équipe de Landing AI, y compris ses dirigeants pionniers Andrew Ng et Dan Maloney, conduira à des avancées significatives en matière d’IA/ML pour nos clients.”

Pure Storage et LandingAI un partenariat stratégique pour faire progresser les modèles de vision en entreprise

Skyvern – Plus besoin de vous prendre la tête pour automatiser une tâche web (scraping, saisie de formulaire…etc)

Par : Korben
7 mai 2024 à 09:00

Qui n’a jamais rêvé d’automatiser n’importe quelle tâche web peu importe sa complexité, pour évidemment se la couler douce ?

C’est précisément ce que vous propose Skyvern, un outil qui allie intelligence artificielle et vision par ordinateur pour interagir avec les sites web comme vous le feriez vous-même.

Plus besoin de scripts qui pètent à tout bout de champs, de XPath qui changent tous les 4 matins et de parseurs de DOM capricieux puisque Skyvern est capable de comprendre visuellement ce qu’il y a sur une page web et ainsi générer un plan d’interaction en temps réel.

Cela signifie que Skyvern est capable d’agir sur des sites qu’il n’a jamais vus auparavant, le tout sans avoir besoin de code spécifique. Il analyse les éléments visuels de la page pour déterminer les actions nécessaires pour répondre à votre demande, ce qui en fait un outil immunisé contre les changements de design de sites, contrairement à votre bon vieux scrapper.

Grâce aux modèles de langage (LLM) qu’il embarque, il est capable de « raisonner » donc par exemple, de remplir un formulaire qui vous pose plein de questions, ou de comparer des produits.

Vous voulez voir Skyvern à l’œuvre ? Voici un petit aperçu en vidéo :

Sous le capot, Skyvern s’inspire des architectures d’agents autonomes comme BabyAGI et AutoGPT, avec une couche d’automatisation web en plus, basée sur des outils comme Playwright.

Et comme d’hab, vous pouvez installer la bête sur votre machine et commencer à automatiser tout votre boulot en quelques commandes.

Vous devrez donc avoir Python 3.11, puis installez poetry :

brew install poetry

Ensuite, clonez le dépôt git et aller dans le dossier :

git clone https://github.com/Skyvern-AI/skyvern.git

cd skyvern

Puis lancez le script d’install :

./setup.sh

Une fois que c’est fini, démarrez le serveur :

./run_skyvern.sh

Et voilà, vous pouvez maintenant envoyer des requêtes au serveur, mais ne vous inquiétez pas, y’a une interface graphique :). Pour la lancer :

./run_ui.sh

Ouvrez ensuite http://localhost:8501 dans votre navigateur pour y accéder. Vous verrez alors ce genre d’interface. A vous de remplir les champs qui vont bien pour créer votre première automatisation.

En commande cURL, ça ressemble à ça (pensez bien à mettre votre clé API locale dans la commande) :

curl -X POST -H 'Content-Type: application/json' -H 'x-api-key: {Votre clé API locale}' -d '{
    "url": "https://www.geico.com",
    "webhook_callback_url": "",
    "navigation_goal": "Naviguer sur le site Web jusqu\'à ce que vous obteniez un devis d\'assurance automobile. Ne pas générer de devis d\'assurance habitation. Si cette page contient un devis d\'assurance automobile, considérez l\'objectif atteint",
    "data_extraction_goal": "Extraire toutes les informations de devis au format JSON, y compris le montant de la prime et le délai du devis",
    "navigation_payload": "{Vos données ici}",
    "proxy_location": "NONE"
}' http://0.0.0.0:8000/api/v1/tasks

Vous voyez, on peut vraiment faire des trucs pointu. Et le petit plus, c’est qu’on peut voir toutes les interactions puisque Skyvern enregistre chaque action avec une capture d’écran correspondante pour vous permettre de débugger facilement vos workflows.

Bref, pour en savoir plus, c’est sur le Github. Et sur leur site officiel.

  • ✇Intelligence artificielle
  • FeatUp – L’algo qui permet à l’IA de passer à la haute résolution
    FeatUp, c’est le nom de ce nouvel algorithme révolutionnaire développé par une équipe de chercheurs du MIT dont le but consiste à faire passer la vision par ordinateur à la vitesse supérieure en lui offrant une résolution digne d’un œil de lynx. Comment ça marche ? En gros, FeatUp s’attaque au problème de la perte d’information qui se produit quand les algorithmes d’IA analysent une image. Normalement, ils la découpent en une grille de petits carrés de pixels qu’ils traitent par groupe. Rés

FeatUp – L’algo qui permet à l’IA de passer à la haute résolution

Par : Korben
20 mars 2024 à 07:32

FeatUp, c’est le nom de ce nouvel algorithme révolutionnaire développé par une équipe de chercheurs du MIT dont le but consiste à faire passer la vision par ordinateur à la vitesse supérieure en lui offrant une résolution digne d’un œil de lynx.

Comment ça marche ? En gros, FeatUp s’attaque au problème de la perte d’information qui se produit quand les algorithmes d’IA analysent une image. Normalement, ils la découpent en une grille de petits carrés de pixels qu’ils traitent par groupe. Résultat, la résolution finale est bien plus faible que l’image de départ. Avec FeatUp, fini la myopie ! L’algo est capable de capter tous les détails, des plus évidents aux plus subtils.

La clé, c’est de faire légèrement bouger et pivoter les images pour voir comment l’IA réagit à ces micro-variations. En combinant des centaines de « cartes de caractéristiques » ainsi générées, on obtient un ensemble de données haute définition super précis. Un peu comme quand on crée un modèle 3D à partir de plusieurs images 2D sous différents angles.

Mais pour que ça turbine, il a fallu créer une nouvelle couche de réseau de neurones ultra-efficace, baptisée « suréchantillonnage bilatéral conjoint« . Grâce à elle, FeatUp améliore les performances d’un tas d’algos différents, de la segmentation sémantique à l’estimation de profondeur.

Les applications potentielles sont dingues : imaginez pouvoir repérer un minuscule panneau sur une autoroute encombrée pour une voiture autonome, ou localiser précisément une tumeur sur une radio des poumons. Avec sa capacité à transformer des suppositions vagues en détails précis, FeatUp pourrait rendre tous ces systèmes bien plus fiables et sûrs.

L’objectif des chercheurs, c’est que FeatUp devienne un outil fondamental du deep learning, pour enrichir les modèles sans sacrifier l’efficacité. Comme le résume Mark Hamilton, co-auteur de l’étude, l’enjeu est d’obtenir « le meilleur des deux mondes : des représentations très intelligentes avec la résolution de l’image d’origine« .

Bref, si FeatUp tient ses promesses, on n’a pas fini d’entendre parler de cette prouesse technologique qui pourrait donner un sacré coup de boost à l’IA visuelle puisqu’elle fournit des versions haute résolution d’analyses d’images qu’on pensait jusque-là limitées à la basse résolution. »

Pour en savoir plus, direction l’article du MIT !

La France est à la traine : elle doit se bouger sur les supercalculateurs

superordinateur supercalculateur

La commission sur l'intelligence artificielle a rendu ses travaux, après six mois de concertation. Elle propose un plan d'action en 25 points, et au prix d'un investissement sur 5 ans de 27 milliards d'euros. Parmi les pistes figure la nécessité de mettre un coup de collier dans les supercalculateurs de classe exascale. C'est un enjeu d'autonomie stratégique.

« Ne pas dépendre des autres puissances » : la France aura un supercalculateur top secret pour de l’IA militaire

armée supercalculateur IA

Le ministre des Armées Sébastien Lecornu annonce l'arrivée d'un supercalculateur en 2025 pour l'armée française. La machine sera notamment capable de travailler sur des données secret défense et sur l'IA militaire.

  • ✇ActuIA
  • « Handwriting Transformers » : une avancée majeure dans la génération d’écriture manuscrite par l’IA
    Une équipe de l’Université Mohamed bin Zayed d’intelligence artificielle (MBZUAI) a développé un système d’IA capable d’imiter le style d’écriture d’une personne à partir de quelques paragraphes d’écriture originale. Les chercheurs qui avaient partagé les premiers résultats de leurs recherches en 2021 lors de la Conférence internationale sur la vision par ordinateur (ICCV) ont récemment obtenu un brevet de l’Office des brevets et des marques des États-Unis pour cet outil. L’équipe qui a présenté

« Handwriting Transformers » : une avancée majeure dans la génération d’écriture manuscrite par l’IA

29 janvier 2024 à 13:30

Une équipe de l’Université Mohamed bin Zayed d’intelligence artificielle (MBZUAI) a développé un système d’IA capable d’imiter le style d’écriture d’une personne à partir de quelques paragraphes d’écriture originale. Les chercheurs qui avaient partagé les premiers résultats de leurs recherches en 2021 lors de la Conférence internationale sur la vision par ordinateur (ICCV) ont récemment obtenu un brevet de l’Office des brevets et des marques des États-Unis pour cet outil.

L’équipe qui a présenté “Handwriting Transformers” était composée du professeur adjoint de vision par ordinateur Rao Muhammad Anwer, du professeur agrégé d’informatique Vison Salman Khan, du directeur adjoint du département de vision par ordinateur et professeur de vision par ordinateur Fahad Shahbaz Khan, et d’Ankan Kumar Bhunia.

Des recherches antérieures s’appuyaient sur les réseaux antagonistes génératifs (GAN). Cependant, si ces approches permettent de capturer le style général d’un écrivain, par exemple, l’inclinaison de l’écriture ou la largeur des traits qui composent les lettres, elles rencontrent deux problèmes majeurs.

Tout d’abord, le lien entre le style et le contenu est faible, car ces caractéristiques sont traitées séparément et fusionnées, ce qui entraîne un manque d’enchevêtrement explicite au niveau du caractère. D’autre part, elles ne codent pas de manière explicite les modèles de style locaux, tels que le style de caractère et les ligatures, que l’on peut retrouver par exemple dans le mot cœur, ou la locution latine ex æquo.

Pour surmonter ces limitations, les chercheurs ont adopté une approche novatrice en utilisant des transformateurs de vision, des réseaux neuronaux conçus pour les tâches de vision par ordinateur.

Fahad Khan explique :

“Pour imiter le style d’écriture de quelqu’un, nous voulons regarder l’ensemble du texte, et ce n’est qu’alors que nous commencerons à comprendre comment l’écrivain a ligaturé les caractères, comment l’écrivain a relié les lettres ou les mots espacés. Toutes ces tâches nécessitent une sorte de champ réceptif global, ce qui n’est pas facile avec les réseaux de neurones convolutifs. Nous avons identifié cette lacune dans les méthodes existantes et avons adopté cette méthode basée sur des transformateurs”.

Les scientifiques ont comparé leur approche de génération d’images textuelles manuscrites, HWT (Handwriting Transformers) à deux autres technologies de génération d’écriture manuscrite. Ils ont demandé à 100 personnes d’évaluer le texte généré par les différents modèles à 100 personnes. Celles-ci ont préféré le HWT aux autres générateurs de texte dans 81 % des cas.

Une comparaison qualitative de HWT avec deux autres générateurs d’écriture manuscrite, GANwriting et Davis et al. Les trois générateurs ont reçu l’ordre de produire le même texte : « Deux personnes ne peuvent pas écrire exactement de la même manière, tout comme deux personnes ne peuvent pas avoir les mêmes empreintes digitales. » Les trois applications ont été entraînées sur des échantillons de texte manuscrit (colonne à l’extrême gauche) par six rédacteurs différents. Davis et al. capturent le style général d’un écrivain, par exemple l’inclinaison du texte, mais ont du mal à imiter les détails de style spécifiques au personnage. GANwriting est limité par la longueur des mots qu’il peut imiter et n’a pas été en mesure de compléter le contenu textuel fourni – par exemple, il a généré le mot « précis » au lieu de « précisément ». L’approche des chercheurs de MBZUAI imite mieux les modèles de style mondiaux et locaux, générant ainsi une écriture plus réaliste.

Ils leur ont également montré le texte d’origine et celui généré, les participants n’ont pu faire la distinction entre les deux, validant ainsi la performance du système d’IA.

Bien que cette avancée ouvre la voie à des applications prometteuses, les chercheurs sont conscients des implications éthiques liées à leur technologie et mettent en garde sur le danger potentiel de contrefaçons et d’autres abus. Ils soulignent la nécessité de prendre des mesures afin de les contrer dans le cadre d’un déploiement responsable.

Rao Muhammad Anwer déclare :

“Nous sommes très prudents à ce sujet car il pourrait être utilisé à mauvais escient. L’écriture manuscrite représente l’identité d’une personne, c’est pourquoi nous y réfléchissons attentivement avant de la déployer”.

Références de l’article : blog MBZUAI

Auteurs :

Rao Muhammad Anwer, Vison Salman Khan, Fahad Shahbaz Khan, Ankan Kumar Bhunia

Handwriting-Transformers-avancee-majeure-generation-ecriture-manuscrite-IA
❌
❌