Vue normale

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.
À partir d’avant-hierapprentissage profond (deep learning) – The Conversation
  • ✇apprentissage profond (deep learning) – The Conversation
  • Quand les IA font des rapprochements trompeurs
    Une image générée par IA pour illustrer les erreurs d’apprentissage. Microsoft Copilot, prompté par Pierre-Emmanuel Arduin et Myriam Merad, Fourni par l'auteurConnaissez-vous les « corrélations fallacieuses » ? Si les humains apprennent à ne pas se laisser berner par ces liens logiques apparents, les IA ont plus de mal. Et si les ventes de dictionnaires en Allemagne étaient liées au nombre d’inscriptions à des cours de natation au Japon ? Et si la production d’énergie solaire à Taïwan influen

Quand les IA font des rapprochements trompeurs

Une image générée par IA pour illustrer les erreurs d’apprentissage. Microsoft Copilot, prompté par Pierre-Emmanuel Arduin et Myriam Merad, Fourni par l'auteur

Connaissez-vous les « corrélations fallacieuses » ? Si les humains apprennent à ne pas se laisser berner par ces liens logiques apparents, les IA ont plus de mal.


Et si les ventes de dictionnaires en Allemagne étaient liées au nombre d’inscriptions à des cours de natation au Japon ? Et si la production d’énergie solaire à Taïwan influençait le cours en bourse de Netflix ?

On apprend très tôt qu’il y a une distinction entre corrélation et causalité : un lien n’explique toujours pas une cause. Notre cerveau cherche malgré tout un sens et des explications logiques lorsqu’il analyse des données : des lignes qui suivent la même inclinaison, des barres qui s’élèvent ensemble, ou encore des points qui se regroupent dans un diagramme. Instinctivement, il semble peu probable que la consommation de chocolat par habitant d’un pays soit corrélée au nombre de ses lauréats du prix Nobel : il s’agit là d’une « corrélation fallacieuse ».

Une équipe de recherche d’Apple a publié en septembre 2024 un article illustrant comment une banale modification de prénoms ou d’attributs des personnages d’un énoncé mathématique diminuait jusqu’à 10 % la part de réponses correctes fournies par diverses intelligences artificielles génératives. Ces liens, apparemment logiques, entraînent des corrélations fallacieuses. Imaginez un peu demander à une IA : « Adam a une pomme et Eve en a deux, combien ont-ils de pommes ? », puis lui demander ensuite : « Ada a une pomme et Evan en a deux, combien ont-ils de pommes ? » et obtenir des réponses différentes ! Pour un enfant, il parait clair que la présence d’Adam plutôt qu’Ada dans l’énoncé du problème ne change pas la réponse. Pour une IA, ce n’est pas si simple.

Comment se fait-il que nous arrivions à comprendre instantanément qu’il s’agit là de corrélations fallacieuses, là où les IA peuvent manifestement se laissent berner ?

Ce problème n’est pas anecdotique, puisque certains types d’IA sujettes à ces méprises logiques sont utilisés pour des systèmes critiques de sécurité informatique. Elles sont vulnérables à un type d’attaque appelé parfois apprentissage antagoniste ou « adversarial attacks ».

Pour pallier ce problème, les chercheurs développent des méthodes qui permettent de corriger les processus d’apprentissage des IA en identifiant les caractéristiques parasites qui mènent à des corrélations fallacieuses.


Tous les quinze jours, des grands noms, de nouvelles voix, des sujets inédits pour décrypter l’actualité scientifique et mieux comprendre le monde. Abonnez-vous gratuitement dès aujourd’hui !


Comment les IA de type « GPT » apprennent-elles des corrélations fallacieuses ?

Pour comprendre comment les « GPT », ces IA qui semblent si prometteuses, se prennent les pieds dans le tapis des corrélations fallacieuses, il faut comprendre comment elles fonctionnent.

Parmi les modèles évalués dans la publication de septembre 2024 d’Apple, il y a GPT-4o, alors dernière création de la société OpenAI. Derrière le succès du GPT-4o, il y a un réseau de neurones Transformeur-Génératif-Pré-entraîné (les fameux GPT).

Génératif car il vise à générer du texte, préentraîné car il peut être réentraîné pour traiter des corpus documentaires spécialisés : contrats, composition mathématique ou analyse de code logiciel par exemple.

Les GPT appartiennent une plus grande famille de modèles appelés grands modèles de langage (LLM pour Large Language Model). Les LLM ont contribué à transformer les interactions humain-machines. Ils permettent à l’utilisateur d’interagir avec la machine via des instructions en langage naturel, appelées « prompts ». Ainsi, « écris-moi un article pour The Conversation sur le thème de l’IA Générative » est une instruction valide. En retour, le LLM répondra lui aussi en langage naturel, mais l’article en question ne serait pas publié car cela serait contraire à la charte éditoriale de The Conversation !

Pour préentraîner, les modèles, les chercheurs d’OpenIA ont utilisé un jeu de séquences de texte (de l’ordre du trillion de mots). Puis, à la manière d’un jeu de devinette, le transformeur doit analyser les séquences dont une partie est masquée, et prédire le contenu manquant. À chaque essai, les paramètres du modèle sont réajustés pour corriger la prédiction, c’est l’apprentissage.

Après l’entraînement, les paramètres appris permettent de représenter numériquement les relations sémantiques entre les mots (c’est le modèle de langage). Pour répondre à un utilisateur (c’est l’inférence), c’est le même processus : analyser la séquence (le prompt), prédire le mot suivant, puis le suivant, puis le suivant, etc.

Pour un utilisateur étranger au mécanisme à l’œuvre, le résultat sera bluffant, mais une fois encore, il ne s’agit que d’intelligence simulée par une machine. La syntaxe semble exacte, le raisonnement logique, les applications infinies : mathématiques, littérature, histoire ou géographie. Il ne faudra pas longtemps pour que les LLM se mettent à générer les copies des élèves, les mémoires des étudiants, ou soulager les chercheurs dans l’exécution de tâches fastidieuses.

Pourquoi est-ce dangereux en pratique ?

S’il existe des liens fallacieux dans les séquences d’entraînement, ces derniers seront intégrés lors de la phase d’apprentissage et régénérés dans la phase d’inférence. Ce phénomène de « corrélation fallacieuse » ne concerne pas que les LLM, mais plus globalement les réseaux de neurones profonds utilisant de grandes quantités de données à l’entraînement.

Dans le domaine de la sécurité informatique, des chercheurs avaient déjà alerté en janvier 2024 sur des symptômes similaires pour des LLM spécialisés dans la recherche de vulnérabilités logicielles : leur recherche montre comment une modification des noms de variables, pourtant sans impact sur la logique du code analysé, vient affecter jusqu’à 11 % la capacité du modèle à correctement identifier du code vulnérable. Tout comme dans le cas d’une modification des prénoms dans l’énoncé du problème mathématique des pommes ci-dessus, l’un des LLM audités a par exemple appris à associer les fonctions faisant appel à des variables nommées « maVariable » (souvent donné dans les exemples adressés aux débutants) et leur vulnérabilité. Pourtant, il n’existe aucune relation de cause à effet entre le nom de cette variable et la sûreté du logiciel. La corrélation est fallacieuse.

Ces LLM sont aujourd’hui utilisés dans les entreprises pour relire le code écrit par des développeurs, supposés garantir la détection des bugs logiciels. Les IA permettent d’identifier les vulnérabilités ou les comportements malveillants en sécurité informatique, ce travail d’analyse est donc crucial. Sans cela, un attaquant subtil pourrait profiler le système de détection pour identifier ces biais, le manipuler et jouer sur ces derniers pour le contourner.

C’est pourquoi, à l’instar des travaux sur l’analyse de code source, nous sommes en train d’explorer l’application des méthodes d’inférence causale pour améliorer la robustesse des réseaux de neurones utilisés par les systèmes de détection d’intrusions dans les réseaux informatiques.

Les travaux de Judea Pearl, prix Turing d’Informatique 2011, indiquent en effet que sous certaines conditions, il est possible de distinguer les corrélations probablement issues d’une relation causale de celles qui sont fallacieuses.

En travaillant sur un système de détection d’intrusions, outil qui surveille le trafic réseau pour détecter des activités suspectes, il est possible d’identifier les corrélations qui pourraient être à l’origine de biais. Nous pouvons ensuite les perturber (à l’instar d’un changement de prénom) et entraîner à nouveau le modèle de détection. Mathématiquement, la corrélation fallacieuse se retrouve marginalisée dans la masse d’exemples perturbés et le nouveau modèle est dé-biaisé.

L’IA est un outil, ne le laissons pas penser à notre place !

Qu’elles soient génératives ou non, les IA ayant appris des corrélations fallacieuses exposent leurs utilisateurs à des biais plus ou moins importants. Si les corrélations fallacieuses peuvent apparaître amusantes de par leur absurdité, elles peuvent également être source de discriminations.

Plus globalement, les récentes avancées en apprentissage profond, qui vont bien au-delà des IA génératives, bénéficient et vont bénéficier à de nombreux domaines, dont la sécurité informatique.

Néanmoins, bien que prometteuses, ces IA doivent être reconsidérées à leur juste place : elles peuvent certes permettre d’augmenter les capacités d’expertise, mais aussi induire des aveuglements dont les conséquences peuvent être dramatiques si l’on en vient à déléguer notre capacité de penser à des algorithmes.

Ainsi, il convient de nous éduquer au fonctionnement de ces systèmes — et à leurs limites — pour ne pas les suivre aveuglément. Le problème n’est pas tant l’absurdité d’un changement de prénom provoquant une baisse de performance, que le crédit que nous pouvons accorder au contenu généré par une IA.

The Conversation

Pierre-Emmanuel Arduin est membre de l'association française pour l'intelligence artificielle (AFIA).

Myriam Merad ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

  • ✇apprentissage profond (deep learning) – The Conversation
  • Qu’est-ce que l’apprentissage antagoniste ?
    L’apprentissage antagoniste explore les vulnérabilités des modèles d’intelligence artificielle et les moyens de s’en défendre. Quelques explications à l’heure du Sommet pour l’action sur l’intelligence artificielle. Peut-on manipuler une intelligence artificielle (IA) pour qu’elle accomplisse l’inverse de ce pour quoi elle a été conçue ? C’est l’objectif de l’apprentissage antagoniste, une discipline qui explore à la fois les vulnérabilités des modèles d’IA et les moyens de s’en défendre. Que

Qu’est-ce que l’apprentissage antagoniste ?

L’apprentissage antagoniste explore les vulnérabilités des modèles d’intelligence artificielle et les moyens de s’en défendre. Quelques explications à l’heure du Sommet pour l’action sur l’intelligence artificielle.


Peut-on manipuler une intelligence artificielle (IA) pour qu’elle accomplisse l’inverse de ce pour quoi elle a été conçue ? C’est l’objectif de l’apprentissage antagoniste, une discipline qui explore à la fois les vulnérabilités des modèles d’IA et les moyens de s’en défendre. Que ce soit pour contourner un filtre antispam ou échapper à la reconnaissance faciale, les exemples abondent.

Mais quelles sont ces attaques qui ciblent les modèles d’IA, et comment fonctionnent-elles ? Explorons l’envers du décor.

Le contournement antispam est l’un des exemples les plus simples et anciens d’apprentissage antagoniste. Pour éviter que leurs messages soient automatiquement supprimés, les auteurs de spams vont dissimuler les mots suspects dans leurs textes en les déformant à travers des fautes d’orthographe ou des caractères spéciaux (« cadeau » deviendrait « ƈąɗẹąս »). Ainsi, ignorant les mots inconnus, les algorithmes ne verront que les « bons » mots et passeront à côté des termes douteux.

Les contournements d’IA ne passent pas que par des moyens numériques. Par exemple, il existe des vêtements ingénieux spécialement conçus pour déjouer les outils de reconnaissance faciale et se rendre en quelque sorte invisible, échappant à la surveillance de masse.

Pour comprendre l’apprentissage antagoniste, revenons rapidement sur la manière dont une IA apprend.

Tout commence avec un jeu de données qui représentent des exemples de la tâche à accomplir : pour créer un détecteur de spam, il faut donc de vrais spams et des courriels normaux. Ensuite s’exécute une phase où un modèle mathématique va apprendre à les distinguer et à exécuter la tâche. Finalement, ce modèle (ou IA) est utilisé en production pour apporter un service.

Chacune de ces trois étapes de fonctionnement – avant, pendant, et après l’entraînement – est sujette à des types d’attaques différentes. La phase d’entraînement est sans doute la partie la plus difficile à exploiter à cause des difficultés à y accéder. Les scénarios d’attaques supposent souvent que l’entraînement soit divisé sur plusieurs machines et qu’au moins l’une d’elles soit hostile. L’attaquant renvoie des messages erronés ou déformés pour modifier le comportement final de l’IA. C’est ce que l’on appelle une attaque byzantine.

[Déjà plus de 120 000 abonnements aux newsletters The Conversation. Et vous ? Abonnez-vous aujourd’hui pour mieux comprendre les grands enjeux du monde.]

Pendant la phase de pré-entraînement, l’empoisonnement des données s’appuie sur l’idée que toutes les données sont fiables. Pourtant, un attaquant pourrait venir corrompre ces données pour influencer les résultats futurs de l’IA. Par exemple, il est possible d’introduire une porte dérobée (ou « backdoor ») pour manipuler le modèle dans des cas particuliers.

Ces attaques ne nécessitent pas forcément des outils techniques pointus. Les systèmes de recommandation y sont particulièrement sensibles, car ils dépendent grandement des données et comportements des utilisateurs. La multiplication des robots malveillants sur les réseaux sociaux peut ainsi influencer les contenus suggérés et aller jusqu’à impacter les résultats d’élections.

Finalement, le dernier type d’attaque a lieu après l’entraînement et comprend les attaques d’évasion qui exploitent les failles d’un modèle. Le contournement des spams, vu plus haut, en est un exemple.

Différentes techniques existent pour apprendre à perturber les entrées d’une IA afin de lui faire prédire ce que l’on veut. Par exemple, il est possible d’introduire sur une image une déformation imperceptible par des humains, mais aveuglant une IA. Cela soulève des débats sur la sécurité des véhicules autonomes qui ne pourraient plus lire les signes de la route correctement.

Une autre menace après l’entraînement est l’extraction de modèle. Elle consiste à arracher d’une IA les données sur lesquelles elle a été entraînée, que ce soit pour la copier ou, plus grave, pour retrouver des informations personnelles et privées, comme des renseignements médicaux ou une adresse. Cela est particulièrement préoccupant pour l’utilisateur qui n’est pas au courant de ce genre de problème et fait aveuglément confiance à une IA telle que ChatGPT.

Avec chaque attaque naissent des stratégies de défense. Bien que les modèles deviennent de plus en plus fiables, les attaques se font de plus en plus complexes et difficiles à déjouer. Savoir cela nous incite à être plus prudents avec nos données personnelles et les résultats d’une IA, en particulier les plus invisibles tels que les algorithmes de recommandation.


La série « L’envers des mots » est réalisée avec le soutien de la Délégation générale à la langue française et aux langues du ministère de la Culture.

The Conversation

Julien Romero a reçu des financements de l'institut Mines-Télécom, de l'ANRT à travers des thèses CIFRE et de Hi!Paris.

Les systèmes d’IA ne savent pas expliquer leurs décisions. Voici les pistes de recherche vers l’« explicabilité »

Actuellement, l’utilisation de nombreux systèmes d’IA est risquée parce qu’ils ne peuvent pas expliquer leurs raisonnements. shubham dhage, unsplash, CC BY

L’utilisation d’intelligences artificielles, dans certains cas, génère des risques de discriminations accrues ou encore de perte de confidentialité ; à tel point que l’Union européenne tente de réguler les usages de l’IA à travers différents niveaux de risques. Ceci pose d’autant plus question que la plupart des systèmes d’IA aujourd’hui ne sont pas en mesure de fournir des explications étayant leurs conclusions. Le domaine de l’« IA explicable » est en plein essor.


À l’hôpital, des systèmes d’intelligence artificielle (IA) peuvent aider les médecins en analysant les images médicales ou en prédisant les résultats pour les patients sur la base de données historiques. Lors d’un recrutement, des algorithmes peuvent être utilisés pour trier les CV, classer les candidats et même mener les premiers entretiens. Sur Netflix, un « algorithme de recommandation » prédit les films que vous êtes susceptible d’apprécier en fonction de vos habitudes de visionnage. Même lorsque vous conduisez, des algorithmes prédictifs sont à l’œuvre dans des applications de navigation telles que Waze et Google Maps pour optimiser les itinéraires et prédire les schémas de circulation qui devraient assurer un déplacement plus rapide.

Au bureau, ChatGPT, GitHub Copilot et d’autres outils alimentés par l’IA permettent de rédiger des courriels, d’écrire des codes et d’automatiser des tâches répétitives ; des études suggèrent que jusqu’à 30 % des heures travaillées pourraient être automatisées par l’IA d’ici à 2030.

Ces systèmes d’IA sont très variés, mais ils ont un point commun : leur fonctionnement interne et leurs résultats sont difficiles à expliquer… pas seulement pour le grand public, mais aussi pour les experts. Ce manque d’explicabilité limite le déploiement des systèmes d’IA en pratique. Pour résoudre ce problème et s’aligner sur les exigences réglementaires croissantes, un domaine de recherche connu sous le nom d’« IA explicable » (ou explicabilité) a vu le jour.

IA, apprentissage automatique… des noms qui recouvrent des systèmes variés

Avec la médiatisation généralisée de l’intelligence artificielle et son déploiement rapide, il est facile de se perdre. En particulier, de nombreux termes circulent pour désigner différentes techniques d’IA, sans que l’on sache forcément bien ce que chacun recouvre, par exemple « apprentissage automatique », « apprentissage profond » et « grands modèles de langage », pour n’en citer que quelques-uns.

En termes simples, l’IA fait référence au développement de systèmes informatiques qui effectuent des tâches nécessitant une intelligence humaine, telles que la résolution de problèmes, la prise de décision et la compréhension du langage. Elle englobe divers sous-domaines tels que la robotique, la vision par ordinateur et la compréhension du langage naturel.

Un sous-ensemble important de l’IA est l’apprentissage automatique, qui permet aux ordinateurs d’apprendre à partir de données au lieu d’être explicitement programmés pour chaque tâche. Pour simplifier, la machine observe des schémas dans les données et les utilise pour faire des prédictions ou prendre des décisions. Dans le cas d’un filtre antispam par exemple, le système est entraîné à partir de milliers d’exemples de courriers électroniques indésirables et non indésirables. Au fil du temps, il apprend des éléments – des mots, des phrases ou des détails sur l’expéditeur – qui sont courants dans les spams.

schéma représentant les relations entre différentes techniques en IA
Différentes expressions sont utilisées pour désigner un large éventail de systèmes d’IA. Elsa Couderc, CC BY

L’apprentissage profond est lui-même un sous-ensemble de l’apprentissage automatique et utilise des réseaux de neurones complexes composés de plusieurs couches afin de repérer et d’apprendre des motifs récurrents encore plus sophistiqués. L’apprentissage profond s’avère d’une valeur exceptionnelle pour travailler avec des données textuelles ou des images, et constitue la technologie de base de divers outils de reconnaissance d’images ou de grands modèles de langage tels que ChatGPT.

Réglementer l’IA

Les exemples du début de cet article montrent la grande variété d’applications possibles de l’IA dans différents secteurs. Plusieurs de ces applications, par exemple la suggestion de films sur Netflix, semblent relativement peu risquées, tandis que d’autres, comme le recrutement, l’évaluation d’éligibilité à un crédit bancaire ou le diagnostic médical, peuvent avoir un impact important sur la vie d’une personne. Il est donc essentiel que ces applications soient conformes à des critères éthiques partagés.

C’est à cause de ce besoin d’encadrement que l’Union européenne a proposé son « AI Act ». Ce cadre réglementaire classe les applications de l’IA en quatre niveaux de risque différents en fonction de leur impact potentiel sur la société et les individus : inacceptable, élevé, limité, et minimal. Chaque niveau mène à différents degrés de réglementation et d’exigences.


À lire aussi : L’Europe propose des règles pour l’intelligence artificielle


Ainsi, les systèmes d’IA à « risque inacceptable », tels que les systèmes utilisés pour le score social ou la police prédictive, sont interdits en Union européenne, car ils représentent des menaces importantes pour les droits de l’homme.

Les systèmes d’IA à « haut risque » sont autorisés, mais ils sont soumis à la réglementation la plus stricte, car ils sont susceptibles de causer des dommages importants en cas d’échec ou d’utilisation abusive, par exemple dans les secteurs sensibles que sont l’application de la loi et le maintien de l’ordre, le recrutement et l’éducation.

Les systèmes d’IA à « risque limité » comportent un certain risque de manipulation ou de tromperie, par exemple les chatbots ou les systèmes de reconnaissance des émotions, dans lesquels il est primordial que les humains soient informés de leur interaction avec le système d’IA.

Les systèmes d’IA à « risque minimal » contiennent tous les autres systèmes d’IA, tels que les filtres antispam, qui peuvent être déployés sans restrictions supplémentaires.

Le besoin d’explications, ou comment sortir l’IA de la « boîte noire »

De nombreux consommateurs ne sont plus disposés à accepter que les entreprises imputent leurs décisions à des algorithmes à boîte noire. Prenons l’exemple de l’incident Apple Card, où un homme s’est vu accorder une limite de crédit nettement plus élevée que celle de sa femme, en dépit du fait qu’ils partageaient les mêmes biens. Cet incident a suscité l’indignation du public, car Apple n’a pas été en mesure d’expliquer le raisonnement qui sous-tend la décision de son algorithme. Cet exemple met en évidence le besoin croissant d’expliquer les décisions prises par l’IA, non seulement pour garantir la satisfaction des clients et utilisateurs, mais aussi pour éviter une perception négative de la part du public.

De plus, pour les systèmes d’IA à haut risque, l’article 86 de la loi sur l’IA établit le droit de demander une explication des décisions prises par les systèmes d’IA, ce qui constitue une étape importante pour garantir la transparence des algorithmes.

Au-delà de la conformité légale, les systèmes d’IA « transparents » présentent plusieurs avantages, tant pour les propriétaires de modèles que pour les personnes concernées par les décisions.

Une IA transparente

Tout d’abord, la transparence renforce la confiance (comme dans l’affaire de l’Apple Card) : lorsque les utilisateurs comprennent le fonctionnement d’un système d’IA, ils sont plus susceptibles de l’utiliser.

Deuxièmement, la transparence contribue à éviter les résultats biaisés, en permettant aux régulateurs de vérifier si un modèle favorise injustement des groupes spécifiques.


À lire aussi : Apprendre à plusieurs endroits en même temps pour ne pas révéler ses secrets : vers une IA plus vertueuse


Enfin, la transparence permet l’amélioration continue des systèmes d’IA en révélant les erreurs ou les effets récurrents inattendus.

Globalement, il existe deux approches pour rendre les systèmes d’IA plus transparents.

Tout d’abord, on peut utiliser des modèles d’IA simples, comme les arbres de décision ou les modèles linéaires pour faire des prédictions. Ces modèles sont faciles à comprendre car leur processus de décision est simple.

Par exemple, un modèle de régression linéaire peut être utilisé pour prédire les prix des maisons en fonction de caractéristiques telles que le nombre de chambres, la superficie et l’emplacement. La simplicité réside dans le fait que chaque caractéristique est affectée d’un poids et que la prédiction est simplement la somme de ces caractéristiques pondérées : on distingue clairement comment chaque caractéristique contribue à la prédiction finale du prix du logement.

Cependant, à mesure que les données deviennent plus complexes, ces modèles simples peuvent ne plus être suffisamment performants.

C’est pourquoi les développeurs se tournent souvent vers des « systèmes boîte noire » plus avancés, comme les réseaux de neurones profonds, qui peuvent traiter des données plus importantes et plus complexes, mais qui sont difficiles à interpréter. Par exemple, un réseau de neurones profond comportant des millions de paramètres peut atteindre des performances très élevées, mais la manière dont il prend ses décisions n’est pas compréhensible pour l’homme, car son processus de prise de décision est trop vaste et trop complexe.

L’IA explicable

Une autre option consiste à utiliser ces puissants modèles malgré leur effet de « boîte noire » en conjonction avec un algorithme d’explication distinct. Cette approche, connue sous le nom d’« IA explicable », permet de bénéficier de la puissance des modèles complexes tout en offrant un certain niveau de transparence.

Une méthode bien connue pour cela est l’explication contre-factuelle, qui consiste à expliquer la décision atteinte par un modèle en identifiant les changements minimaux des caractéristiques d’entrée qui conduiraient à une décision différente.

Par exemple, si un système d’IA refuse un prêt à quelqu’un, une explication contre-factuel pourrait informer le demandeur : « Si votre revenu annuel avait été supérieur de 5 000 euros, votre prêt aurait été approuvé ». Cela rend la décision plus compréhensible, tout en conservant un modèle d’apprentissage automatique complexe et performant. L’inconvénient est que ces explications sont des approximations, ce qui signifie qu’il peut y avoir plusieurs façons d’expliquer la même décision.

Vers des usages positifs et équitables

À mesure que les systèmes d’IA deviennent de plus en plus complexes, leur potentiel de transformer la société s’accroît, tout comme leur capacité à commettre des erreurs. Pour que les systèmes d’IA soient réellement efficaces et fiables, les utilisateurs doivent pouvoir comprendre comment ces modèles prennent leurs décisions.

La transparence n’est pas seulement une question de confiance, elle est aussi cruciale pour détecter les erreurs et garantir l’équité. Par exemple, dans le cas des voitures autonomes, une IA explicable peut aider les ingénieurs à comprendre pourquoi la voiture a mal interprété un panneau d’arrêt ou n’a pas reconnu un piéton. De même, en matière d’embauche, comprendre comment un système d’IA classe les candidats peut aider les employeurs à éviter les sélections biaisées et à promouvoir la diversité.

En nous concentrant sur des systèmes d’IA transparents et éthiques, nous pouvons faire en sorte que la technologie serve les individus et la société de manière positive et équitable.


Créé en 2007 pour accélérer et partager les connaissances scientifiques sur les grands enjeux sociétaux, le Fonds Axa pour la Recherche a soutenu près de 700 projets dans le monde entier, menés par des chercheurs originaires de 38 pays. Pour en savoir plus, consultez le site Axa Research Fund ou suivez-nous sur Twitter @AXAResearchFund.

The Conversation

David Martens a reçu des financements de AXA JRI.

Sofie Goethals a reçu des financements de Flemish Research Foundation.

Apprendre à plusieurs endroits en même temps pour ne pas révéler ses secrets : vers une IA plus vertueuse

Les stéréotypes s’immiscent dans les modèles d’intelligence artificielle. Amir Geshani, Unsplash, CC BY

Les données utilisées pour entraîner les IA reflètent les stéréotypes et les préjugés de la société, par exemple envers des groupes sous-représentés. Pour conserver la confidentialité de données sensibles, comme les données de santé, tout en garantissant qu’elles ne sont pas biaisées, il faut adapter les méthodes d’apprentissage.


Plusieurs scandales ont éclaté ces dernières années, mettant en cause des systèmes d’aide à la décision basés sur l’intelligence artificielle (IA) qui produisent des résultats racistes ou sexistes.

C’était le cas, par exemple, de l’outil de recrutement d’Amazon qui exhibait des biais à l’encontre des femmes, ou encore du système guidant les soins hospitaliers dans un hôpital américain qui privilégiait systématiquement les patients de couleur blanche par rapport aux patients noirs. En réponse au problème de biais dans l’IA et les algorithmes d’apprentissage automatique, des législations ont été proposées, telles que le AI Act dans l’Union européenne, ou le National AI Initiative Act aux États-Unis.

Un argument largement repris concernant la présence de biais dans l’IA et les modèles d’apprentissage automatique est que ces derniers ne font que refléter une vérité de terrain : les biais sont présents dans les données réelles. Par exemple, des données de patients ayant une maladie touchant spécifiquement les hommes résultent en une IA biaisée envers les femmes, sans que cette IA soit pour autant incorrecte.

Si cet argument est valide dans certains cas, il existe de nombreux cas où les données ont été collectées de manière incomplète et ne reflètent pas la diversité de la réalité terrain, ou encore des données qui incluent des cas statistiquement rares et qui vont être sous-représentés, voire non représentés dans les modèles d’apprentissage automatique. C’est le cas, par exemple, de l’outil de recrutement d’Amazon qui exhibait un biais envers les femmes : parce que les femmes travaillant dans un secteur sont statistiquement peu nombreuses, l’IA qui en résulte rejette tout simplement les candidatures féminines.


À lire aussi : Le cruel dilemme des données de santé à l’ère de l’IA : vie privée ou équité ?


Et si plutôt que refléter, voire exacerber une réalité actuelle dysfonctionnelle, l’IA pouvait être vertueuse et servir à corriger les biais dans la société, pour une société plus inclusive ? C’est ce que proposent les chercheurs avec une nouvelle approche : l’« apprentissage fédéré ».

Vers une IA décentralisée

Les systèmes d’aide à la décision basés sur l’IA se basent sur des données. En effet, dans les approches classiques d’apprentissage automatique, les données provenant de plusieurs sources doivent tout d’abord être transmises à un dépôt (par exemple, un serveur sur le cloud) qui les centralise, avant d’exécuter un algorithme d’apprentissage automatique sur ces données centralisées.

Or ceci soulève des questions de protection des données. En effet, conformément à la législation en vigueur, un hôpital n’a pas le droit d’externaliser les données médicales sensibles de ses patients, une banque n’a pas le droit d’externaliser les informations privées des transactions bancaires de ses clients.


À lire aussi : Emploi, sécurité, justice : d’où viennent les « biais » des IA et peut-on les éviter ?


Par conséquent, pour mieux préserver la confidentialité des données dans les systèmes d’IA, les chercheurs développent des approches basées sur une IA dite « distribuée », où les données restent sur les sites possesseurs de données, et où les algorithmes d’apprentissage automatique s’exécutent de manière distribuée sur ces différents sites — on parle également d’« apprentissage fédéré ».

Concrètement, chaque possesseur de données (participant à l’apprentissage fédéré) entraîne un modèle local sur la base de ses propres données, puis transmet les paramètres de son modèle local à une entité tierce qui effectue l’agrégation des paramètres de l’ensemble des modèles locaux (par exemple, via une moyenne pondérée selon le volume de données de chaque participant). Cette dernière entité produit alors un modèle global qui sera utilisé par les différents participants pour effectuer leurs prédictions.

Ainsi, il est possible de construire une connaissance globale à partir des données des uns et des autres, sans pour autant révéler ses propres données et sans accéder aux données des autres. Par exemple, les données médicales des patients restent dans chaque centre hospitalier les possédant, et ce sont les algorithmes d’apprentissage fédéré qui s’exécutent et se coordonnent entre ces différents sites.

Avec une telle approche, il sera possible pour un petit centre hospitalier dans une zone géographique moins peuplée que les grandes métropoles — et donc possédant moins de données médicales que dans les grands centres hospitaliers, et par conséquent, possédant a priori une IA moins bien entraînée — de bénéficier d’une IA reflétant une connaissance globale, entraînée de manière décentralisée sur les données des différents centres hospitaliers.

D’autres cas d’applications similaires peuvent être mentionnés, impliquant plusieurs banques pour construire une IA globale de détection de fraudes, plusieurs bâtiments intelligents pour déterminer une gestion énergétique appropriée, etc.

Les biais dans l’IA décentralisée sont plus complexes à appréhender

Comparée à l’approche classique d’apprentissage automatique centralisé, l’IA décentralisée et ses algorithmes d’apprentissage fédéré peuvent, d’une part, exacerber encore plus le biais, et d’autre part, rendre le traitement du biais plus difficile.

En effet, les données locales des participants à un système d’apprentissage fédéré peuvent avoir des distributions statistiques très hétérogènes (des volumes de données différents, des représentativités différentes de certains groupes démographiques, etc.). Un participant contribuant à l’apprentissage fédéré avec un grand volume de données aura plus d’influence sur le modèle global qu’un participant avec un faible volume de données. Si ce dernier est dans d’une certaine zone géographique qui représente un groupe social en particulier, celui-ci ne sera malheureusement pas, ou très peu, reflété dans le modèle global.

Par ailleurs, la présence de biais dans les données d’un des participants à un système d’apprentissage fédéré peut entraîner la propagation de ce biais vers les autres participants via le modèle global. En effet, même si un participant a veillé à avoir des données locales non biaisées, il héritera du biais présent chez d’autres.

Et plus difficiles à corriger

De plus, les techniques classiquement utilisées pour prévenir et corriger le biais dans le cas centralisé ne peuvent pas s’appliquer directement à l’apprentissage fédéré. En effet, l’approche classique de correction du biais consiste principalement à prétraiter les données avant l’apprentissage automatique pour que les données aient certaines propriétés statistiques et ne soient donc plus biaisées ?


À lire aussi : Apprendre à oublier : le nouveau défi de l’intelligence artificielle


Or dans le cas d’une IA décentralisée et d’apprentissage fédéré, il n’est pas possible d’accéder aux données des participants, ni d’avoir une connaissance des statistiques globales des données décentralisées.

Dans ce cas, comment traiter le biais dans les systèmes d’IA décentralisée ?

Mesurer le biais de l’IA sans avoir accès aux données décentralisées

Une première étape est de pouvoir mesurer les biais des données décentralisées chez les participants à l’apprentissage fédéré, sans avoir directement accès à leurs données.

Avec mes collègues, nous avons conçu une nouvelle méthode pour mesurer et quantifier les biais dans les systèmes d’apprentissage fédéré, sur la base de l’analyse des paramètres des modèles locaux des participants à l’apprentissage fédéré. Cette méthode a l’avantage d’être compatible avec la protection des données des participants, tout en permettant la mesure de plusieurs métriques de biais.

Capturer l’interdépendance entre plusieurs types de biais, et les corriger dans l’IA décentralisée

Mais il peut aussi y avoir plusieurs types de biais démographiques, qui se déclinent selon différents attributs sensibles (le genre, la race, l’âge, etc.), et nous avons démontré qu’atténuer un seul type de biais peut avoir pour effet collatéral l’augmentation d’un autre type de biais. Il serait alors dommage qu’une solution d’atténuation du biais lié à la race, par exemple, provoque une exacerbation du biais lié au genre.

Nous avons alors proposé une méthode multi-objectifs pour la mesure complète des biais et le traitement conjoint et cohérent de plusieurs types de biais survenant dans les systèmes d’apprentissage fédéré.


Ces travaux sont le fruit d’une collaboration avec des collègues chercheurs, doctorants et stagiaires : Pascal Felber, (Université de Neuchâtel), Valerio Schiavoni (Université de Neuchâtel), Angela Bonifati (Université Lyon 1), Vania Marangozova (Université Grenoble Alpes), Nawel Benarba (INSA Lyon), Yasmine Djebrouni (Université Grenoble Alpes), Ousmane Touat (INSA Lyon).

Le projet CITADEL est soutenu par l’Agence nationale de la recherche (ANR), qui finance en France la recherche sur projets. Elle a pour mission de soutenir et de promouvoir le développement de recherches fondamentales et finalisées dans toutes les disciplines, et de renforcer le dialogue entre science et société. Pour en savoir plus, consultez le site de l’ANR.

The Conversation

Le projet ANR CITADEL (ANR-24-CE25-6501) soutient en partie ces travaux.

Aux sources de l’IA : le prix Nobel de physique attribué aux pionniers des réseaux de neurones artificiels et de l’apprentissage machine

Portraits de John Hopfield et Geoffrey Hinton, lauréats du prix Nobel de physique 2024 pour leurs découvertes et inventions qui ont permis de développer l'apprentissage machine avec des réseaux de neurones artificiels. Niklas Elmehed © Nobel Prize Outreach

Le prix Nobel de physique 2024 récompense des travaux précurseurs de John Hopfield et Geoffrey Hinton sur les réseaux de neurones artificiels, à la base de l’apprentissage machine. Ces travaux ont participé au développement de l’intelligence artificielle, qui chamboule aujourd’hui de nombreux secteurs d’activité.


C’est à une question simple que John Hopfield et Geoffrey Hinton ont apporté une réponse qui leur vaut aujourd’hui le prix Nobel de physique : « Quelle est la description la plus simple que nous pourrions faire de nos neurones, ces composants du cerveau, siège de notre intelligence ? »

Un neurone, qu’il soit artificiel ou biologique, est une petite unité de calcul, qui prend des valeurs en entrée, les combine très simplement (un simple calcul de moyenne pondérée avec des coefficients comme les notes du bac, ces paramètres permettant d’ajuster le fonctionnement de cette unité) et applique une transformation sur le résultat (par exemple en ne gardant que les valeurs positives, ou en regardant si le résultat est au dessus ou au dessous d’un seuil).

Le point levier est qu’en combinant un très très grand nombre de telles unités, sur plusieurs couches, parfois avec des boucles, on a pu démontrer que l’on pouvait approximer tous les calculs possibles, même les plus complexes.

Avec les propositions initiales, dès les années 1950, il eut fallu un nombre rédhibitoire de ces « neurones » artificiels, pour faire des applications utiles.

Mais au fil des années et des travaux d’ingénierie en informatique, par exemple avec les travaux de Yann LeCun, on a pu arriver à une si grande efficacité, que ces monstres de calcul peuvent transformer notre parole en texte, catégoriser des images, donner des résultats statistiques sur toutes sortes de données humaines, y compris médicales, juridiques et… militaires. Les travaux des lauréats sont non seulement fondateurs, mais ont aussi inspiré des travaux avec de nouvelles architectures qui ont pu mener aux performances d’aujourd’hui.

Comment ajuster les milliards de paramètres de toutes ces unités de calcul ?

Chaque unité de calcul — chaque neurone — est donc définie par des paramètres qui pondèrent les entrées prises en compte. Mais comment les ajuster ?

C’est la question majeure : notre cerveau, avec presque 100 milliards de neurones et près de 10 000 fois plus de connexions (donc millions de milliards) donc autant de paramètres à ajuster (en prenant les choses au plus simple), a mis plusieurs millions d’années, de génération en génération, pour obtenir les connexions actuelles qui font émerger notre intelligence. Et consomme aujourd’hui à peu près l’équivalent d’une unique ampoule électrique.

En regard, ce sont quelques milliards de paramètres qui sont ajustés pour entraîner les plus gros réseaux de calculs artificiels, comme les agents conversationnels. Et ceci se fait au prix de consommations énergétiques colossales et clairement préjudiciables.


À lire aussi : Apprentissage profond et consommation énergétique : la partie immergée de l’IA-ceberg


De plus, pour ajuster ces paramètres, il faut des milliards de données, chaque lot de données permettant de modifier progressivement les paramètres pour que le résultat obtenu corresponde au mieux au résultat attendu.

Avec les réseaux de neurones, on ne programme plus en changeant l’algorithme, mais en ajustant l’architecture d’un algorithme universel et ses paramètres avec des données.

Et cela bouleverse le monde à plusieurs niveaux

Tout d’abord parce que ces algorithmes, qui ne sont finalement que d’aveugles calculs statistiques sans aucun sens des choses, sont néanmoins « déraisonnablement » efficaces pour traiter un problème précis et surpassent la capacité de notre cerveau à prendre en compte de telles masses de données. Nous avons mis au point des outils qui vont au-delà de la partie « mécanique » de nos capacités cognitives, mais que nous devons utiliser en gardant notre discernement et notre libre arbitre humain.

Ensuite, parce que les machines qui exécutent ces algorithmes sont gigantesques, cela crée à la fois un enjeu environnemental majeur, et des fractures socio-économiques entre qui peut assumer de tels coûts (en milliards d’euros) et qui n’en dispose pas.


À lire aussi : L’échiquier mondial de l’IA : entre régulations et soft power


Cela questionne également notre propre intelligence humaine : que veut dire être intelligent, au fond ? Avec ces algorithmes, beaucoup de ce que nous pensions « intelligent » de la part de notre cerveau, n’est peut-être qu’un simple calcul statistique. Et à l’inverse, croire qu’une intelligence artificielle générale va singulièrement apparaître n’est pas une prédiction scientifique, mais reste — et restera — du domaine de la croyance.

« L’intelligence artificielle est ce que nous pouvons faire faire à une machine et qui aurait été intelligent si cela avait été fait par un humain » Marvin Minsly, co-fondateur de l’intelligence algorithmique, dite « artificielle » (Scientific conference at Dartmouth College, 1956)


À lire aussi : Y a-t-il de l’intelligence dans l’intelligence artificielle ?


The Conversation

Thierry Viéville ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Apprendre à oublier : le nouveau défi de l’intelligence artificielle

Alors que le prix Nobel de physique 2024 vient d'être attribué à John Hopfield et Geoffrey Hinton pour leurs travaux sur les réseaux de neurones artificiels qui ont posé les bases du machine learning (apprentissage machine), nos chercheurs abordent les défis qu'ils cherchent à relever aujourd'hui, dans la lignée des travaux lauréats.

Car si les réseaux de neurones savent désormais très bien apprendre, il leur est pour l'instant difficile d'oublier ce qu'ils savent.


Vos données vous appartiennent. Du moins, c’est ce que prévoit la loi européenne sur la régulation des données (RGPD). D’une part, elle limite la collecte de vos données par les entreprises privées à ce que vous avez consenti. D’une autre, elle vous permet de demander l’effacement total des informations vous concernant des serveurs de cet acteur : il s’agit du droit à l’oubli. C’est ce second volet qui nous intéresse ici, et son applicabilité dans le monde moderne. Si supprimer quelques lignes d’une base de données n’a rien de compliqué, la tâche devient nettement plus périlleuse quand l’intelligence artificielle (IA) entre en jeu.

En effet, des modèles d’IA de plus en plus complexes, fondés sur des réseaux de neurones artificiels, sont déjà déployés par de nombreux acteurs privés. Ces modèles ont besoin d’apprendre à partir d’un maximum de données pour être performants. Ainsi, la présence d’informations vous concernant dans les serveurs d’une entreprise implique souvent son utilisation pour l’entraînement de ses modèles d’IA. Dès lors, l’oubli de vos données passe de la simple suppression d’une ligne dans un tableau à une opération complexe s’approchant plus de la neurochirurgie appliquée à des « cerveaux » artificiels. Alors, comment réussir à faire oublier une information précise à un réseau de neurones artificiel ?

Oublier les données : des enjeux d’éthique et de vie privée

L’application au cas de la protection des données est importante, mais l’enjeu de l’oubli machine, également appelé désapprentissage, ne s’arrête pas là. L’utilisation d’informations protégées pour l’entraînement de réseaux de neurones artificiels est encore une zone grise aux yeux de la loi. Plusieurs cas de ce type sont en train d’être traités par la justice dans différents pays et ils pourraient marquer un précédent important pour le futur de la législation de l’intelligence artificielle.

Exemple notable : dans certains cas de figure, ChatGPT est capable de réciter des paragraphes entiers d’articles du New York Times, sans pour autant citer sa source. Le quotidien américain a donc porté plainte contre OpenAI, la société développant ChatGPT, et l’issu du procès pourrait bien orienter la jurisprudence future dans le domaine. Toutefois, l’oubli machine ne se limite pas à l’utilisation des données personnelles ou commerciales. En effet, la tendance mondiale depuis quelques années est à l’entraînement de modèles de plus en plus imposants, notamment dans le domaine du traitement du langage où les progrès faits sont impressionnants. Il devient donc de plus en plus compliqué de contrôler la légitimité des données utilisées pour entraîner des IA.

Si GPT-3, le modèle d’OpenAI de 2020, avait appris d’un corpus représentant 2 400 années de lecture continue pour un humain moyen, ce chiffre n’a fait qu’augmenter, rendant la vérification manuelle impossible. Qu’il s’agisse d’affirmations fausses, de contenus racistes ou sexistes, ou bien de coordonnées personnelles d’individus, il y a fort à parier que certains se glissent malencontreusement dans les données d’entraînement et donc dans les connaissances d’un tel modèle. L’absence actuelle de méthodes d’oubli efficaces signifie alors qu’en cas d’infiltration de données non voulues, il n’y aura pas de réelle solution pour effacer cette information outre le réentraînement, dont le coût se chiffre en dizaines de millions d’euros et en centaines de tonnes de CO2.

Comment les neurones artificiels apprennent-ils ?

Pour comprendre la difficulté liée à la suppression d’informations dans un réseau de neurones, il est utile d’avoir une idée de comment un tel réseau « apprend ». Prenons un réseau de neurones chargé de différencier des images de chiens et de chats. L’ensemble des images labellisées (c’est-à-dire avec une légende « chien » ou « chat ») utilisé par le réseau de neurones pour apprendre est appelé « jeu d’entraînement ».

Le réseau est initialisé aléatoirement : on crée des neurones artificiels, organisés en couches, et connectés entre eux. La force de ces connexions, appelée « poids », est l’équivalent des connexions neuronales d’un cerveau réel. Ces poids permettent de caractériser la façon dont l’entrée (l’image de chien ou de chat) est traitée, transformée et envoyée entre les différents neurones du « cerveau » artificiel, pour que ressorte finalement un score entre 0 et 1. Un score de 0 (ou de 1) correspond à la certitude absolue que l’image est un chat (ou un chien), et un score de 0,5 correspond à une incertitude totale entre les deux. Des outils ludiques permettent de se représenter le fonctionnement d’un réseau de neurones).

Pendant la phase dite « d’apprentissage », des images du jeu d’entraînement sont montrées au réseau de neurones, qui prédit un label pour chacune d’entre elles. On donne ensuite au réseau le vrai label qui était attendu. Le modèle peut alors calculer l’erreur qu’il a faite. C’est là que la magie va opérer. À partir de la seule information de l’erreur commise, le réseau va mettre à jour l’ensemble de ses poids pour tenter de la corriger. Cette modification utilise des règles de calcul simples à l’échelle d’un neurone, mais incompréhensible pour l’humain à l’échelle du réseau entier.

Où se trouvent les données, une fois le modèle entraîné ?

C’est de là que vient un paradoxe, souvent difficile à comprendre pour les non-initiés : même si l’humain a conçu de A à Z ces architectures d’intelligence artificielle, le système qui en résulte n’est pas totalement compréhensible par son créateur. Certains groupes de neurones sont relativement bien compris par les chercheurs. Toutefois, le rôle précis de chacun des neurones est mal connu et également sujet à interprétation. Il est donc ardu de répondre à une question du type « trouvez l’ensemble des neurones servant à identifier la queue du chien », d’autant que les neurones sont fortement connectés entre eux et que réduire un neurone à une seule fonctionnalité est généralement impossible.

La question posée lorsque l’on cherche à faire du désapprentissage est encore plus difficile : comment chacun des neurones du réseau aurait-il été impacté si on n’avait jamais traité l’image de chat n° 45872 ? Il ne s’agit pas alors d’altérer la capacité du réseau à reconnaître les chats – cette image peut très bien apporter peu d’informations – ni de supprimer l’image de la base de données puisque ce qu’en a appris le réseau est stocké, comme pour un cerveau humain, dans les poids liant les neurones. Il faut alors tâcher d’identifier les connexions neuronales (poids) qui ont le plus appris de cette image en particulier, et modifier leur intensité dans le but de détruire l’information associée à la donnée dont on veut simuler l’oubli.

Différentes pistes vers le désapprentissage

Trois critères principaux assurent un désapprentissage efficace. D’abord, l’oubli doit se faire assez rapidement, sinon il est plus simple de réentraîner le modèle entièrement. Ensuite, les performances du réseau sur les données restantes (non oubliées) doivent rester bonnes. Enfin, l’oubli de l’information doit être assuré par la procédure. Ce dernier point est le plus délicat étant donné qu’il consiste en la vérification de l’absence d’une information. Quantifier mathématiquement les capacités d’oubli de la méthode est donc crucial.

Parmi les méthodes envisagées dans la littérature, beaucoup se reposent sur une phase d’apprentissage sur les données restantes. Ce réentraînement permet au réseau de mettre à jour ses poids pour se spécialiser uniquement sur ces données. Le but est « d’écraser » au fur et à mesure l’information des données à oublier, comme le fait par exemple le cerveau humain pour une langue non pratiquée.

D’autres méthodes essaient d’utiliser les données à oublier pour inverser le processus d’apprentissage. Si cette idée peut sembler très intuitive, nous n’avons à ce jour aucune garantie mathématique sur la quantification de l’oubli qu’elle permet. De plus, son instabilité peut parfois mener à une dégradation globale des performances du modèle.

Enfin, certains misent sur une modification du processus d’entraînement pour faciliter l’oubli futur de données. En fournissant petit à petit les données d’entraînement au réseau, l’oubli peut se faire par un simple retour en arrière jusqu’à un point où le réseau n’a pas vu la donnée à oublier. Il est suivi d’une phase de réentraînement sur les données restantes. La limite de ce type d’approche est l’existence nécessaire de « premières données » vues par le modèle, ce qui forcerait celui-ci à être réinitialisé entièrement en cas de demande d’oubli. On ne peut en effet pas « ôter » l’effet de ces premières données sur le modèle : isoler exactement l’impact d’une donnée est aussi cher que d’entraîner un modèle de A à Z.

Un déploiement encore balbutiant

Le domaine de l’oubli machine est vaste et comporte de nombreux défis. Bien qu’aucune méthode ne soit encore parfaite, des progrès significatifs sont à attendre dans les prochaines années du fait de la demande croissante pour ce type de solutions. Bien que le domaine du désapprentissage soit encore jeune et qu’aucune application industrielle n’ait été rendue publique, certaines entreprises comme Google ou JPMorgan Chase s’intéressent de près au sujet.

L’oubli machine pose un défi complexe mais essentiel à l’ère de l’intelligence artificielle et de la protection des données personnelles. Bien que la réglementation comme le RGPD vise à garantir les droits des individus, sa mise en œuvre dans les réseaux de neurones est difficile. Les approches actuelles montrent des progrès, mais nous sommes encore à l’avant-garde de cette problématique. L’investissement de grandes entreprises suggère un avenir pérenne pour le domaine, offrant des méthodes plus robustes pour assurer le désapprentissage et renforcer la confiance des utilisateurs dans les systèmes d’IA.

The Conversation

Martin Van Waerebeke est doctorant à l'INRIA Paris, un organisme public. Son financement de thèse dépend du projet INRIA FedMalin.

Marco Lorenzi est membre du Centre Inria d'Université Côte d'Azur et de l'Institut Interdisciplinaire d'Intelligence Artificielle 3IA Côte d'Azur.

  • ✇apprentissage profond (deep learning) – The Conversation
  • Comment une IA génère-t-elle une image ?
    Chaque semaine, nos scientifiques répondent à vos questions dans un format court et accessible, l’occasion de poser les vôtres ici ! Depuis une victoire face aux meilleurs joueurs humains de Go, par exemple, ou plus récemment, la prévision de la météo avec une précision jamais atteinte, les avancées des IA se poursuivent et continuent de surprendre. Un résultat encore plus déconcertant est celui de la génération d’images d’un réalisme saisissant alimentant une confusion certaine entre le vrai

Comment une IA génère-t-elle une image ?

Chaque semaine, nos scientifiques répondent à vos questions dans un format court et accessible, l’occasion de poser les vôtres ici !


Depuis une victoire face aux meilleurs joueurs humains de Go, par exemple, ou plus récemment, la prévision de la météo avec une précision jamais atteinte, les avancées des IA se poursuivent et continuent de surprendre. Un résultat encore plus déconcertant est celui de la génération d’images d’un réalisme saisissant alimentant une confusion certaine entre le vrai et le faux. Mais comment ces images sont-elles générées automatiquement ?

Les modèles de génération d’images reposent sur l’apprentissage profond, c’est-à-dire des réseaux de neurones de très grande taille pouvant atteindre plusieurs milliards de paramètres. Un réseau de neurones peut être considéré comme une fonction qui va associer à des données en entrée, des prédictions en sortie. Cette fonction est composée d’un ensemble de paramètres (des valeurs numériques) initialement aléatoires que le réseau va apprendre à fixer par apprentissage.

Pour donner un ordre de grandeur, le modèle Stable Diffusion, capable de générer des images réalistes est composé de 8 milliards de paramètres et son entraînement a coûté 600 000 dollars.

Ces paramètres, il faut les apprendre. Pour expliquer leur apprentissage, nous pouvons nous intéresser au cas plus simple de la détection d’objets à partir d’images. Une image est présentée en entrée du réseau et celui-ci doit prédire en sortie des étiquettes d’objets possibles (voiture, personne, chat…).

L’apprentissage consiste alors à trouver une bonne combinaison de paramètres permettant de prédire le plus correctement possible les objets présents dans les images. La qualité de l’apprentissage dépendra principalement de la quantité de données étiquetées, de la taille des modèles et de la puissance de calcul disponible.

Dans le cas de la génération d’images, c’est en quelque sorte le processus inverse que l’on souhaite faire : à partir d’un texte décrivant une scène, est attendue en sortie du modèle la création d’une image correspondant à cette description, ce qui est considérablement plus complexe que de prédire une étiquette.

Détruire pour créer

Dans un premier temps, oublions le texte et focalisons-nous sur l’image seule. Si générer une image est un processus complexe même pour un être humain, détruire une image (le problème inverse) est un problème trivial. Concrètement, à partir d’une image composée de pixels, changer la couleur de certains pixels aléatoirement constitue une méthode simple d’altération.

Nous pouvons présenter en entrée d’un réseau de neurones une image légèrement altérée et en sortie lui demander de prédire l’image d’origine. Nous pouvons alors entraîner le modèle à apprendre à débruiter des images, ce qui représente un premier pas vers la génération d’images. Ainsi, si l’on part d’une image fortement bruitée et que l’on réitère l’appel du modèle séquentiellement, nous obtiendrons à chaque appel une image de moins en moins bruitée jusqu’à obtenir une image entièrement débruitée.

Si nous exagérons le processus, nous pourrions alors partir d’une image composée uniquement de bruit (une neige de pixels aléatoires), autrement dit une image de rien et réitérer les appels à notre modèle « débruiteur » afin d’aboutir à une image comme illustré ci-dessous :

Nous avons alors un processus capable de générer des images mais d’un intérêt limité car, en fonction du bruit aléatoire, il peut après plusieurs itérations aboutir à générer n’importe quoi comme image de sortie. Nous avons donc besoin d’une méthode pour guider le processus de débruitage et c’est le texte qui sera utilisé pour cette tâche.

Du bruit à l’image

Pour le processus de débruitage nous avons besoin d’images, celles-ci proviennent d’internet et permettent de constituer le jeu de données d’apprentissage. Pour le texte nécessaire au guidage du débruitage, ce sont tout simplement les légendes des images trouvées sur Internet qui sont utilisées. Parallèlement à l’apprentissage du débruitage de l’image, un réseau représentant le texte est associé. Ainsi, lorsque le modèle apprend à débruiter une image, il apprend également à quels mots ce débruitage est associé. L’apprentissage terminé, nous obtenons un modèle qui à partir d’un texte descriptif et d’un bruit total va, par itération successive, éliminer le bruit pour converger vers une image collant à la description textuelle.

Le processus permet de s’affranchir d’un étiquetage manuel spécifique. Il se nourrit des millions d’images associées à leurs légendes déjà présentes sur le web. Pour finir, une image valant mille mots, en guise d’exemple, l’image ci-dessus est générée à partir du texte suivant : « fried egg flowers in the bacon garden (fleurs d’œufs frits dans un jardin de bacon) » par le modèle Stable Diffusion.

The Conversation

Christophe Rodrigues ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Depuis Garry Kasparov contre Deep Blue, ce que nous apprend l’histoire des échecs sur les risques de l’IA

En 1997, le champion du monde d’échecs Garry Kasparov perd pour la première fois de l’histoire un match face à un ordinateur, Deep Blue. Cet événement historique pour le jeu comme pour l’informatique est aujourd’hui porté à l’écran dans une minisérie d’Arte, Remacth. 27 ans plus tard, qu’est-ce que la défaite de l’humain contre la machine nous a appris, et ces leçons peuvent-elles éclairer l’arrivée massive de l’IA dans nos vies ?


Les récents progrès de l’intelligence artificielle (IA), comme le développement des IA génératives avec l’apparition de ChatGPT en novembre 2022, ont soulevé beaucoup d’interrogations, d’espoirs, et de craintes. Courant printemps 2023, le Congrès américain a auditionné OpenAI, la société ayant développé ChatGPT et l’Union européenne vient d’adopter son premier texte législatif au sujet de l’IA.

Dans les parlements comme sur les réseaux sociaux, les rapides progrès de l’IA animent les discussions. À l’avenir, à quels impacts faut-il s’attendre sur notre société ? Pour tenter de répondre à cette question de manière dépassionnée, nous proposons de regarder ce qui s’est passé dans un secteur qui a déjà connu l’arrivée et la victoire de l’IA sur les capacités humaines : les échecs. La machine y a en effet un niveau supérieur à celui des humains depuis maintenant plus d’un quart de siècle.

Pourquoi le jeu d’échecs comme indicateur ?

Depuis les débuts de l’informatique, les échecs ont été utilisés comme un indicateur des progrès logiciels et matériels. C’est un jeu intéressant à de multiples niveaux pour étudier les impacts des IA sur la société :

  1. C’est une activité intellectuelle qui demande différentes compétences : visualisation spatiale, mémoire, calcul mental, créativité, capacité d’adaptation, etc., compétences sur lesquelles l’IA vient concurrencer l’esprit humain.

  2. Le jeu n’a pas changé depuis des siècles. Les règles sont bien établies et cela donne une base stable pour étudier l’évolution des joueurs.

  3. Il est possible de mesurer la force des machines de manière objective et de comparer ce niveau à celui des humains avec le classement Elo.

  4. Le champ d’études est restreint : il est clair que les échecs ne sont qu’un tout petit aspect de la vie, mais c’est justement le but. Cette étroitesse du sujet permet de mieux cibler les impacts des IA sur la vie courante.

  5. Les IA ont dépassé le niveau des meilleurs joueurs humains depuis plus de 20 ans. Il est donc possible de voir quels ont été les impacts concrets sur le jeu d’échecs et la vie de sa communauté, qui peut être vue comme un microcosme de la société. On peut également étudier ces impacts en regard de la progression des IA au cours du temps.

Explorons quelles ont été les évolutions dans le monde des échecs depuis que Garry Kasparov, alors champion du monde en titre, a perdu une partie contre Deep Blue en 1996, puis le match revanche joué en 1997. Nous allons passer en revue plusieurs thèmes qui reviennent dans la discussion sur les risques liés aux IA et voir ce qu’il en a été de ces spéculations dans le domaine particulier des échecs.

Les performances de l’IA vont-elles continuer à augmenter toujours plus vite ?

Il existe deux grandes écoles pour programmer un logiciel d’échecs : pendant longtemps, seule la force brute fonctionnait. Il s’agissait essentiellement de calculer le plus vite possible pour avoir un arbre de coups plus profonds, c’est-à-dire capable d’anticiper la partie plus loin dans le futur.

Un arbre des coups : une situation initiale, 3 positions possibles au coup d’après, puis pour chaque position encore 3 possibilités
À partir d’une position initiale, l’ordinateur calcule un ensemble de possibilités, à une certaine profondeur, c’est-à-dire un nombre de coups futurs dans la partie. Chris Butner, CC BY-SA

Aujourd’hui, la force brute est mise en concurrence avec des techniques d’IA issues des réseaux de neurones. En 2018, la filiale de Google DeepMind a produit AlphaZero, une IA d’apprentissage profond par réseau de neurones artificiels, qui a appris tout seul en jouant contre lui-même aux échecs. Parmi les logiciels les plus puissants de nos jours, il est remarquable que LC0, qui est une IA par réseau de neurones, et Stockfish, qui est essentiellement un logiciel de calcul par force brute, aient tous les deux des résultats similaires. Dans le dernier classement de l’Association suédoise des échecs sur ordinateur (SSDF), ils ne sont séparés que de 4 points Elo : 3 582 pour LC0 contre 3 586 pour Stockfish. Ces deux manières totalement différentes d’implanter un moteur d’échecs sont virtuellement indistinguables en termes de force.

En termes de points Elo, la progression des machines a été linéaire. Le graphique suivant donne le niveau du meilleur logiciel chaque année selon le classement SSDF qui a commencé depuis le milieu des années 1980. Le meilleur logiciel actuel, LC0, en est à 3586, ce qui prolonge la figure comme on pourrait s’y attendre.

Cette progression linéaire est en fait le reflet d’une progression assez lente des logiciels. En effet, le progrès en puissance de calcul est, lui, exponentiel. C’est la célèbre loi de Moore qui stipule que les puissances de calcul des ordinateurs doublent tous les dix-huit mois.

Cependant, Ken Thompson, informaticien américain ayant travaillé dans les années 80 sur Belle, à l’époque le meilleur programme d’échecs, avait expérimentalement constaté qu’une augmentation exponentielle de puissance de calcul conduisait à une augmentation linéaire de la force des logiciels, telle qu’elle a été observée ces dernières dizaines d’années. En effet, le fait d’ajouter un coup supplémentaire de profondeur de calcul implique de calculer bien plus de nouvelles positions. On voit ainsi que l’arbre des coups possibles est de plus en plus large à chaque étape.

Les progrès des IA en tant que tels semblent donc faibles : même si elles ne progressaient pas, on observerait quand même une progression de la force des logiciels du simple fait de l’amélioration de la puissance de calcul des machines. On ne peut donc pas accorder aux progrès de l’IA tout le crédit de l’amélioration constante des ordinateurs aux échecs.

La réception par la communauté de joueurs d’échecs

Avec l’arrivée de machines puissantes dans le monde des échecs, la communauté a nécessairement évolué. Ce point est moins scientifique mais est peut-être le plus important. Observons quelles ont été ces évolutions.

« Pourquoi les gens continueraient-ils de jouer aux échecs ? » Cette question se posait réellement juste après la défaite de Kasparov, alors que le futur des échecs amateurs et professionnels paraissait sombre. Il se trouve que les humains préfèrent jouer contre d’autres humains et sont toujours intéressés par le spectacle de forts grands maîtres jouant entre eux, et ce même si les machines peuvent déceler leurs erreurs en temps réel. Le prestige des joueurs d’échecs de haut niveau n’a pas été diminué par le fait que les machines soient capables de les battre.

Le style de jeu a quant à lui été impacté à de nombreux niveaux. Essentiellement, les joueurs se sont rendu compte qu’il y avait beaucoup plus d’approches possibles du jeu qu’on le pensait. C’est l’académisme, les règles rigides, qui en ont pris un coup. Encore faut-il réussir à analyser les choix faits par les machines. Les IA sont par ailleurs très fortes pour pointer les erreurs tactiques, c’est-à-dire les erreurs de calcul sur de courtes séquences. En ligne, il est possible d’analyser les parties de manière quasi instantanée. C’est un peu l’équivalent d’avoir un professeur particulier à portée de main. Cela a sûrement contribué à une augmentation du niveau général des joueurs humains et à la démocratisation du jeu ces dernières années. Pour le moment, les IA n’arrivent pas à prodiguer de bons conseils en stratégie, c’est-à-dire des considérations à plus long terme dans la partie. Il est possible que cela change avec les modèles de langage, tel que ChatGPT.

Les IA ont aussi introduit la possibilité de tricher. Il y a eu de nombreux scandales à ce propos, et on se doit de reconnaître qu’il n’a pas à ce jour de « bonne solution » pour gérer ce problème qui rejoint les interrogations des professeurs qui ne savent plus qui, de ChatGPT ou des étudiants, leur rendent les devoirs.

Conclusions temporaires

Cette revue rapide semble indiquer qu’à l’heure actuelle, la plupart des peurs exprimées vis-à-vis des IA ne sont pas expérimentalement justifiées. Le jeu d’échecs est un précédent historique intéressant pour étudier les impacts de ces nouvelles technologies quand leurs capacités se mettent à dépasser celles des humains. Bien sûr, cet exemple est très limité, et il n’est pas possible de le généraliser à l’ensemble de la société sans précaution. En particulier, les modèles d’IA qui jouent aux échecs ne sont pas des IA génératives, comme ChatGPT, qui sont celles qui font le plus parler d’elles récemment. Néanmoins, les échecs sont un exemple concret qui peut être utile pour mettre en perspective les risques associés aux IA et à l’influence notable qu’elles promettent d’avoir sur la société.

The Conversation

Frédéric Prost ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

L’intelligence artificielle est-elle en train de changer la nature même de la recherche en physique ?

Depuis Galilée, la recherche en physique suivait une procédure bien balisée, structurée par trois préceptes : observation des phénomènes naturels, conceptualisation d’une loi les sous-tendant, vérification des prédictions qui en découlent.

Cette démarche a porté de multiples fruits et nous connaissons aujourd’hui en détail les lois qui s’appliquent au monde entre l’échelle des particules élémentaires et celle de l’univers global. La méthode qui s’est magistralement développée pendant les quatre derniers siècles s’appuie sur la loi de causalité et suit la démarche réductionniste de Descartes : devant un problème, il faut le décomposer en autant d’étapes permettant de construire des suites simples de raisonnement. À chaque étape, le déterminisme s’applique. Si l’on ne trouve pas d’enchaînement causal, c’est parce qu’on n’a pas réduit suffisamment le problème. Cette démarche s’accorde avec le principe de parcimonie d’Occam, selon lequel il faut choisir l’explication la plus simple pour comprendre la nature, la complexité n’étant qu’une solution de dernier recours.

Aujourd’hui, ce paradigme semble rejeté par les techniques à la mode du machine learning (ML), qu’on traduit par apprentissage automatique et qui est une sous-catégorie de l’intelligence artificielle dont on parle à tout propos.

Est-ce une révolution et si oui, qu’en déduire ?

Machine learning et réseaux de neurones

L’intelligence artificielle se donne pour but de réaliser une machine capable d’imiter l’intelligence humaine. Elle est utilisée pour la traduction automatique de textes, l’identification d’images, en particulier la reconnaissance faciale, la publicité ciblée… L’objectif du machine learning est plus spécifique. Il vise à enseigner un ordinateur à exécuter une tâche et à fournir des résultats en identifiant des correspondances dans un lot de données. Le ML écrit des algorithmes qui découvrent des motifs récurrents, des similarités dans des ensembles de données existantes qu’on va ensuite exploiter pour interpréter une nouvelle donnée. Ces données peuvent être des chiffres, des mots, des images… Les programmes informatiques du ML sont capables de prédire des résultats sans tenter d’analyser les détails des processus mis en jeu. Le réductionnisme de Descartes est clairement oublié.

La technique des réseaux de neurones est l’un des outils de la méthode. Il s’agit d’algorithmes se présentant sous forme d’un réseau à plusieurs couches. La première permet l’ingestion des données à analyser sous forme d’un lot de paramètres (image d’un chien par exemple), une ou plusieurs couches cachées tirent des conclusions à partir des données dites « d’entraînement » antérieurement accumulées (images de milliers de chiens), et la dernière assigne une probabilité à l’image de départ. Comme le nom l’indique, les réseaux de neurones s’inspirent directement du fonctionnement du cerveau humain. Ils analysent la complexité en tenant compte de toutes les corrélations existant, comme peut le faire la vision globale de l’œil.

En décelant des régularités dans un grand jeu de données stockées, les algorithmes améliorent leurs performances au fil du temps dans l’exécution d’une tâche. Une fois entraîné, l’algorithme pourra retrouver les motifs dans de nouvelles données à partir de ceux dont on l’a nourri. Mais pour obtenir un résultat satisfaisant, il faut entraîner le système avec un jeu d’apprentissage aussi étendu que possible qui reste représentatif et non biaisé, et cela explique le problème de fond de la méthode : le résultat dépend de l’entraînement. Ainsi, un processus distinguera plus facilement les chiens que les loups s’il a été soumis à plus d’images de chiens pendant l’apprentissage. Un cas récent classa un chien comme loup parce qu’il apparaissait sur un fond blanc. Les images d’entraînement montraient souvent des loups sur fond de campagne enneigée.

L’exemple de la physique des hautes énergies

En recherche fondamentale aussi, la nouvelle technique est massivement utilisée pour l’analyse de données complexes. Elle permet de développer, de tester et d’appliquer des algorithmes sur différents types de données afin de qualifier un événement. Par exemple, le ML aide les physiciens à gérer les milliards d’interactions entre protons obtenues au grand collisionneur du CERN découvreur du boson de Higgs. Les réseaux de neurones peuvent rendre le filtrage de données plus rapide et plus précis. La technique s’améliore de manière autonome au fil du temps.

Ceci constitue une rupture avec les méthodes passées où on cherchait d’abord à identifier tel ou tel type de particules parmi les produits de la réaction en appliquant des règles de sélection adaptées pour ensuite examiner l’interaction dans sa globalité.

Ici, on exploite directement la structure d’ensemble d’un événement. Ainsi, pour la recherche de nouvelles particules, un modèle théorique fixe une phénoménologie avec ses paramètres associés. Les physiciens simulent la création et la détection de ces particules. Ils simulent aussi le « bruit » causé par toutes les autres réactions prédites par le Modèle standard, à charge pour le machine learning de distinguer le signal recherché et la réponse est donnée sur une échelle de probabilité de vraisemblance.

Pourtant, la science ne peut s’appuyer aveuglément sur le ML. Les physiciens qui exploitent cette révolution doivent rester aux commandes. Pour l’heure, un humain est encore nécessaire pour examiner de manière critique ce que délivrent les analyses algorithmiques. Son rôle est de donner du sens aux résultats, et de s’assurer que les données traitées ne sont ni biaisées ni altérées. De même, un physicien voulant utiliser un traducteur automatique de l’anglais au français doit s’assurer que le mot wave est bien rendu par onde et non par vague dans l’expression de la dualité onde-corpuscule.

La physique est-elle encore déterministe ?

La physique classique se voulait déterministe, elle donnait un résultat unique à un problème donné. La méthode du ML, de par sa construction, répondra de manière probabiliste avec une possibilité d’erreur qu’on cherchera à minimiser. En gagnant en efficacité et en rapidité d’analyse, on abandonne la certitude pour se contenter de vraisemblance. On peut d’ailleurs souvent s’en satisfaire, la vie elle-même étant probabiliste.

En son temps, Einstein s’était opposé à l’indéterminisme inhérent à la mécanique quantique. Il pensait que le cerveau humain était capable d’expliquer complètement la réalité. En cela, il suivait un préjugé fort respectable venant de la philosophie grecque. De fait, la mécanique quantique introduit un hasard intrinsèque qui viole les a priori des physiciens. Mais ce hasard reste contraint, il maintient un déterminisme collectif puisqu’on sait exactement prédire l’évolution d’une population de particules. Devant les nouveaux développements, il faut admettre que le probabilisme devient une propriété obligatoire inscrite dans la technique de recherche elle-même. Einstein devrait se retourner dans sa tombe.

Expliquer pour comprendre ?

La physique classique tentait de rationaliser la démarche de connaissance en conceptualisant une loi dont on vérifiait expérimentalement les conséquences. Avec le ML, on cherche toujours à prédire l’évolution d’un phénomène, mais la phase de conceptualisation a disparu. On puise dans la richesse des grands nombres pour définir un patron qu’on appliquera au problème posé. La construction d’une théorie ne semble plus nécessaire pour résoudre un problème. Les notions d’objectif et de subjectif se mélangent.

On disait que la physique explique le « comment » des phénomènes naturels, à charge pour d’autres esprits d’en expliquer le « pourquoi ». Ici, il faut revoir la notion d’explication, la part de l’intelligence pure dépensée s’efface, ou du moins, devant les prouesses de l’ordinateur, l’intelligence humaine ne sert plus qu’à améliorer le processus informatique. L’homme se met au service de la machine.

La physique a-t-elle perdu ses repères ? J’avais perdu les miens et devant mon désarroi, un théoricien me tança :

« Tu crois donc que des gravitons s’échangent entre le Soleil et la Terre pour maintenir notre planète sur son orbite ? Les particules virtuelles n’existent pas, ce sont de simples artifices de calcul. »

Et je compris alors que le ML devait être accepté comme un artifice de calcul plus élaboré que ceux du passé, mais cela ne me semblait pas sans conséquence.

La physique ne cherche plus à expliquer, elle se satisfait d’un résultat pertinent à un problème obtenu avec le maximum d’efficacité. Or, ce qu’on n’explique pas, il faut l’admettre. Pascal avait déjà senti une limitation de principe dans la physique ; il classait l’espace et le temps parmi des grandeurs primitives dont il faut accepter la réalité sans explication, parce que c’est « comme ça ». Platon avec son allégorie de la caverne avait eu l’intuition que nous ne ferons toujours qu’interpréter des ombres, sur le fond d’une mémoire d’ordinateur dans le cas du ML. Et tout cela rappelle l’injonction de Saint Augustin qui écrivit, dans un contexte évidemment très différent : « Il faut croire pour comprendre. » Alors que conclure ? En 1989, on annonçait « la fin de l’histoire ». La prophétie s’avéra très exagérée, espérons que les développements informatiques ne signent pas « la fin de la physique ».

The Conversation

François Vannucci ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

  • ✇apprentissage profond (deep learning) – The Conversation
  • L’IA pourrait-elle avoir des crises d’épilepsie ?
    Les neurones artificiels peuvent-ils servir de modèle pour comprendre les vrais neurones ? GDJ/PixabayDepuis quelques années, intelligence artificielle (IA, ou AI en anglais), apprentissage machine (machine learning), « réseaux de neurones artificiels » (artificial neural network) et « apprentissage profond » (deep learning, ou DL) sont de plus en plus présents dans nos quotidiens. Ces termes recouvrent des méthodes, des techniques, des processus qui nous permettent de faire effectuer à des mach

L’IA pourrait-elle avoir des crises d’épilepsie ?

Les neurones artificiels peuvent-ils servir de modèle pour comprendre les vrais neurones ? GDJ/Pixabay

Depuis quelques années, intelligence artificielle (IA, ou AI en anglais), apprentissage machine (machine learning), « réseaux de neurones artificiels » (artificial neural network) et « apprentissage profond » (deep learning, ou DL) sont de plus en plus présents dans nos quotidiens. Ces termes recouvrent des méthodes, des techniques, des processus qui nous permettent de faire effectuer à des machines des tâches dites complexes comme reconnaître des images, conduire une voiture, ou mener une conversation avec un humain.

Des tâches au cours desquelles il serait facile a priori de comparer intelligence artificielle et « naturelle » – humaine.

Or, à force de rapprochement, nous avons tendance à considérer certains de ces outils, les réseaux de neurones artificiels en particulier, comme des modèles de notre propre cerveau – et les capacités du deep learning comme des modèles de ses fonctions… Mais est-ce que, parce qu’une machine est capable de réaliser des tâches similaires à celles effectuées par notre cerveau, elle peut en être un modèle ?

Prenons une analogie pour une tâche simple : trier des pièces de monnaie. Il existe des machines purement mécaniques qui en sont parfaitement capables. Nous sommes, nous, humains, tout aussi capables de trier des pièces de monnaie… Va-t-on apprendre quelque chose de nous sur notre capacité à trier des pièces en observant de telles machines ?

La question se pose à un autre niveau avec l’IA. Les réseaux de neurones artificiels sont, comme leur nom l’indique, inspirés par des connaissances acquises en neurosciences. Et ils partagent quelques caractéristiques avec nos cellules nerveuses. Notre question est donc plutôt : jusqu’où peut aller la comparaison ?

Quelles sont les limites de ces « modèles » ? Sont-ils suffisamment proches pour être utilisable en neurologie ou en santé mentale ?

Ce qu’est un neurone artificiel

Le modèle de neurone (ou « nœud » en apprentissage automatique) utilisé dans le deep learning n’a rien de physique : il s’agit d’un ensemble d’étapes mathématiques effectuées dans un ordinateur. Un nœud reçoit des données, externes ou provenant de nœuds précédents, qui sont pondérées (multipliées) par leur « poids synaptique », une valeur quantifiant l’importance accordée à chaque donnée.

De façon similaire, dans notre cerveau, un neurone reçoit des données par ses « synapses », ses points de contact avec les neurones voisins. Selon son « poids », chaque synapse aura plus ou moins d’effet sur le neurone en question. Toutes les entrées que ce dernier reçoit sont ainsi pondérées, et il va s’activer, ou non, en fonction du résultat global.

Il y a un mécanisme similaire dans les réseaux de neurones artificiels. La valeur obtenue en sortie d’un nœud peut être utilisée comme valeur d’entrée pour le nœud suivant. Au cours de leur apprentissage, certains neurones vont peu à peu se spécialiser dans certains types d’entrées quand d’autres seront plus sensibles à d’autres. Cette description suffit à reproduire un aspect « fonctionnel » du traitement des informations entrantes par un neurone. Ce modèle de neurone dit « formel » a été décrit pour la première fois en 1943.

Une fois constituées en réseau pour une application particulière, les règles d’apprentissage d’un modèle déterminent l’évolution des poids synaptiques. Plusieurs méthodes permettent de conduire l’apprentissage pour une tâche donnée, comme la rétropropagation de l’erreur (méthode historique datant des années 1980) ou le calcul évolutionnaire (qui repose sur les mêmes principes que l’évolution biologique par mutation/sélection).

Ces modèles sont capables « d’apprendre », de résoudre des problèmes ou d’effectuer des tâches dont nous sommes capables, parfois même mieux que nous en termes de rapidité – pour des tâches simples comme complexes (reconnaissance de formes, visages, prédiction de conformation de protéines ou interprétation du langage et de textes avec ChatGPT, etc.).

Du modèle de neurone au modèle du cerveau ?

Si ces modèles partagent certains modes de fonctionnement avec notre cerveau, en partagent-ils aussi d’autres aspects, notamment pathologiques ?

L’épilepsie, très étudiée, est un exemple intéressant sur lequel nous nous sommes penchés dans une étude récente.

Physiquement, elle affecte l’activité du cerveau qui, durant les crises, est à son paroxysme de façon incontrôlée : les neurones sont proches de leur activité maximale et de manière assez synchronisée. Si ces crises envahissent tout le cerveau (crise généralisée), celui-ci devient incapable de traiter de l’information. La personne touchée est inconsciente durant la crise, ne répond plus aux stimuli extérieurs, et n’aura pas de souvenir de l’événement.

EEG montrant une crise d’épilepsie avec des ondes très chaotiques
L’épilepsie, une activité anormalement intense et synchronisée du cerveau, se caractérise par la décharge simultanée de nombreux neurones (au centre). Ce qui pourrait paraître facile à modéliser dans des réseaux de neurones artificiels. Bromfield EB, Cavazos JE, Sirven JI, CC BY-SA

Il serait tentant de penser que, dans les réseaux de neurones artificiels, en apprentissage profond, un état équivalent à une telle crise correspondrait à avoir tous les nœuds à un niveau d’activation poussé à leur maximum en même temps. Une telle implémentation physique pourrait-elle représenter l’épilepsie, correspondant au fait que le système électrique sature ?

Ce n’est pas si simple.

Si l’on veut pousser loin la comparaison entre ces deux systèmes complètement différents (crises cérébrales et « crises numériques »), il faut rappeler leurs spécificités réciproques :

  • Dans le cerveau, les crises sont un phénomène dynamique et peuvent se propager et la communication synaptique peut ne plus être en mesure de fonctionner. Dans un réseau artificiel, un tel phénomène n’est pas concevable.

  • Dans un réseau, un tel niveau d’activation n’est qu’un état possible parmi d’autres et il ne présente aucun aspect « pathologique ». Cette suractivation générale n’est pas problématique, car il ne s’agit que de valeurs numériques et elle n’affecte pas le fonctionnement de l’ordinateur : il y a toujours échange d’informations – il y a juste un risque d’erreur possiblement accru pour une tâche donnée. Le modèle ne peut pas avoir de « convulsions » comme un humain, il ne peut pas être dépassé par un flot d’informations.

Ces deux éléments semblent ainsi empêcher toute comparaison entre un réseau de neurones et un cerveau biologique. Les réseaux de neurones artificiels utilisés dans l’intelligence artificielle sont capables de reproduire des fonctions du cerveau (capacité à réaliser une tâche particulière), mais pas l’activité (électrophysiologique) sous-jacente à ces fonctions.

La différenciation entre normale et pathologique dans les crises d’épilepsie humaines n’est donc pas transposable à la question du normal et du pathologique dans les réseaux de neurones artificiels implémentés dans ces algorithmes.

Il existe cependant des modèles de la dynamique de crise basés sur d’autres types d’approches, notamment des systèmes dynamiques. Ils sont cette fois construits dans le but d’étudier l’activité cérébrale associée à ces crises.

« Être » ou « faire » : c’est l’un ou l’autre

On distingue donc différents niveaux de description selon les types de modèles considérés… Certains reproduisent une fonction ou une activité ; d’autres sont capables d’expliquer la dynamique des crises, mais ils ne sont généralement pas adaptés pour réaliser des tâches spécifiques comme ceux utilisés dans l’IA. C’est l’un… ou l’autre ! (Pour le moment.)

Les modèles peuvent soit essayer d’être au plus proche du phénomène considéré (par exemple l’apprentissage, la mémoire ou les crises d’épilepsie) sans se préoccuper des mécanismes biophysiques permettant son émergence… Ou, au contraire, ils peuvent être conçus pour essayer de fournir une description de la physiologie la plus détaillée possible à l’échelle considérée (ions, molécules, cellules, etc.).

Suivant les objectifs que l’on a (enseigner, expliquer, découvrir de nouveaux aspects, comprendre, prédire ou autre), on choisira ou construira un type de modèle adapté. Pour cela, il est intéressant d’étudier plus profondément ce que nous apporte chaque modèle en termes de connaissance ou d’application.

Mais, pour l’heure, il n’existe pas de modèle capable de reproduire l’ensemble des aspects du cerveau… à part le cerveau lui-même.

The Conversation

Les auteurs ne travaillent pas, ne conseillent pas, ne possèdent pas de parts, ne reçoivent pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'ont déclaré aucune autre affiliation que leur organisme de recherche.

  • ✇apprentissage profond (deep learning) – The Conversation
  • L'IA profite d'une couverture partiale des médias
    Peu de voix critiques à l’égard de l’IA se font entendre dans la couverture des médias traditionnels sur le sujet. (Shutterstock)Les médias d’information jouent un rôle déterminant dans la perception qu’a le public de l’intelligence artificielle. Depuis 2017, année où Ottawa a rendu publique sa Stratégie pancanadienne en matière d’intelligence artificielle, l’IA est présentée et promue comme une ressource clé pour l’économie canadienne. Ayant engagé plus d’un milliard de dollars en financement

L'IA profite d'une couverture partiale des médias

Peu de voix critiques à l’égard de l’IA se font entendre dans la couverture des médias traditionnels sur le sujet. (Shutterstock)

Les médias d’information jouent un rôle déterminant dans la perception qu’a le public de l’intelligence artificielle. Depuis 2017, année où Ottawa a rendu publique sa Stratégie pancanadienne en matière d’intelligence artificielle, l’IA est présentée et promue comme une ressource clé pour l’économie canadienne.

Ayant engagé plus d’un milliard de dollars en financement public, le gouvernement fédéral décrit l’IA comme un outil dont il faut impérativement tirer parti. Certains organismes financés par l’État comme Scale AI et Forum IA Québec existent pour faire la promotion de l’adoption de l’IA dans tous les secteurs de l’économie.

Au cours des deux dernières années, notre équipe de recherche Shaping AI a étudié la couverture médiatique canadienne de l’IA. Nous avons analysé les articles de journaux publiés sur le sujet entre 2012 et 2021 et mené des entrevues avec des journalistes canadiens affectés à la couverture de l’IA durant cette période.

Selon notre étude, les articles de médias généralistes sur l’IA reflètent étroitement les intérêts des affaires et du gouvernement. La couverture de l’IA fait l’éloge de ses futurs avantages économiques et politiques. Elle aborde très peu les dynamiques de pouvoir qui sous-tendent ces intérêts.

Les mêmes sources

Notre étude révèle que les journalistes technos ont tendance à interviewer sans cesse les mêmes experts favorables à l’IA, en particulier des informaticiens. « Qui est la meilleure personne pour parler d’IA, si ce n’est celui qui la conçoit  ? », nous expliquait un pigiste. Or, lorsque les journalistes font appel à un nombre restreint de sources, leurs reportages sont plus susceptibles d’omettre certaines informations importantes ou d’être partiaux.

Les informaticiens et les entrepreneurs oeuvrant dans le secteur technologique Yoshua Bengio, Geoffrey Hinton, Jean-François Gagné et Joëlle Pineau sont sollicités outre mesure par les médias traditionnels. Le nom de Yoshua Bengio – pionnier de l’apprentissage profond et fondateur de l’Institut d’intelligence artificielle Milaapparaît près de 500 fois dans 344 articles journalistiques différents.

Seule une poignée de politiciens et de leaders du secteur des technologies, comme Elon Musk ou Mark Zuckerberg, sont mentionnés plus souvent que ces experts dans les reportages canadiens sur l’IA.

Deux hommes, l’un portant un veston et l’autre une tenue décontractée, sont assis et discutent.Des drapeaux canadiens apparaissent en arrière-plan
Le premier ministre Justin Trudeau rencontre Jean-François Gagné, cofondateur et à l’époque chef de la direction de la société Element AI, en marge du Fortune Global Forum, à Toronto, en octobre 2018. LA PRESSE CANADIENNE/Chris Young

Peu de voix critiques à l’égard de l’IA se font entendre dans la couverture des médias traditionnels sur le sujet. Les opinions critiques les plus fréquemment citées sont celles du regretté physicien Stephen Hawking, à qui on attribue 71 mentions. Les spécialistes des sciences sociales brillent par leur absence.

Yoshua Bengio, Geoffrey Hinton et Joëlle Pineau sont des autorités dans leur domaine d’expertise, mais à l’instar d’autres scientifiques, ils ne sont pas neutres ni exempts de parti pris. En entrevue, ils font la promotion du développement et du déploiement de l’IA. Comme ils ont consacré leur vie professionnelle au développement du champ de l’IA, ils ont intérêt à favoriser son adoption.

Chercheurs et entrepreneurs en IA

Plusieurs scientifiques spécialisés en IA sont non seulement des chercheurs, mais aussi des entrepreneurs. Ces deux rôles sont distincts : un chercheur produit des savoirs, tandis qu’un entrepreneur se sert de la recherche et du développement pour attirer les investissements et vendre ses innovations.

Les frontières entre l’État, l’industrie des technologies et le milieu universitaire sont de plus en plus poreuses. Au Canada, au cours de la dernière décennie, les agences gouvernementales, les entreprises publiques et privées, les chercheurs et les industriels ont contribué à la mise en place d’un écosystème lucratif en IA. Les chercheurs du domaine sont étroitement intégrés à ce réseau tricoté serré, partageant leur temps entre des laboratoires financés par l’État et des géants de la technologie comme Meta.

Les chercheurs en IA occupent des postes de pouvoir clés au sein des organismes qui font la promotion de l’adoption de l’IA dans toutes les industries. De plus, un grand nombre d’entre eux occupent ou ont occupé des postes décisionnels à l’Institut canadien de recherches avancées (CIFAR), un organisme qui achemine des fonds publics vers des chaires de recherche en IA un peu partout au Canada.

Lorsque les informaticiens s’expriment dans les médias, ils le font non seulement à titre d’experts en IA, mais aussi en tant que porte-paroles de ce réseau. Ils confèrent une crédibilité et une légitimité aux reportages sur l’IA en raison de leur expertise reconnue. Mais ils sont également en position de promouvoir leurs propres attentes relativement à l’avenir de l’IA, sans avoir à être imputable quant à la réalisation de ces visions d’avenir.

Promotion de l’IA responsable

Les experts cités dans les médias traditionnels abordent rarement les détails techniques de la recherche en IA. Les techniques d’apprentissage automatique – communément regroupées sous le terme parapluie IA – sont jugées trop complexes pour le grand public. « Il y a très peu d’espace consacré à l’approfondissement des aspects techniques », nous a dit un journaliste.

Les chercheurs en IA profitent plutôt de l’attention médiatique pour façonner les attentes et la compréhension du public en matière d’IA. La couverture récemment accordée à une lettre ouverte réclamant un moratoire de six mois sur le développement de l’IA en est un bon exemple. Les reportages ont surtout relayé des clichés alarmistes sur ce que l’IA pourrait devenir, citant de « graves risques pour la société ».

Un homme d’âge moyen à la chevelure frisée fixe la caméra, le menton appuyé dans la main. À côté de lui se trouve un écran où l’on voit une tête humaine baignée dans une lumière bleue éclatante ; les mots « l’IA et l’apprentissage profond » apparaissent dans la partie supérieure de l’écran
Le professeur d’informatique Yoshua Bengio devant son domicile de Montréal, en 2016. La Presse canadienne/Graham Hughes

Yoshua Bengio, qui a signé la lettre, avertit que l’IA a le potentiel de déstabiliser la démocratie et l’ordre mondial.

Ces interventions ont façonné le discours sur l’IA de deux façons. Premièrement, elles ont associé les débats sur l’IA à des visions alarmistes d’un futur lointain. La couverture de la lettre ouverte réclamant un moratoire de six mois sur le développement de l’IA a passé sous silence les dangers réels et bien documentés liés à l’IA, comme ceux relatifs à l’exploitation de la main-d’œuvre, au racisme, au sexisme, à la désinformation et à la concentration du pouvoir entre les mains des géants de la technologie.

Deuxièmement, la lettre présente la recherche en IA selon une dichotomie manichéenne : la vision négative que « personne […] ne peut comprendre, maîtriser, prédire ou contrôler de façon fiable » et une vision positive – la soi-disant IA responsable. La lettre ouverte visait autant à façonner notre vision de l’avenir de l’IA qu’à vanter l’IA responsable.

Mais si l’on en croit les normes de l’industrie de l’IA, ce qui a été jusqu’ici qualifié d’« IA responsable » consiste en des principes vagues, volontaristes et non contraignants qui sont impossibles à mettre en œuvre dans le milieu des entreprises. L’IA éthique n’est souvent qu’un stratagème de marketing à des fins de profit qui n’a pas grand-chose à offrir pour éliminer les systèmes d’exploitation, d’oppression et de violence déjà associés à l’IA.

Recommandations de l’étude

Notre étude comporte cinq recommandations visant à encourager un journalisme d’enquête critique en sciences et technologie ainsi que la mise en lumière des controverses de l’IA.

  1. Promouvoir et investir dans le journalisme techno. Nous invitons les salles de rédaction et les journalistes à se méfier des cadrages économiques naïfs de l’IA et à enquêter plutôt sur les externalités qui sont généralement laissées de côté dans les reportages économiques : les exclusions sociales, les inégalités et les injustices créées par l’IA.

  2. Éviter de traiter l’IA comme une prophétie. Les projections futures de l’IA doivent être distinguées des réalisations actuelles.

  3. Suivre l’argent. Les médias canadiens ont peu couvert les proportions inhabituelles du financement gouvernemental gargantuesque qui a été consacré à la recherche sur l’IA. Nous conseillons aux journalistes d’examiner minutieusement les réseaux de personnes et d’organismes qui travaillent à la mise en place et au maintien de l’écosystème de l’IA au Canada.

  4. Diversifier les sources. Les experts en IA et leurs établissements de recherche occupent une place démesurée dans la couverture médiatique de l’IA au Canada, tandis que les opinions critiques y font cruellement défaut.

  5. Encourager la collaboration entre les journalistes, les salles de nouvelles et les équipes responsables des données. La prise en compte de différents types d’expertises aide à mettre en lumière les considérations sociales et techniques en matière d’IA. L’omission de l’une ou l’autre de ces expertises risque de rendre la couverture de l’IA déterministe, inexacte, naïve ou exagérément simpliste.

L’adoption d’une attitude critique face à l’IA ne veut pas dire que l’on soit contre son développement et son déploiement. Cette posture a plutôt pour effet d’inciter les médias d’information et leur lectorat à s’interroger sur les dynamiques culturelles, politiques et sociales qui rendent l’IA possible, et à examiner les incidences globales de la technologie sur la société, et vice versa.

La Conversation Canada

Guillaume Dandurand est financé par le Conseil de recherche en sciences humaines.

Fenwick McKelvey reçoit des fonds du Conseil de recherches en sciences humaines et du Fonds de recherche du Québec - Société et Culture (FRQSC).

Jonathan Roberge reçoit des fonds du Conseil de recherches en sciences humaines et des Fonds de recherche du Québec - Société et Culture (FRQSC).

De Cambridge Analytica à ChatGPT, comprendre comment l’IA donne un sens aux mots

Un des problèmes que l’IA n’a toujours pas résolu aujourd’hui est d’associer des symboles – des mots par exemple – à leur signification, ancrée dans le monde réel – un problème appelé l’« ancrage du symbole ».

Par exemple, si je dis : « le chat dort sur son coussin car il est fatigué », la plupart des êtres humains comprendra sans effort que « il » renvoie à « chat » et pas à « coussin ». C’est ce qu’on appelle un raisonnement de bon sens.

En revanche, comment faire faire cette analyse à une IA ? La technique dite de « plongement lexical », si elle ne résout pas tout le problème, propose cependant une solution d’une redoutable efficacité. Il est important de connaître les principes de cette technique, car c’est celle qui est utilisée dans la plupart des modèles d’IA récents, dont ChatGPT… et elle est similaire aux techniques utilisées par Cambridge Analytica par exemple.

Le plongement lexical, ou comment les systèmes d’intelligence artificielle associent des mots proches

Cette technique consiste à remplacer un mot (qui peut être vu comme un symbole abstrait, impossible à relier directement à sa signification) par un vecteur numérique (une liste de nombres). Notons que ce passage au numérique fait que cette représentation peut être directement utilisée par des réseaux de neurones et bénéficier de leurs capacités d’apprentissage.

Plus spécifiquement, ces réseaux de neurones vont, à partir de très grands corpus de textes, apprendre à plonger un mot dans un espace numérique de grande dimension (typiquement 300) où chaque dimension calcule la probabilité d’occurrence de ce mot dans certains contextes. En simplifiant, on remplace par exemple la représentation symbolique du mot « chat » par 300 nombres représentant la probabilité de trouver ce mot dans 300 types de contextes différents (texte historique, texte animalier, texte technologique, etc.) ou de co-occurrence avec d’autres mots (oreilles, moustache ou avion).

pieds d’un plongeur
Plonger dans un océan de mots et repérer ceux qui sont utilisés conjointement, voilà une des phases de l’apprentissage pour ChatGPT. Amy Lister/Unsplash, CC BY

Même si cette approche peut sembler très pauvre, elle a pourtant un intérêt majeur en grande dimension : elle code des mots dont le sens est proche avec des valeurs numériques proches. Ceci permet de définir des notions de proximité et de distance pour comparer le sens de symboles, ce qui est un premier pas vers leur compréhension.

Pour donner une intuition de la puissance de telles techniques (en fait, de la puissance des statistiques en grande dimension), prenons un exemple dont on a beaucoup entendu parler.

Relier les traits psychologiques des internautes à leurs « likes » grâce aux statistiques en grande dimension

C’est en effet avec une approche similaire que des sociétés comme Cambridge Analytica ont pu agir sur le déroulement d’élections en apprenant à associer des préférences électorales (représentations symboliques) à différents contextes d’usages numériques (statistiques obtenues à partir de pages Facebook d’usagers).

Leurs méthodes reposent sur une publication scientifique parue en 2014 dans la revue PNAS, qui comparait des jugements humains et des jugements issus de statistiques sur des profils Facebook.

L’expérimentation reportée dans cette publication demandait à des participants de définir certains de leurs traits psychologiques (sont-ils consciencieux, extravertis, etc.), leur donnant ainsi des étiquettes symboliques. On pouvait également les représenter par des étiquettes numériques comptant les « likes » qu’ils avaient mis sur Facebook sur différents thèmes (sports, loisirs, cinéma, cuisine, etc.). On pouvait alors, par des statistiques dans cet espace numérique de grande dimension, apprendre à associer certains endroits de cet espace à certains traits psychologiques.

Ensuite, pour un nouveau sujet, uniquement en regardant son profil Facebook, on pouvait voir dans quelle partie de cet espace il se trouvait et donc de quels types de traits psychologiques il est le plus proche. On pouvait également comparer cette prédiction à ce que ses proches connaissent de ce sujet.

Le résultat principal de cette publication est que, si on s’en donne les moyens (dans un espace d’assez grande dimension, avec assez de « likes » à récolter, et avec assez d’exemples, ici plus de 70000 sujets), le jugement statistique peut être plus précis que le jugement humain. Avec 10 « likes », on en sait plus sur vous que votre collègue de bureau ; 70 « likes » que vos amis ; 275 « likes » que votre conjoint.

Être conscients de ce que nos « likes » disent sur nous

Cette publication nous alerte sur le fait que, quand on recoupe différents indicateurs en grand nombre, nous sommes très prévisibles et qu’il faut donc faire attention quand on laisse des traces sur les réseaux sociaux, car ils peuvent nous faire des recommandations ou des publicités ciblées avec une très grande efficacité. L’exploitation de telles techniques est d’ailleurs la principale source de revenus de nombreux acteurs sur Internet.

likes peints sur un mur argenté
Nos likes et autres réaction sur les réseaux sociaux en disent beaucoup sur nous, et ces informations peuvent être exploitées à des fins publicitaires ou pour des campagnes d’influence. George Pagan III/Unsplash, CC BY

Cambridge Analytica est allée un cran plus loin en subtilisant les profils Facebook de millions d’Américains et en apprenant à associer leurs « likes » avec leurs préférences électorales, afin de mieux cibler des campagnes électorales américaines. De telles techniques ont également été utilisées lors du vote sur le Brexit, ce qui a confirmé leur efficacité.

Notons que c’est uniquement l’aspiration illégale des profils Facebook qui a été reprochée par la justice, ce qui doit continuer à nous rendre méfiants quant aux traces qu’on laisse sur Internet.

Calculer avec des mots en prenant en compte leur signification

En exploitant ce même pouvoir des statistiques en grande dimension, les techniques de plongement lexical utilisent de grands corpus de textes disponibles sur Internet (Wikipédia, livres numérisés, réseaux sociaux) pour associer des mots avec leur probabilité d’occurrence dans différents contextes, c’est-à-dire dans différents types de textes. Comme on l’a vu plus haut, ceci permet de considérer une proximité dans cet espace de grande dimension comme une similarité sémantique et donc de calculer avec des mots en prenant en compte leur signification.

Un exemple classique qui est rapporté est de prendre un vecteur numérique représentant le mot roi, de lui soustraire le vecteur (de même taille car reportant les probabilités d’occurrence sur les mêmes critères) représentant le mot homme, de lui ajouter le vecteur représentant le mot femme, pour obtenir un vecteur très proche de celui représentant le mot reine. Autrement dit, on a bien réussi à apprendre une relation sémantique de type « A est à B ce que C est à D ».

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Le principe retenu ici pour définir une sémantique est que deux mots proches sont utilisés dans de mêmes contextes : on parle de « sémantique distributionnelle ». C’est ce principe de codage des mots qu’utilise ChatGPT, auquel il ajoute d’autres techniques.

Ce codage lui permet souvent d’utiliser des mots de façon pertinente ; il l’entraîne aussi parfois vers des erreurs grossières qu’on appelle hallucinations, où il semble inventer des nouveaux faits. C’est le cas par exemple quand on l’interroge sur la manière de différencier des œufs de poule des œufs de vache et qu’il répond que ces derniers sont plus gros. Mais est-ce vraiment surprenant quand on sait comment il code le sens des symboles qu’il manipule ?

Sous cet angle, il répond bien à la question qu’on lui pose, tout comme il pourra nous dire, si on lui demande, que les vaches sont des mammifères et ne pondent pas d’œuf. Le seul problème est que, bluffés par la qualité de ses conversations, nous pensons qu’il a un raisonnement de bon sens similaire au nôtre : qu’il « comprend » comme nous, alors que ce qu’il comprend est juste issu de ces statistiques en grande dimension.

The Conversation

Frédéric Alexandre ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

  • ✇apprentissage profond (deep learning) – The Conversation
  • Données personnelles : rien à cacher, mais beaucoup à perdre
    Nos données personnelles sont partout sur internet, et peuvent être utilisées à très mauvais escient. Дмитрий Хрусталев-Григорьев , Unsplash, CC BYL'opérateur mobile et fournisseur d'accès internet Free a annoncé avoir été victime d'une cyberattaque. Selon l'entreprise : « cette attaque a entraîné un accès non autorisé à une partie des données personnelles ». Quels sont les risques si vos données ont fuité ? Nos données personnelles circulent sur Internet : nom, adresses, coordonnées bancaire

Données personnelles : rien à cacher, mais beaucoup à perdre

Nos données personnelles sont partout sur internet, et peuvent être utilisées à très mauvais escient. Дмитрий Хрусталев-Григорьев , Unsplash, CC BY

L'opérateur mobile et fournisseur d'accès internet Free a annoncé avoir été victime d'une cyberattaque. Selon l'entreprise : « cette attaque a entraîné un accès non autorisé à une partie des données personnelles ». Quels sont les risques si vos données ont fuité ?


Nos données personnelles circulent sur Internet : nom, adresses, coordonnées bancaires ou de sécurité sociale, localisation en temps réel… et les affaires qui y sont liées se font une place pérenne dans le débat public, du scandale Facebook-Cambridge Analytica au vol de données à la Croix-Rouge, en passant par les récents blocages d’hôpitaux par des rançongiciels (ou ransomware) et l’attaque très récente subie par Free.

Mais si l’on sait de plus en plus que nos données personnelles sont « précieuses » et offrent des possibilités sans précédent en matière de commercialisation et d’innovation, il est parfois difficile de saisir ou d’expliquer pourquoi il faudrait les protéger.

Quels sont les risques liés à la divulgation de mes données personnelles ?

Le premier risque concerne la perte du contrôle sur nos propres données. C’est ce qui arrive par exemple quand on autorise le traçage par des sites ou des applications : on autorise l’enregistrement de nos activités sur le Web ou sur notre smartphone (pages visitées, géolocalisation) et l’échange de ces données, et, une fois cet accord donné, nous n’avons plus aucun pouvoir sur la circulation de nos données.

Ces informations sont utilisées le plus souvent pour du profilage qui permet d’alimenter l’économie de la publicité personnalisée régie dorénavant par des plates-formes d’enchères valorisant les données relatives aux profils utilisateurs contre des emplacements publicitaires.

Mais, ces informations peuvent également être utilisées à mauvais escient. La connaissance de votre localisation peut aider le passage à l’acte d’un cambrioleur par exemple, et la connaissance de vos centres d’intérêts ou opinion politique peut vous exposer à des opérations d’influence.

Le scandale Cambridge Analytica en est un exemple, avec l’exploitation de données personnelles de millions d’utilisateurs Facebook pour des campagnes de désinformation ciblées afin d’influencer des intentions de vote. Plus récemment, les révélations du Monde sur les entreprises de désinformation indiquent que cette pratique n’est pas un cas isolé.


À lire aussi : Exploitation des données : un changement de contrat social à bas bruit


Un autre risque concerne l’hameçonnage : si des informations personnelles sont présentes dans un courriel ou SMS frauduleux, il vous paraîtra plus réaliste et abaissera vos barrières de vigilance. L’hameçonnage sert souvent à infecter la cible avec un rançongiciel (ransomware en anglais) : les cybercriminels utilisent des informations personnalisées pour gagner la confiance des destinataires et les inciter à ouvrir des pièces jointes, ou à cliquer sur des liens ou documents malveillants, ce qui permet dans un second temps de verrouiller les données de la victime et d’en interdire l’accès. Une rançon est ensuite réclamée pour les déverrouiller.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Bien que les attaques par rançongiciel les plus médiatisées concernent des organisations, des hôpitaux par exemple, les particuliers sont également touchés.

Dans le cas de l’usurpation d’identité, une personne malveillante utilise des informations personnelles qui permettent de nous identifier (« se logger ») sans notre accord : par exemple, en créant un faux profil sur une plate-forme et en rédigeant des commentaires sous l’identité de la victime afin de nuire à sa réputation.

À un autre niveau, la surveillance de masse exercée par certains États capture les informations personnelles de leurs citoyens afin d’entraver la liberté d’expression ou de ficher les individus par exemple. Une surveillance accrue peut tendre vers un sentiment d’absence de sphère privée et ainsi brider le comportement des individus.

En Europe, le RGPD (règlement général sur la protection des données) limite la récolte des données personnelles, notamment par les gouvernements, qui doivent justifier d’une raison suffisante pour toute surveillance.

Chacun d’entre nous a une empreinte numérique unique

Ces problèmes touchent chacun d’entre nous. En effet, dans un monde de plus en plus numérique où nous générons quotidiennement des données à travers notre navigation sur Internet, nos smartphones, ou nos montres connectées, nous avons tous une « empreinte numérique unique ».

En clair, il est généralement possible de réidentifier quelqu’un juste à partir des « traces » que nous laissons derrière nous sur nos appareils numériques.

une empreinte digitale à la craie
Nos données personnelles permettent de nous identifier, comme une empreinte digitale numérique. Immo Wegmann/Unsplash, CC BY

Par exemple, l’observation aléatoire de quatre lieux visités seulement représente une signature unique pour 98 % des individus. Cette unicité est généralisable dans un grand nombre de comportements humains.

Cacher l’identité du propriétaire de données personnelles uniquement derrière un pseudonyme n’est pas une protection suffisante face au risque de réidentification, il est nécessaire d’anonymiser les données.


À lire aussi : Données anonymes… bien trop faciles à identifier


Données synthétiques, apprentissage fédéré : les nouvelles méthodes pour protéger les données personnelles

Tels les membres d’un « black bloc » essayant d’être indistinguables entre eux en s’habillant de manière identique dans une manifestation houleuse, l’anonymisation de données a pour but d’éviter qu’une personne ne se démarque du reste de la population considérée, afin de limiter l’information qu’un cyberattaquant pourrait extraire.

Dans le cas de données de géolocalisation, on pourrait par exemple modifier les données afin que plusieurs utilisateurs partagent les mêmes lieux visités, ou alors introduire du bruit pour ajouter une incertitude sur les lieux réellement visités.


À lire aussi : Comment anonymiser des données personnelles ?


Mais cette anonymisation a un coût car elle « déforme » les données et diminue leur valeur : une trop grande modification des données brutes dénature l’information véhiculée dans les données anonymisées. De plus, pour s’assurer de l’absence d’une empreinte réidentifiante, les modifications nécessaires sont très importantes et souvent incompatibles avec nombre d’applications.

Trouver le bon compromis entre protection et utilité des informations anonymisées reste un challenge. À l’heure où certains voient les données comme le nouveau pétrole du XXIe siècle, l’enjeu est de taille car une donnée anonyme n’est plus considérée comme une donnée personnelle et échappe au RGPD, ce qui veut dire qu’elle peut être partagée sans consentement du propriétaire.

Cette difficulté de trouver un compromis acceptable entre protection et utilité des données au travers de mécanismes d’anonymisation a fait évoluer les pratiques. De nouveaux paradigmes de protection des données personnelles ont vu le jour.

Une première tendance consiste à générer des données synthétiques reproduisant les mêmes propriétés statistiques que les vraies données.

Ces données générées de manière artificielle ne sont par conséquent pas liées à une personne et ne seraient plus encadrées par le RGPD. Un grand nombre d’entreprises voient en cette solution des promesses de partage d’information moins limitées. En pratique, les risques résiduels des modèles de génération synthétique ne sont pas négligeables et sont encore à l’étude.

Une autre solution limitant le risque de partage de données personnelles est l’apprentissage fédéré. Dans l’apprentissage machine conventionnel, les données sont centralisées par une entité pour entraîner un modèle.

Dans l’apprentissage fédéré, chaque utilisateur se voit attribuer un modèle qu’il entraîne localement sur ses propres données. Il envoie ensuite le résultat à une entité qui s’occupe d’agréger l’ensemble des modèles locaux. De manière itérative, cet apprentissage décentralisé permet de créer un modèle d’apprentissage sans divulguer de données personnelles.

Ce nouveau paradigme de protection des données personnelles suscite beaucoup d’engouement. Cependant, plusieurs limitations subsistent, notamment sur la robustesse face aux acteurs malveillants qui souhaiteraient influencer le processus d’entraînement. Un participant pourrait par exemple modifier ses propres données pour que le modèle se trompe lors d’une tâche de classification particulière.

The Conversation

Antoine Boutet ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Quand l’intelligence artificielle nous aide à chercher une intelligence extraterrestre

file jtv r Midjourney, Author provided

Il y a environ 540 millions d’années, diverses formes de vie ont soudainement commencé à émerger des fonds boueux des océans de la planète : c’était l’« explosion cambrienne », et ces créatures aquatiques sont nos ancêtres. Toute la vie complexe sur Terre a évolué à partir de ces créatures sous-marines. Il aurait suffi d’une très légère augmentation du niveau d’oxygène dans l’océan au-dessus d’un certain seuil pour que la vie se développe rapidement.

Nous sommes peut-être en train de vivre une « explosion cambrienne de l’intelligence artificielle » (IA). Une vague de systèmes d’IA incroyablement performants apparus ces dernières années révèle les progrès rapides en apprentissage automatique, de Midjourney à ChatGPT en passant par DALL·E 2.

L’IA est désormais utilisée dans pratiquement tous les domaines scientifiques pour aider les chercheurs dans leurs tâches de classification de routine. En tant que radioastronomes, nous l’utilisons pour rechercher une forme de vie extraterrestre. Les résultats obtenus jusqu’à présent sont prometteurs.

Découvrir des signaux extraterrestres avec des systèmes d’intelligence artificielle

Nous recherchons scientifiquement des signaux provenant de formes de vie intelligente au-delà de la Terre. Dernièrement, nous avons développé un système d’IA et nous l’avons entraînée à rechercher dans les données des radiotélescopes des signaux qui n’ont pas pu être générés par des processus astrophysiques naturels. Elle est maintenant plus efficace que les algorithmes classiques pour détecter ce type de signaux.

Lorsque nous avons fourni à notre IA un ensemble de données déjà étudié, elle a décelé huit signaux intéressants que l’algorithme classique n’avait pas vus. Mais soyons clairs : ces signaux ne proviennent probablement pas d’une intelligence extraterrestre, mais plutôt de rares cas d’interférences radio.

Néanmoins, nos résultats – publiés le 30 janvier dans Nature Astronomy – soulignent comment les techniques d’IA vont désormais jouer un rôle dans la recherche d’une intelligence extraterrestre.

Une image générée par une IA, représentant une IA à la recherche de vie extraterrestre dans l’espace
Les systèmes basés sur l’IA sont de plus en plus utilisés pour classer les signaux trouvés dans des quantités massives de données radio, aidant à accélérer la recherche de vie extraterrestre. Generated by DALL·E 2, Author provided

Pas si intelligents

Les algorithmes d’IA ne « comprennent » pas. Ils ne « pensent » pas non plus. Ils excellent dans ce que l’on appelle la « reconnaissance de motifs » (des formes répétitives, comme un motif à pois ou à rayures) et se sont révélés extrêmement utiles pour des tâches telles que la classification, mais ils ne peuvent pas résoudre de problèmes. Ils ne font que les tâches spécifiques pour lesquelles ils ont été entraînés.


À lire aussi : Y a-t-il de l’intelligence dans l’intelligence artificielle ?


Ainsi, bien que l’idée d’une IA détectant une intelligence extraterrestre ressemble à l’intrigue d’un roman de science-fiction passionnant, ces deux termes sont erronés : les systèmes d’IA ne sont pas intelligents, et les recherches d’intelligences extraterrestres ne peuvent pas trouver de preuves directes d’intelligence.

Les radioastronomes recherchent plutôt des « technosignatures » radio. Ces signaux hypothétiques indiqueraient la présence de technologie et, par procuration, l’existence d’une civilisation capable d’exploiter une technologie pour communiquer.

Pour nos recherches, nous avons créé un algorithme qui utilise des méthodes d’IA pour classer les signaux comme étant soit des interférences radio, soit de véritables technosignatures, et notre algorithme est plus performant que nous l’avions espéré.

Ce que fait notre algorithme d’IA

La recherche de technosignatures a longtemps été comparée à la recherche d’une aiguille dans une botte de foin cosmique. Les radiotélescopes produisent d’énormes volumes de données, dans lesquels se trouvent d’énormes quantités d’interférences provenant de nombreuses sources : téléphones, wifi, satellites.

Les algorithmes de recherche doivent être capables de distinguer rapidement les véritables technosignatures des « faux positifs » – c’est ce que fait notre classificateur (notre système d’IA).

Il a été conçu par Peter Ma, un étudiant de l’Université de Toronto et le premier auteur de notre article. Pour créer un ensemble de données d’entraînement, Peter a inséré des signaux simulés dans des données réelles, puis a utilisé cet ensemble de données pour entraîner un algorithme d’IA appelé « autoencodeur ». En traitant les données, l’autoencodeur a « appris » à identifier les caractéristiques saillantes des données.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Dans un deuxième temps, ces caractéristiques ont été transmises à un algorithme appelé « classificateur de forêts aléatoires ». Ce classificateur crée des arbres de décision pour décider si un signal est digne d’intérêt ou s’il s’agit d’une simple interférence radio, ce qui permet de séparer les « aiguilles » des véritables technosignatures dans la botte de foin cosmique.

Une grande antenne radio
L’observatoire de Green Bank aux États-Unis. Cyberbaud, Wikimedia, CC BY-SA

Après avoir formé notre algorithme d’IA, nous lui avons fourni plus de 150 téraoctets de données provenant du télescope de Green Bank en Virginie de l’Ouest aux États-Unis, soit 480 heures d’observation. Il a identifié 20515 signaux intéressants, que nous avons ensuite dû inspecter manuellement. Parmi ceux-ci, huit signaux présentaient des caractéristiques de technosignatures, et ne pouvaient être attribués à des interférences radio.


À lire aussi : Peut-on faire confiance aux IA ?


Huit signaux, que l’on n’a pas encore pu redétecter

Pour tenter de vérifier ces signaux, nous sommes retournés au télescope afin de les retrouver et les enregistrer à nouveau – sans succès.

Nous avons déjà été dans des situations similaires auparavant. En 2020, nous avions détecté un signal qui s’était avéré être une interférence radio. Nous allons surveiller ces huit nouveaux candidats, mais l’explication la plus probable est qu’il s’agissait de manifestations inhabituelles d’interférences radio, et non d’extraterrestres.

Malheureusement, le problème des interférences radio n’est pas près de disparaître. Mais nous serons mieux équipés pour y faire face à mesure que de nouvelles technologies émergeront.


À lire aussi : Comment cherche-t-on des traces de vie sur Mars ?


Limiter les faux positifs

Notre équipe a récemment déployé un processeur puissant sur le télescope MeerKAT en Afrique du Sud. MeerKAT utilise une technique d’« interférométrie » pour combiner ses 64 antennes paraboliques et en faire un seul télescope. Cette technique permet de mieux localiser l’endroit du ciel d’où provient un signal, ce qui réduit considérablement les faux positifs dus aux interférences radio.

Une très grande antenne radio
Une des antennes du radiotélescope MeerKAT. Morganoshell, Wikimedia, CC BY-SA

Si les astronomes parviennent à détecter une technosignature qui ne peut être expliquée par des interférences, cela suggérerait fortement que les humains ne sont pas les seuls créateurs de technologies dans la Galaxie. Ce serait l’une des découvertes les plus profondes que l’on puisse imaginer.

Dans le même temps, si nous ne détectons rien, cela ne signifie pas nécessairement que nous sommes la seule espèce « intelligente » capable d’utiliser des technologies. Une non-détection pourrait également signifier que nous n’avons pas cherché le bon type de signaux, ou que nos télescopes ne sont pas encore assez sensibles pour détecter les faibles transmissions des exoplanètes lointaines.

Il se peut que nous devions franchir un seuil de sensibilité avant de pouvoir faire une explosion cambrienne de découvertes. Mais la possibilité que nous soyons vraiment seuls devrait nous faire réfléchir à la beauté unique et à la fragilité de la vie, ici, sur Terre.

The Conversation

Danny Price est chercheur postdoctoral senior au Centre international de radioastronomy (ICRAR) de l'Université de Curtin en Australie. Il est membre de l'initiative « Breakthrough Listen », qui cherche des signes de vie intelligente au delà de notre planète.

  • ✇apprentissage profond (deep learning) – The Conversation
  • Quand les IA s’attaquent à nos accents
    Juin 2022, l’entreprise SANAS annonce avoir récolté 32 millions de dollars pour la création d’une technologie basée sur l’intelligence artificielle dont l’objectif est de supprimer les accents. Septembre 2022, la plate-forme voit le jour non sans créer intérêt, curiosité et émoi tant dans le monde anglophone que francophone. De tels logiciels nous plongent dans une dystopie contemporaine où la technologie vient faire disparaître les différences, les marqueurs de l’identité et les cultures des i

Quand les IA s’attaquent à nos accents

Juin 2022, l’entreprise SANAS annonce avoir récolté 32 millions de dollars pour la création d’une technologie basée sur l’intelligence artificielle dont l’objectif est de supprimer les accents. Septembre 2022, la plate-forme voit le jour non sans créer intérêt, curiosité et émoi tant dans le monde anglophone que francophone.

De tels logiciels nous plongent dans une dystopie contemporaine où la technologie vient faire disparaître les différences, les marqueurs de l’identité et les cultures des individus. Cette idée n’est pourtant pas nouvelle : le film « Sorry to bother you » sorti en 2018 abordait déjà la question de l’accent des populations africaines-américaines dans une satire sur les centres d’appel.

Bande-annonce du film « Sorry to Bother You ». Source : Universal Pictures France.

Alors comment peut-on réellement supprimer un accent ? Entre utopie et dystopie, pourquoi développer une intelligence artificielle capable de « supprimer » les accents peut-il être un problème plus qu’une solution ? Que supprime-t-on de plus qu’une marque sonore en neutralisant un accent ?

Comment l’intelligence artificielle peut faire taire un accent

L’accent peut être défini comme un faisceau d’indices souvent oraux (les voyelles, les consonnes, l’intonation, etc.) qui participe à l’élaboration plus ou moins consciente d’hypothèses sur l’origine géographique, sociale ou langagière des individus. Cet accent peut être dit, entre autres, « régional » ou « étranger » en renvoyant à des imaginaires différents. La pertinence de l’identification d’un accent réside dans le fait qu’un certain nombre de caractéristiques sonores semblent homogènes chez des locuteurs d’une langue, d’une zone géographique ou d’un groupe social, comme le souligne Philippe Boula de Mareüil.

Ces technologies issues de start-up constituent souvent une boite noire et peu d’informations concrètes sur les outils employés pour « supprimer » l’accent sont disponibles. Toutefois, les moyens sont multiples et ils visent principalement à transformer en partie la structure de l’onde sonore afin de rapprocher certains indices acoustiques vers une norme perceptivement déterminée. On pourra ainsi jouer sur le timbre de certaines voyelles, la réalisation de consonnes ou encore transformer des paramètres comme le rythme, l’intonation ou l’accentuation en fonction de cibles perceptives attendues. Dans le même temps, on maintiendra un maximum de paramètres vocaux permettant d’identifier la voix du locuteur initial à l’image du voice cloning pouvant conduire à des arnaques au deepfake vocal. Ces technologies permettent de dissocier ce qui est de l’ordre de la parole de ce qui tient à la voix.

Le traitement automatique et en temps réel de la parole pose des difficultés technologiques dont la principale réside dans la qualité du signal sonore à traiter. Néanmoins, il existe différentes solutions en s’appuyant sur le deep learning et les réseaux de neurones, ainsi que les grands corpus de parole, qui permettent de mieux gérer les incertitudes dans le signal.

[Près de 80 000 lecteurs font confiance à la newsletter de The Conversation pour mieux comprendre les grands enjeux du monde. Abonnez-vous aujourd’hui]

Dans le cas des langues étrangères, Sylvain Detey, Lionel Fontan et Thomas Pellegrini repèrent quelques enjeux inhérents au développement de ces technologies, à savoir quelle norme retenir pour mener une comparaison avec ce qui est attendu, ou encore le rôle que peuvent avoir les corpus dans la détermination de ces objectifs – sans qu’il se dégage pour le moment de réponses particulièrement prometteuses.

Le mythe de l’accent neutre

Cependant, l’identification d’un accent ne se limite pas aux seuls indices acoustiques. Donald L. Rubin a pu démontrer que des auditeurs peuvent recréer l’impression d’un accent perçu simplement en associant aux voix des visages aux origines supposées différentes. De la même manière, en l’absence de ces autres indices, les locuteurs ne sont pas si bons dans leur capacité à reconnaître des accents qu’ils n’entendent pas régulièrement ou qu’ils se représentent de manière stéréotypée, par exemple l’idée selon laquelle il y aurait beaucoup de consonnes en allemand.

Vouloir supprimer les accents pour contrer les effets sociaux d’une discrimination sur l’accent revient à poser la question de ce qu’est un accent « neutre ». Or, toutes les variations de prononciation impliquent des représentations. Médéric Gasquet-Cyrus, « spécialiste du marseillais » selon les médias, rappelle que même l’accent dit « parisien » est un accent. En français, l’accent que l’on qualifie de « standard » a évolué en s’appuyant sur des groupes sociologiquement dominants : haute bourgeoisie parisienne, médias (radio, TV), classes moyennes favorisées par exemple.

Tour de France des accents régionaux et la discrimination linguistique (France24).

Depuis plusieurs années, des chercheurs et chercheuses regroupées dans un collectif tentent de déterminer les contours d’un français de référence en s’appuyant sur les similitudes qui existent entre tous les parlers de la francophonie. Le projet « Phonologie du français contemporain » a ainsi permis de mettre à disposition du grand public des accents à entendre.

Il faut également noter que la valeur que l’on attribue à un accent (fort, doux, romantique, dur) dépend largement des individus, des époques et des groupes sociaux. Toutefois, Iván Fónagy, philologue hongrois, a mis en évidence que les individus ont tendance à attribuer les mêmes propriétés à des sons dans son ouvrage La vive voix : Essais de psychophonétique : le /r/ un son bagarreur, le /i/ comme petit, le /u/ (la graphie « ou ») comme opulent, etc.

Supprimer ou garder, l’œuf ou la poule ?

En sociologie, Wayne Brekhus pose la question de la nécessité de porter un regard sur l’invisible et de traiter en même temps le marqué et le non marqué – l’accent et ce que l’on considère être un non-accent. Cela amène à revoir les rapports de pouvoir qui existent entre les individus et la manière dont on homogénéise le marqué : celui ou celle qui a (selon les autres) un accent.

Aussi, nous sommes amenés à questionner comment les technologies émergentes peuvent nous rendre plus « acteur » ou « actrice » qu’« automate », selon Catherine Pascale, en participant à la création d’un cadre éco-éthique. Supprimer un accent, c’est valoriser un type d’accent dominant tout en négligeant le fait que d’autres co-facteurs participeront à la perception de cet accent tout autant que l’émergence de discriminations sur la langue. Supprimer l’accent ne supprime pas les discriminations. Au contraire, l’accent fait entendre l’identité participant ainsi à des phénomènes d’humanisation, d’adhésion au groupe voire d’empathie : l’accent est bien altéritaire.

Si l’évolution des technologies par l’intelligence artificielle et le deep learning proposent à la société des potentialités encore inexplorées, elles peuvent également conduire à une dystopie où la déshumanisation conduit à reléguer au second plan le rôle politique et social, pourtant majeur, sur le vivre ensemble et la diversité dont fait écho la Déclaration universelle de l’Unesco sur la diversité culturelle.

Plutôt que de les cacher, il semble nécessaire de sensibiliser les recruteurs à la manière dont les accents peuvent participer à la satisfaction client et que les politiques se saisissent de cette question. Si l’Assemblée nationale avait fait un pas fort en votant, en 2020, un texte interdisant les discriminations à l’accent, La Provence rappelle que le Sénat ne semble pas s’en saisir puisqu’il n’apparaît toujours pas à son ordre du jour, deux ans plus tard.

The Conversation

Grégory Miras ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Radiologie : pourquoi l’IA n’a (toujours) pas remplacé le médecin

Il y a six ans, un expert pronostiquait la disparition des radiologues au profit de l'IA. Une erreur. MArt Production / Pexel, CC BY-SA

« On devrait arrêter de former des radiologues maintenant. Il est tout à fait évident que dans cinq ans, le “deep learning” fera mieux que les radiologues. »

Prononcée en 2016 par l’informaticien Geoffrey Hinton, co-récipiendaire du prestigieux Prix Turing 2018 pour ses travaux sur les réseaux de neurones, la sentence a fortement marqué l’imaginaire collectif.

Nourrie par les promesses industrielles et relayée par certains médecins médiatiques, la thématique a essaimé dans la presse et les médias sociaux où l’on a vu s’imposer l’image d’une révolution à venir de la médecine en raison du développement de l’intelligence artificielle (IA).

Pourtant, six ans plus tard, la déclaration relève davantage de la fausse prophétie que de l’anticipation visionnaire… Le « grand remplacement » des médecins par l’IA n’a pas eu lieu. À l’inverse, l’évolution de la démographie médicale et l’augmentation du nombre d’examens d’imagerie donnent davantage à voir un manque de radiologues que leur mise au chômage technique.

Des logiciels sont pourtant disponibles et mis sur le marché, le plus souvent par des start-up telles que AZmed, Gleamer, Incepto, Pixyl ou Therapixel. La radiologie arrive ainsi au premier rang des champs d’application des logiciels d’IA validés par l’agence de régulation américaine FDA (plus de 200 logiciels) ou bénéficiant d’un marquage Conformité Européenne (CE) (environ 200). Les publications scientifiques sur le sujet sont également florissantes, avec plus de 8800 articles parus entre 2000 et 2018.

Face aux promesses soutenues par des progrès réels, comment dès lors expliquer que l’utilisation réelle de l’IA reste relativement timide (environ 30 % des radiologues américains affirmant l’avoir déjà utilisée) ? La clé de lecture de ces nouveaux usages doit ici prendre en compte les logiques professionnelles. Notre récente enquête, publiée dans le cadre d’un dossier de la revue Réseaux dédié au contrôle de l’IA, permet d’apporter une première analyse de ces transformations en cours.

Réappropriation et régulation professionnelles

Suite aux discours médiatiques sur sa possible disparition, la profession a tout d’abord scruté avec méfiance le développement de la technologie. Dans une étude publiée en 2021, 38 % des praticiens européens interrogés craignaient en effet que l’IA soit une menace pour leur activité.

Loin de rester passives, la profession et ses instances de représentation se sont alors mobilisées pour faire face à l’irruption de l’IA, anticiper les usages possibles et défendre leur territoire.

Les radiologues se sont engagés dans un travail normatif visant à se réapproprier ces outils et à en promouvoir une utilisation conforme avec leurs attentes professionnelles.

Cette définition des « bons usages » prend plusieurs formes : identification des tâches où l’IA serait profitable, proposition de directives quant au développement des logiciels (conditions techniques et pertinence des bases de données d’entraînement, etc.), recommandations concernant leur évaluation ou leur utilisation, etc.

Surtout, les radiologues rappellent que leur métier ne consiste pas simplement à lire des images.

Quand bien même l’IA ferait aussi bien qu’eux sur une tâche d’interprétation, ce qui est actuellement contestable, il demeurerait bien délicat de substituer un logiciel à un praticien. Plutôt que de se voir remplacé, le secteur professionnel privilégie donc le narratif du radiologue travaillant avec l’IA afin d’améliorer la prise en charge des malades.

Mais les critiques portent également sur les promesses mêmes de l’IA en regard de ses performances réelles. Il apparaît en effet que ces outils nécessiteraient d’être mieux évalués : en 2021, plus de 60 % des logiciels disposant d’un marquage CE n’avaient fait l’objet d’aucune publication scientifique. En l’absence d’essais cliniques robustes se pose la question de leur efficacité en conditions réelles.

Ces revendications ne sont pas des protestations de pure forme : elles agissent en retour sur les industriels du secteur. En effet, plusieurs d’entre eux reprennent maintenant à leur compte l’argument du non-remplacement des radiologues, ou tentent de montrer patte blanche en publiant des articles évaluant la performance de leurs logiciels.

Cette mise en conformité avec les attentes des médecins peut bien entendu se lire comme une adaptation de l’argumentaire commercial à la cible de vente. Mais il s’agit aussi pour ces entreprises de parvenir à engager et stabiliser des collaborations… En effet, la participation des radiologues est nécessaire pour l’évaluation des logiciels et l’accès aux bases de données d’images permettant d’entraîner les algorithmes.

Une régulation étatique en retrait ?

Les professions de santé se retrouvent donc en première ligne pour faire face à l’arrivée dans leur pratique de ces nouveaux dispositifs impliquant l’IA. À l’inverse, les régulations administratives et sectorielles sont, elles, encore en construction. Elles ne concernent plus seulement ici le cas de la radiologie, mais celui plus général du déploiement de l’IA en médecine.

Certes, le cadre réglementaire évolue pour prendre en compte ces nouvelles technologies – en attestent la récente loi de bioéthique ou la mise en application du règlement européen relatif aux dispositifs médicaux en mai 2021. Mais, bien que ce dernier durcisse les conditions d’obtention du marquage CE, il apparaît toujours comme moins exigeant que son équivalent américain (la validation FDA). Et il fait pâle figure en comparaison des normes fixées pour la mise sur le marché des médicaments.

Alors même que leur prix est l’un des enjeux centraux à venir, le fait qu’il s’agisse de dispositifs médicaux à destination des professionnels pose également question en regard de leur procédure de prise en charge en vue d’un remboursement. Si la Haute autorité de santé a évalué des applications à destination des patients, par exemple pour le suivi du diabète ou en oncologie, et a publié une grille d’évaluation à ce sujet, les logiciels professionnels en radiologie et ailleurs restent à ce jour moins scrutés par les autorités de santé.

Leur usage destiné aux praticiens explique peut-être qu’ils soient passés sous les radars du débat citoyen. Les enjeux liés aux données de santé et à leur protection ont pourtant pu faire l’objet de vifs échanges, notamment concernant le développement du Health Data Hub (groupement d’intérêt public réunissant notamment la CNAM, le CNRS, la Haute Autorité de santé, etc., travaillant aux « grandes orientations stratégiques relatives au Système national des données de santé (SNDS) fixées par l’État et notamment le ministère des Solidarités et de la Santé »).

De fait, les interrogations ne manquent pas :

Si les développements actuels en radiologie invitent à rester prudent face aux promesses de l’IA et à ne pas céder à une forme de solutionnisme technologique, les transformations sont en cours et appellent à une vigilance politique et éthique.

The Conversation

Léo Mignot a reçu des financements de l'Institut national du cancer (INCa).

Émilien Schultz ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

  • ✇apprentissage profond (deep learning) – The Conversation
  • Un logiciel pour redonner un visage aux migrants disparus
    Chaque année, des centaines de milliers de personnes partent de chez elles et quittent leur pays à la recherche d’une vie meilleure ou pour fuir des violences. Beaucoup sont blessées ou tuées durant leur trajet. Beaucoup d’autres disparaissent sans que leurs proches ne sachent si elles sont vivantes ou mortes, ni ce qui leur est arrivé. Selon le projet Migrants disparus de l’Organisation internationale pour les migrations (OIM), on a ainsi perdu la trace de 45 000 migrants dans le monde depuis

Un logiciel pour redonner un visage aux migrants disparus

Chaque année, des centaines de milliers de personnes partent de chez elles et quittent leur pays à la recherche d’une vie meilleure ou pour fuir des violences. Beaucoup sont blessées ou tuées durant leur trajet. Beaucoup d’autres disparaissent sans que leurs proches ne sachent si elles sont vivantes ou mortes, ni ce qui leur est arrivé.

Selon le projet Migrants disparus de l’Organisation internationale pour les migrations (OIM), on a ainsi perdu la trace de 45 000 migrants dans le monde depuis 2014, dont 24 000 en Méditerranée.

En 2020, Le Groupe INSA (Institut national des sciences appliquées) a été approchée par l’équipe forensique transrégionale du Comité international de la Croix-Rouge (CICR), qui avait pour but d’améliorer le processus d’identification des migrants décédés dans la zone euro-méditerranéenne. Ici, on dénombre beaucoup de noyades – 16 000 depuis 2014. À notre connaissance, cet effort dirigé par l’anthropologue Jose Pablo Baraybar du CICR est le seul qui se confronte à cette problématique de manière transverse dans la région.

Les équipes des INSA sont ainsi intervenues pour proposer des solutions à ce travail d’identification essentiel du CICR, qui doit faire face à un grand nombre de cas, des informations éparses ou de faible qualité sur les personnes disparues.

Après un projet pilote conduit par l’INSA de Lyon, qui a permis de fournir au CICR des outils de gestion des informations sur les corps récupérés, le partenariat s’est structuré. Il a intégré le programme Alliances de la Fondation INSA.

Ce programme mobilise élèves et enseignants-chercheurs sur des cas concrets pour lesquels des ONG, comme Handicap International ou le CICR, ont besoin d’expertise scientifique et technique. En tout, ce sont 37 élèves qui, dans le cadre de leur cursus, ont développé sept projets alliant méthodes et outils propres aux écoles d’ingénieurs avec les connaissances de terrain du CICR.

L’intelligence artificielle au service de l’humanitaire

En théorie, le processus d’identification des personnes noyées pourrait facilement être initié en faisant reconnaître les défunts par leurs proches à l’aide de photographies. Ces documents ne sont toutefois pas toujours « montrables » : soit ces photos sont de mauvaise qualité, soit les corps sont tellement abîmés et les images tellement traumatisantes qu’elles empêchent toute reconnaissance formelle.

Cette situation nous a conduits à explorer l’idée de comparer les photos des individus décédés avec les photographies de personnes recherchées par leurs proches en utilisant des technologies de reconnaissance faciale.

Cette approche a notamment été explorée dans le cadre du stage de fin d’études de Zacharie Hellouin en 2020. Son projet consistait à utiliser puis évaluer l’apport des algorithmes et des modèles de reconnaissance faciale dans l’identification des dépouilles de personnes retrouvées noyées.

Concrètement, il s’agit d’adapter et d’utiliser des modèles de machine learning, une technique d’intelligence artificielle permettant à un programme d’apprendre, en autonomie, à reconnaître des similarités et des différences sur des jeux de données. En le confrontant à des expériences répétées, comme reconnaître l’identité d’une personne, le programme s’entraîne et améliore ses résultats. Ce travail a permis de valider l’intérêt de cette technique pour la reconnaissance des disparus.

Pour la mettre en application, nous avons comparé des photos de personnes migrantes vivantes avec celles des personnes migrantes décédées dans l’espoir d’obtenir des correspondances positives. Pour cela, nous avons mis en place un index de similarité en nous appuyant sur un algorithme d’appariement qui permet d’obtenir des scores d’identité probable de la personne sous forme de pourcentages.

L’ensemble a été intégré dans une application Web destinée aux agents du CICR et à ceux légalement en charge de l’identification de dépouilles mortelles, comme les instituts médico-légaux. Cette application est en cours de développement et chacun des projets vise à l’améliorer.

Les résultats obtenus sont encourageants. Grâce à ce logiciel, nous avons pu élaborer un prototype complet de reconnaissance faciale appliquée aux migrants disparus. Cependant, pour pouvoir proposer des indicateurs réellement fiables de similarité entre des photos de personnes vivantes et décédées, il faudrait se procurer des milliers et des milliers de photos.

Vidéo de démonstration du logiciel de retouche des visages mis au point par le réseau Insa pour le CICR (INSA/CICR).

Ces limites étant posées, l’outil développé offre aujourd’hui aux agents du CICR la possibilité d’orienter leurs recherches en fournissant une liste de correspondances probables, rendant la recherche certes laborieuse, mais humainement possible.

Un logiciel en constante amélioration

Au début de ce projet, en 2020, il fallait rédiger un cahier des charges. Les étudiants INSA et leur enseignant Charles Dossal ont donc traduit en termes techniques les traitements automatiques ou non à effectuer sur ces images : extraire le visage du décor (un sac, le fond d’un bateau, une table…), centrer et aligner l’image, atténuer ou faire disparaître les plaies, enlever l’écume de la bouche et rendre au regard une lueur de vie.

Deux étudiants en 4e année, Adam Hamidallah et Din Triem Phan, ont ensuite programmé les algorithmes que nous avions identifiés comme les plus pertinents pour régler ces différents problèmes. Il aura fallu parfois recopier des parties de peau saine pour « panser numériquement » des plaies ou insérer des yeux issus d’un autre visage quand ceux-ci étaient trop abîmés. Les résultats sont encourageants, mais nous avons aussi pu mesurer que l’intelligence artificielle (IA) pourrait apporter des réponses plus abouties.

Au cours de l’été 2021, Zoé Philippon et Jeong Hwan Ko ont visualisé ces terribles images avec pour but de voir plus précisément ce que l’IA peut apporter dans cette mission.

L’objectif de Zoé Philippon était de tester les limites des algorithmes de reconnaissance faciale basés sur des réseaux de neurones artificiels quand on les applique à des images de visages de défunts majoritairement d’origine africaine. Ces algorithmes sont efficaces sur des images proches de celles qui ont été utilisées pour les calibrer, ici des visages de personnes vivantes, la plupart blanches et masculines, avec une faible proportion de visages féminins ou africains.

Elle a donc réalisé de nombreux tests, a ré-entrainé l’IA pour qu’elle soit plus efficace sur les images de disparus. Les résultats semblent indiquer que ces algorithmes gagneraient à être entraînés plus spécifiquement sur des visages de population plus représentative des disparus et que la reconnaissance se dégrade singulièrement quand la personne à reconnaître est décédée. Un accès à une plus grande quantité de données pourrait confirmer ces premiers résultats très encourageants.

Maquillage numérique

Jeong Hwan Ko a essayé d’améliorer les résultats de « maquillage numérique » en utilisant des réseaux de neurones artificiels préentrainés eux aussi, pour combler des trous dans des images. Ces méthodes se sont montrées redoutablement efficaces pour effacer les blessures, mais pour réparer une bouche ou des yeux, il a fallu utiliser d’autres réseaux de neurones capables d’insérer une partie d’une image dans une autre.

Pour le moment, le programmeur choisit l’image à insérer, mais à l’avenir, il sera sans doute plus efficace de laisser l’algorithme chercher lui-même dans une grande base de données, les yeux, la bouche ou les oreilles en bon état qui ressemblent le plus à celle du visage à identifier. Il reste du travail et, là encore, un accès plus large à des données permettrait sans nul doute d’améliorer la qualité de cette reconstruction faciale.

Aujourd’hui, les projets se poursuivent. Nous sommes toujours à la recherche de données pour entraîner davantage les programmes d’apprentissage automatique. Nous sommes aussi à la recherche d’entreprises mécènes disposées à partager avec nous leurs technologies, leur temps et leur soutien.

Soulignons enfin que ces mêmes applications, développées pour donner une réponse à la crise des migrants disparus, peuvent aussi servir dans d’autres contextes comme des catastrophes, des conflits ou toute situation qui peut entraîner la non-identification des personnes décédées.


Cet article a été co-écrit par Samuel Kenny, coordinateur de l'Alliance CICR-INSA.

The Conversation

Sami Yangui est membre du Laboratoire d'analyse et d'architecture des systèmes (LAAS-CNRS).

Charles Dossal ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Implants cérébraux : la délicate question de la responsabilité juridique des interfaces homme-machine

Dans le film _Transcendance_, de Wally Pfister, sorti en 2014, le héros mourant transfère son esprit dans un ordinateur quantique. Wally Pfister, 2014

Depuis quelques années, Elon Musk ne cesse de faire des annonces relatives à des avancées technologiques. Voitures autonomes, voyages interplanétaires, interface homme-machine, achat du réseau social Twitter… rien ne semble arrêter l’homme d’affaires. Aucun obstacle technique, géographique, physiologique ne lui semble infranchissable. Pourtant, ses projets pourraient, à court terme, poser de véritables difficultés du point de vue juridique.

La recherche d’une fusion entre le cerveau et l’intelligence artificielle

Avec Neuralink, l’un des objectifs visés par Elon Musk est de créer une interface entre l’humain et la machine. À plus ou moins court terme, le projet porte sur le développement d’implants cérébraux pour pallier des troubles neurologiques chez les personnes souffrant de paraplégie ou de tétraplégie. À long terme, il s’agirait de placer le cerveau humain en symbiose avec l’intelligence artificielle.

Ces implants ont fait l’objet de récentes annonces : ils pourraient être expérimentés chez l’humain courant 2022, si la Food and Drug Administration l’autorise. Rappelons que ces promesses ne sont pas inédites : elles avaient déjà été faites à plusieurs reprises ces dernières années. Elles s’inscrivent par ailleurs dans un contexte de recherche particulièrement riche, qui pointe certaines limites de l’utilisation de tels implants.

Des interrogations autour de la notion de « personnalité juridique »

La quête d’une interface entre humains et machines conduit à s’interroger sur ce qui pourrait advenir d’entités qui seraient véritablement en symbiose. La dichotomie entre les personnes et les choses persiste depuis des siècles. Elle structure le droit civil : tout ce qui n’est pas une personne est considéré comme étant une chose. Les premières sont des sujets de droit, c’est-à-dire qu’elles sont titulaires de droits et d’obligations. Les secondes sont soumises à la volonté des premières.

Il faudrait donc déterminer dans quelle catégorie placer ces entités reposant sur la symbiose entre l’homme et la machine. Aujourd’hui déjà, il est acquis que la « personnalité juridique » n’est pas seulement l’apanage des personnes humaines : les sociétés, par exemple, disposent de la personnalité morale. Elles ont ainsi des droits liés à leur personnalité juridique technique.

Certains proposent également de mobiliser cette construction juridique qu’est la « personnalité juridique » pour protéger les animaux.

Cette fiction pourrait-elle à l’avenir permettre d’accorder des droits à ces interfaces homme-machine ? Si oui, il faudrait encore déterminer de quels droits elles pourraient bénéficier. Certains droits visent en effet spécifiquement l’humain qui est en chaque individu. Les accorder à des entités mi-homme mi-machine serait un non-sens. À titre d’exemple, le respect de la dignité humaine impose de préserver l’intégrité génétique des personnes humaines. Une telle protection ne serait pas envisageable dans les mêmes termes pour ces nouvelles entités.

De manière plus générale, certains s’inquiètent de la possible confusion juridique entre personnes et choses.

Le corps, accessoire de la machine

À l’instar de l’hybride entre l’homme et l’animal, l’hybride entre l’homme et la machine serait une sorte de chimère, c’est-à-dire, un être composé de parties disparates formant un ensemble sans unité.


À lire aussi : Implants cérébraux : la nature humaine remise en question


Une telle hybridation interroge les limites de la personnalité juridique. Si la partie technologique de l’entité intervient dans des proportions très importantes, il paraît difficilement concevable de lui attribuer la personnalité juridique dans les mêmes termes qu’à la personne humaine. Surtout, si le corps humain ne devient que le support de la machine, dirigée par l’intelligence artificielle, cette entité disposerait-elle toujours de la personnalité juridique ? Suivant la règle selon laquelle l’accessoire suit le principal, le corps, accessoire de la machine, devrait répondre au même régime : cette entité, même en disposant d’un corps humain, serait une chose, non une personne.

La particularité des implants cérébraux

Les implants cérébraux développés dans le cadre de Neuralink ne peuvent pas être traités comme n’importe quelle prothèse qui serait implantée dans le corps humain. Certes, le projet traite aujourd’hui de l’utilisation d’implants à des fins thérapeutiques.

Mais de tels implants pourraient, à l’avenir, devenir le siège de capacités cognitives nouvelles. La méfiance doit être de mise à l’heure où les voitures autonomes, déjà développées par le multimilliardaire, sont en cause dans des accidents de la circulation induits par des dysfonctionnements de l’intelligence artificielle.

Surtout, si les décisions ne sont pas prises de manière autonome par la personne humaine, mais plutôt supplantées par l’intervention de l’intelligence artificielle, cette dernière ne devrait-elle pas être titulaire de droits et, surtout, d’obligations ? Pourtant, dès lors qu’il ne s’agit que d’une chose, elle n’est qu’objet de droit.

La crainte d’un glissement dans l’usage des implants cérébraux

En somme, l’expérimentation d’implants cérébraux à des fins thérapeutiques est une chose, leur utilisation à des fins de symbiose entre l’homme et la machine en est une autre. Ces deux situations doivent être distinguées car elles ne répondent pas aux mêmes règles de droit.


À lire aussi : Humanisme, posthumanisme, transhumanisme : de quoi parle-t-on exactement ?


Dans le premier cas, les implants pourraient être regardés comme des dispositifs médicaux, expérimentables sur l’homme, à des fins d’amélioration de sa santé. Dans le second cas, il s’agirait d’opter pour une augmentation des capacités humaines et donc, de s’inscrire dans le courant transhumaniste auquel Elon Musk semble appartenir. La difficulté qui se pose donc aujourd’hui face aux projets du multimilliardaire est donc de freiner de telles velléités transhumanistes. Menées à bien, ces ambitions poseraient de sérieuses difficultés en termes d’attribution de la personnalité juridique et, par conséquent, de responsabilité s’agissant des actes qui pourraient être réalisés par ces entités mi-homme mi-machine.

La multiplication des risques par l’usage des technologies

Plus encore, qu’adviendrait-il en cas de biohacking de l’implant ? Déjà, la série Biohackers a permis de souligner que les progrès scientifiques pouvaient conduire à des manipulations du génome à des fins criminelles.

Dans le cas de l’implantation cérébrale de puces disposant d’une intelligence artificielle, le hacking pourrait être particulièrement dangereux. Certains estiment d’ailleurs qu’une intelligence artificielle hackée serait une arme, permettant l’essor du cybercrime.

The Conversation

Elise Roumeau ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

  • ✇apprentissage profond (deep learning) – The Conversation
  • Qu’est-ce qu’un algorithme quantique ?
    Intérieur de l'un des ordinateurs quantiques développés par IBM. IBM Research/flickr, CC BY-NDNous le savons toutes et tous, nous vivons une époque scientifique formidable ! Une transition sociétale est en cours, dominée par deux piliers majeurs : les transitions écologiques et numériques. Dans la transition digitale, il va falloir compter avec l’informatique dite « quantique ». Incontournable, on en parle (à juste titre) comme une révolution scientifique et technique et un véritable changement

Qu’est-ce qu’un algorithme quantique ?

Intérieur de l'un des ordinateurs quantiques développés par IBM. IBM Research/flickr, CC BY-ND

Nous le savons toutes et tous, nous vivons une époque scientifique formidable ! Une transition sociétale est en cours, dominée par deux piliers majeurs : les transitions écologiques et numériques. Dans la transition digitale, il va falloir compter avec l’informatique dite « quantique ». Incontournable, on en parle (à juste titre) comme une révolution scientifique et technique et un véritable changement de paradigme. L’ordinateur quantique étant une extension de l’ordinateur « classique », il faut alors reprendre les concepts clés de l’informatique et leur donner leur « version » quantique. Dans cette perspective, il nous faut définir ce qu’est un algorithme quantique.

L’algorithme classique

Le mot « algorithme », un peu employé à tort et à travers ces dernières années, perd un peu de sa substance originelle. D’Euclide à Google en passant par Al-Khwârizmî (du nom duquel le mot algorithme est dérivé), l’algorithme est l’antidote de la résolution d’un problème formulé à l’aide des mathématiques. Dans son célèbre article de 1936, Alan Turing relie l’algorithmique à la notion de « calculabilité », c’est-à-dire la possibilité de calculer sous la forme d’algorithmes, considérés en conséquence comme de « vrais » objets mathématiques prenant la forme d’une suite finie et non ambiguë d’instructions et d’opérations permettant de résoudre une classe de problèmes.

Un algorithme devient alors une méthode générale pour résoudre un type de problèmes ; et l’informatique théorique devient une branche des mathématiques.

Un certain nombre de qualificatifs permet de caractériser un algorithme : efficacité, performance, complexité. (Nous nous limitons ici à ces quelques notions). L’efficacité est mesurée notamment par sa durée de calcul, sa consommation de mémoire vive (en partant du principe que chaque instruction a un temps d’exécution constant), la précision des résultats obtenus (par exemple avec l’utilisation de méthodes probabilistes), ou encore sa scalabilité (son aptitude à être efficacement parallélisé). Il sera dit performant s’il utilise avec parcimonie les ressources dont il dispose, c’est-à-dire le temps CPU, la mémoire vive et (aspect objet de recherches récentes) la consommation électrique. Enfin, la complexité permet de prédire le temps de calcul nécessaire pour amener un algorithme à son terme, en fonction de la quantité de données à traiter.

On peut essentiellement regrouper les algorithmes en 3 familles :

  • fondamentaux : ils ont des tâches parfaitement bien définies, dont le résultat est facilement vérifiable
Animation montrant un algorithme testant plusieurs chemins pour entre plusieurs points et choisissant le plus court
L’algorithme de Dijkstra permet de trouver le chemin le plus court entre les points a et b. Ibmua/Wikimedia
  • optimisation : ils cherchent à identifier des paramètres ou une configuration qui maximise ou minimise une valeur (exemple : recherche d’un chemin le plus court entre deux points)

  • cryptographiques : ils sont destinés à garantir la sécurité des communications et transactions

Avant d’établir l’extension quantique d’un algorithme, rappelons les bienfaits de l’informatique quantique.

Le principe de l’informatique quantique

L’informatique classique est fondamentalement basée sur le traitement de signaux binaires, c’est-à-dire basés sur deux états. L’état d’un interrupteur ou d’un bit en mémoire est soit 0 soit 1 : un registre de n bits équivaut donc à n valeurs. L’informatique classique traitera chacune de ces valeurs de façon linéaire, les unes à la suite des autres, cela va donc prendre un certain temps de traitement.

En mécanique quantique, les paradigmes changent profondément. Trois aspects de la mécanique quantique sous-tendent la possibilité de faire de l’informatique quantique : la dualité onde/corpuscule, la superposition d’états et l’intrication.

De par leur nature onde/corpuscule, les particules quantiques sont décrites par des probabilités évoluant dans le temps et dans l’espace. De plus, elles ont la capacité de se trouver dans un état qu’on appelle « superposé » : à la fois un peu 0 et un peu 1. Ainsi, un qubit (la version quantique du bit traditionnel) possède deux états “d’existence”, nommés (par convention et par analogie avec le bit classique) ❘0> et ❘1> (prononcés : ket 0 et ket 1). Alors qu’un bit classique est numérique et a toujours pour valeur soit 0 soit 1, l’état d’un qubit est une superposition quantique linéaire de ses deux états de base (autrement dit, il vaut en même temps ❘0> et ❘1>). Par contre, si on cherche à l’observer, on va alors trouver soit un 0 ou un 1 : l’observation a changé l’état de la particule en choisissant entre les deux. Un qubit observé se conduit dès lors comme un bit classique. Enfin, par l’intrication, on peut faire vivre en « couple » deux particules quantiques et rendre leur état quantique interdépendant. Cela est très utile pour tenter de suivre et comprendre l’évolution d’un qubit.

Avec un registre de n qubits, on a donc en même temps 2n valeurs, qui peuvent toutes être stockées simultanément (là où l’informatique classique ne peut stocker qu’une valeur à la fois). Si on arrive à faire des calculs avec de tels supports, on arrive en quelque sorte à faire tous les calculs en même temps, comme si on réalisait 2n calculs « en parallèle ». Par exemple, si n=3, un ordinateur quantique aura la possibilité de traiter 8 états quantiques différents, et donc 8 calculs en même temps. Si chaque calcul durait une seconde, un ordinateur quantique n’aurait donc besoin que de 1 seconde pour les réaliser (là où un ordinateur classique aurait eu besoin de 8 secondes, puisqu’il aurait dû traiter chaque calcul l’un après l’autre). (Note : il ne s’agit ici que d’un exemple simplifié visant à illustrer le propos, et pas de calculs ou de fonctionnement réel.)

L’ordinateur quantique se base sur des méthodologies différentes de l’ordinateur classique.

À la fin, il se peut qu’il n’y ait qu’un seul de ces calculs qui ait réussi, et c’est son résultat qui nous intéresse. La difficulté, c’est de l’isoler. L’art des algorithmes quantiques est donc d’effacer de façon judicieuse tous les calculs qui n’ont pas abouti.

L’algorithme quantique

En informatique classique, un programme informatique est constitué d’une suite d’instructions réalisées séquentiellement. Au niveau microscopique, ces instructions résultent du traitement des bits par des portes logiques.

En informatique quantique, les portes deviennent quantiques, ce qui change la nature intrinsèque du traitement des instructions. Il faut alors repenser la nature de la formulation des algorithmes, qui, par extension, deviennent quantiques.

À ce stade, le principe de superposition propre à la physique quantique permet d’appliquer ces différentes étapes à une superposition arbitraire des états de base, voire à leur somme complète. Comme la lecture du registre ne fournit qu’une valeur 0 ou 1 pour chaque bit (pour rappel, un qubit observé se fige dans un état donné et se comporte comme un bit classique), soit un des états de base du registre, tout l’art de l’algorithmique quantique consiste à concentrer l’évolution vers les états donnant une/la solution du problème cherché.

Un ordinateur quantique n’est donc pas uniquement une machine universelle qui résoudrait tous les problèmes plus rapidement qu’un ordinateur conventionnel. Il s’agit plutôt d’une machine capable de résoudre efficacement certains problèmes hors de portée des machines conventionnelles, en utilisant une méthodologie entièrement différente. Le jeu consiste donc à comparer la complexité d’un problème d’un point de vue classique et quantique : si un algorithme peut être résolu de manière classique avec une complexité bien définie, alors il peut aussi l’être dans le modèle quantique avec une complexité équivalente ou moindre.

Les capacités de l’algorithmique quantique sont directement reliées au nombre de qubits… mais pas seulement. Augmenter leur nombre ne sert que si « l’environnement » quantique est maintenu malgré les inévitables processus de décohérence. Une autre particularité du qubit par rapport à un bit classique est qu’il ne peut pas être dupliqué en raison des lois de la physique quantique.

Quelques algorithmes quantiques célèbres

Mais quels problèmes intéressants peut-on aborder avec le calcul quantique ? Tous les problèmes de prédiction et contrôle de systèmes complexes, comme la finance, la météorologie, la santé, l’énergie, mais aussi la physique quantique elle-même !

Sorte de pièce montée inversée tombant du plafond, composée de plusieurs étages constitués de cyclindres reliés par des câble. L'ensemble est doré et transparent, et très volumineux.
L'un des ordinateurs quantiques développés par IBM. IBM Research/flickr, CC BY-ND

L’algorithme de Shor, premier algorithme quantique reconnu comme tel, explique comment factoriser de grands nombres en facteurs premiers de manière efficace. On ne sait pas faire cela avec l’informatique classique. Les algorithmes qu’on connaît prennent un temps exponentiel. D’ailleurs, une grande partie de la cryptographie (très utilisée dans nos vies quotidiennes) est basée sur le fait qu’on ne sait pas factoriser rapidement un nombre premier. Ce problème de factorisation, on arrive à le résoudre dans le modèle quantique avec l’algorithme de Shor. Évidemment, pour que cela devienne réalisable en pratique, il faudrait savoir construire un ordinateur quantique qui manipule quelques milliers de qubits. On n’y est pas encore. L’algorithme de Shor fut utilisé en 2001 par un groupe d’IBM, qui factorisa 15 en 3 et 5, en utilisant un calculateur quantique de 7 qubits ! Récemment, c’est le nombre 21 qui a été factorisé sur un processeur quantique d’IBM. Une preuve que l’algorithme fonctionne !

L’algorithme de Grover est un autre algorithme quantique connu. Il permet de rechercher un ou plusieurs éléments qui répondent à un critère donné parmi N éléments non classés. Le problème se résout avec une complexité moindre qu’un algorithme classique.

La course à l’algorithme quantique est lancée. Et si l’on combine les atouts de l’IA avec la puissance du calcul parallèle quantique (discipline nommée Quantum Machine Learning), aura-t-on atteint les limites de la puissance informatique ? Si la question de l’algorithme « intelligent » se résout peu à peu, il restera alors à résoudre la question éthique des algorithmes, afin de quantifier leur impact sociétal et politique.

The Conversation

Waleed Mouhali ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Deepfake, racisme, armes autonomes : comment donner une éthique à l’IA

Peut-on mettre au point des intelligences artificielles éthiques ? Mike MacKenzie/Flickr, CC BY

Le 24 novembre dernier, l’Unesco a adopté un projet de recommandation sur l’éthique de l’intelligence artificielle (IA) dans le but de donner des fondements éthiques à vocation universelle à ses états membres. Cette annonce, importante comme nous le verrons, peut de prime abord interroger. En effet, en quoi l’éthique peut-elle concerner l’IA ? Ce concept n’est-il pas réservé aux individus ? Pour répondre à cette interrogation, commençons tout d’abord par revenir aux fondements de ce qu’est l’éthique, ainsi qu’à la compréhension de ce qu’est l’IA.

L’éthique, prescripteur des valeurs et des lois

Rappelons que l’éthique est synonyme de morale, en plus actuel, les deux signifiant « les mœurs ». On compte principalement trois doctrines philosophiques permettant de définir et penser l’éthique. Résumées de manière lapidaire, on peut dire que l’éthique du philosophe de la Grèce antique Aristote consiste en un perfectionnement des vertus, conjugué à une manière d’être prudente, ayant le souci du respect des mœurs de la cité. Pour le philosophe prussien Emmanuel Kant, en revanche, l’éthique est un devoir, celui de l’impératif catégorique, qui consiste à n’agir que si l’action en jeu est universalisable, c’est-à-dire pourrait servir de modèle pour les autres hommes. Enfin, dans la pensée utilitariste, dont les précurseurs sont les penseurs britanniques Jeremy Bentham et John Stuart Mill, l’éthique consiste à choisir les actions en fonction de leurs conséquences, bonnes ou mauvaises, en visant le bonheur du plus grand nombre.

Ces trois doctrines historiques, étoffées par nombre de philosophes plus actuels (J. Habermas, H. Jonas, J. Derrida, P. Ricœur, etc.) ont façonné l’acception contemporaine du concept d’éthique tel qu’il est usité dans le débat public. Aujourd’hui, le concept éthique est généralement associé aux avis rendus par des comités consultatifs d’éthique à propos de dilemmes moraux, à l’issue de processus délibératifs, plus ou moins inclusifs et démocratiques.

Ces avis peuvent définir des valeurs, des principes voire des normes de comportements, évitant de nuire à autrui et visant le bonheur des hommes dans une société juste. Les normes, en particulier, ont une vocation pratique par leur transposition naturelle dans la loi, la réglementation ou encore les codes de déontologie, en définissant les droits et devoirs des citoyens, c’est-à-dire en fixant des limites à leurs comportements.

L’IA, science sans conscience d’elle-même

L’intelligence artificielle, quant à elle, est une technologie protéiforme visant à reproduire ou simuler l’intelligence humaine. À la croisée entre mathématiques et informatique, cette discipline connaît aujourd’hui un essor phénoménal permis par l’avènement du big data et les capacités de calculs vertigineux des microprocesseurs. L’IA permet notamment de faire des regroupements homogènes d’ensembles d’objets abstraits sur la base de données d’apprentissage. Cette fonctionnalité, a priori simple, trouve paradoxalement des applications surprenantes pour lesquelles on imaginerait des mécanismes plus complexes.

Ainsi, regrouper des images homogènes, par exemple des photos de chats, permet la reconnaissance d’image. De la même façon, regrouper les sons (phonèmes) composant des mots permet la reconnaissance vocale. Enfin, associer des objets sur la base d’un critère donné permet aux machines de raisonner et prendre des décisions, par exemple en regroupant les candidats admissibles à une embauche, c’est-à-dire en les distinguant de ceux dont la candidature est rejetée.

Cependant, quelle que soit la sophistication de l’IA et le caractère impressionnant de ses performances, l’IA actuelle est dite « faible », car elle ne permet « que » l’exécution d’une unique tâche spécifique : jouer au jeu de Go, identifier une tumeur sur une radio, détecter des transactions bancaires frauduleuses, noter le risque de défaut des emprunteurs, etc. Une intelligence artificielle générale, capable d’effectuer toutes les tâches cognitives propres aux humains, même limitées aux capacités d’un enfant de deux ans, n’est pas à l’ordre du jour, tandis que la création d’une IA dotée d’une forme de conscience de soi et de pensée reste encore un doux rêve au regard des connaissances actuelles en neurosciences.

Une IA n’est finalement rien d’autre qu’un programme informatique adaptatif (qui s’adapte à ses données d’entraînement en Machine Learning ou à son contexte en apprentissage par renforcement), sans conscience, sans valeurs, sans pensées, sans libre arbitre, incapable de discerner le bien du mal et donc d’agir volontairement et consciemment de manière conforme à la morale ou à la loi. Aussi, si une IA peut mécaniquement produire des résultats légaux, c’est-à-dire conformes à la loi, parler de comportement éthique pour une IA relève d’un non-sens, puisqu’agir de façon éthique nécessite la possibilité d’un choix en conscience, rendu possible par le libre arbitre.

L’IA est donc amorale, au même titre que toutes les technologies. Mais de la même manière que la maîtrise de l’électricité a débouché sur des applications devenues indispensables à l’humanité (se chauffer, s’éclairer…) comme néfastes (la gégène a aussi été utilisée à des fins de torture), l’IA offre des usages bénéfiques mais aussi potentiellement nuisibles pour l’humanité.

Partie de Go entre AlphaGo et le joueur Lee Sedol ; un cadre de l’image montre le plateau de go vu de dessus, un autre cadre filme le joueur Lee Sedol
AlphaGO est une IA faible : elle sait jouer au Go… mais est incapable de reconnaître une image de chat. Prachatai/Flickr, CC BY-NC-ND

De fait, si les applications bénéfiques de l’IA sont indiscutables (amélioration des diagnostics médicaux, freinage automatique d’urgence des véhicules, maintenance prédictive, traduction automatique…), les risques qui lui sont associés existent bel et bien. On songe d’abord au risque démocratique, avec les bulles informationnelles des réseaux sociaux qui polarisent le débat, ou avec les deepfakes, ces vidéos contrefaites permettant de faire dire n’importe quoi à n’importe qui de façon très réaliste. Ensuite, l’IA permet l’émergence d’une surveillance généralisée, avec la reconnaissance faciale, voire l’analyse de nos discussions privées. On peut penser également à toutes les décisions prises automatiquement par des IA sans qu’il soit possible d’en expliquer les raisons. Ces dernières peuvent aussi être biaisées avec, en particulier, un risque de discrimination avéré. Des travaux menés aux États-Unis illustrent ce dernier point, et montrent que les populations afro-américaines de l’étude étaient davantage pénalisées par des juridictions recourant à des IA de justice prédictive. On peut y ajouter la question des armes létales autonomes, celle des externalités de l’IA en matière d’empreinte carbone ou encore de son impact sur l’emploi et les inégalités…

Encadrer l’usage de l’IA

On le voit, les risques liés aux applications de l’IA sont nombreux, manifestes et sérieux. Mais si l’on y réfléchit, ce n’est pas tant l’IA, en tant que technologie, qui est ou n’est pas éthique, mais bien davantage ses usages, imaginés et développés par des humains, car seuls ces derniers disposent d’une liberté de choix en conscience.

Alertés sur ces problèmes, les industriels et la communauté scientifique se sont lancés, assez récemment, dans des projets de recherche en IA Éthique (Fair Machine Learning), visant notamment à corriger les biais de discrimination des modèles mais aussi à rendre explicables les résultats des algorithmes. L’explicabilité a pour objet de rendre les résultats des modèles intelligibles pour les utilisateurs. Or, bien que tout algorithme soit compris par son développeur, les résultats de certaines IA ne peuvent être expliqués et justifiés de façon argumentée au regard de la complexité du modèle entraîné. On peut alors parler de boîte noire, inacceptable pour les décisions impactant la vie des individus (recrutement, crédit…). Cette question concerne tout particulièrement les réseaux de neurones, modèles inspirés des neurones biologiques, et de ses avatars les plus populaires et performants, l’apprentissage profond (ou Deep Learning) et les réseaux convolutifs pour lesquels le nombre de paramètres peut se compter en milliards. L’explicabilité est donc une condition nécessaire à l’acceptation sociale des décisions basées sur les modèles d’IA. En outre, son avènement renforcerait la confiance du citoyen dans cette technologie.

Mais si ces projets vont dans le sens d’une justice et d’une confiance accrues, cela ne suffit pas à couvrir l’étendue des risques liés à l’IA mais uniquement de ceux relevant de la légalité des modèles. Ainsi, les questions, déjà mentionnées, liées au risque démocratique, à la surveillance généralisée ou encore aux armes létales autonomes échappent à ces solutions techniques car elles sont d’une autre nature, éthique (est-il moral d’autoriser l’application concernée ?), juridique (quels sont les droits et les devoirs associés à l’application, une fois celle-ci autorisée), ou encore politique (comment gérer les conséquences économiques, sociétales et environnementales des applications concernées ?).

Précisément, le projet de recommandation pour une éthique de l’IA, adopté par les 193 membres de l’Unesco le 24 novembre dernier, pose un cadre normatif de valeurs et de principes qui constitue un socle commun, préalable à la formulation de lois et règlements par les états membres. Par exemple, une recommandation précise concerne la question de la discrimination :

« Les états membres doivent veiller à ce que les stéréotypes fondés sur le genre et les préjugés discriminatoires ne soient pas transposés dans les systèmes d’IA, mais plutôt repérés et corrigés de manière proactive. »

En outre, ce texte prône des garde-fous à toutes les étapes du cycle de vie des IA, responsabilisant les parties prenantes, les individus comme les organisations (et non pas les IA comme nous l’avons vu), concernées par la légalité, la conception, le développement et l’exploitation des applications adossées à cette technologie.

Cet évènement représente donc une avancée utile et importante mais il faut toutefois mentionner deux bémols :

  • Tout d’abord, ces recommandations sont juridiquement peu contraignantes dans la mesure où les états membres ne s’engagent, au titre de la constitution de l’Unesco (art. IV, B, §4 et §6), qu’à soumettre les recommandations aux autorités nationales compétentes puis à rendre compte des suites qui leur sont données par la remise d’un rapport ultérieur.

  • Ensuite, l’IA est considérée comme l’instrument de la prochaine révolution économique, c’est donc un enjeu géostratégique majeur, sur le plan économique mais aussi militaire.

Or, dans un contexte international de compétition économique exacerbée et de tensions entre grandes puissances (on pense d’abord aux relations Sino-Américaines), on peut s’interroger sur le poids de ces recommandations…

The Conversation

Christian Goglin ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Apprentissage profond et consommation énergétique : la partie immergée de l’IA-ceberg

Depuis une dizaine d’années, l’essor considérable du monde numérique et en particulier de l’intelligence artificielle a eu des effets spectaculaires dans quelques domaines scientifiques, tels que la vision par ordinateur (pour la détection automatique d’objets, de visages) ou le traitement du langage naturel (traduction automatique, filtres antispam, suggestions de réponses automatiques).

Aujourd’hui, on imagine ce développement capable de bouleverser tous les autres champs de la société. On nous promet un avenir radieux fait de bien-être et de confort améliorés par la santé digitale, les véhicules autonomes, les interfaces humains-machines sophistiquées, les robots pour l’aide à domicile, ou encore les visites virtuelles de tous les musées du monde portant toute la culture humaine à portée de clics.

En tête de proue de cet essor se trouve l’apprentissage profond (ou deep learning en anglais), ces fameux « réseaux de neurones artificiels » qui se sont vite diffusés. Cependant, le coût énergétique de cet outil technique est peu connu des utilisateurs alors qu’il est particulièrement préoccupant.

Au-delà des questions de performances, de rapidité ou de passage à l’échelle qui intéressent les ingénieurs en quête de toujours plus de prouesses technologiques, c’est d’un point de vue environnemental, et en particulier sur le plan des émissions de gaz à effet de serre que la question inquiète.

Une consommation énergétique impressionnante

Concrètement, la consommation énergétique d’une seule exécution d’entraînement (en général il en faut plusieurs pour obtenir un résultat abouti) des réseaux de neurones artificiels les plus récents, dédiés au traitement naturel du langage, dépasse le million de kilowatts-heures dépensés au bout de plus d’un mois de calculs sur des machines équipées de quelque 10 000 processeurs, parmi les plus puissantes actuelles.

Côté porte-monnaie, la facture électrique excède les 100 000 euros et pour la planète plus de 500 tonnes d’émissions de CO2, soit une empreinte carbone équivalente à 500 vols aller-retour Paris-New York. En comparaison, le cerveau humain consomme en un mois environ 12 kWh, soit cent mille fois moins, pour des tâches bien plus complexes que la traduction en langage naturel.

Contrairement à dix ans plus tôt, il est d’ailleurs aujourd’hui devenu inenvisageable d’entraîner un réseau de neurones comme celui que l’on vient d’évoquer sur notre ordinateur de bureau (cela prendrait théoriquement 405 ans). En clair, l’intelligence artificielle est une réelle révolution numérique, mais une révolution qui coûte extrêmement cher.

Un danger pour l’équilibre planétaire ?

Il n’est en fait pas surprenant que des solutions « d’intelligence informatique » soient bien moins énergétiquement efficaces que trois milliards d’années d’évolution biologique. Ce qui choque avant tout, c’est que la consommation absolue atteint des seuils indécents, à une époque où le poids du dérèglement climatique exige de la société des hommes un vif effort de sobriété énergétique.

Bien sûr, « une fois entraîné » l’algorithme sera réutilisé des millions de fois par nos téléphones ou nos voitures à un coût comparativement négligeable. Mais le développement de l’intelligence artificielle s’est accompagné du déploiement fulgurant et toujours croissant de clusters de calculs dédiés à l’apprentissage et d’infrastructures réseau aujourd’hui dissimulés dans la nébuleuse du cloud mondial.

Cette virtualisation du calcul loin de l’ordinateur de bureau de l’ingénieur moderne induit au passage cette nouvelle illusion d’un caractère « inoffensif » de l’intelligence artificielle. En réalité, la fabrication et l’usage de ce cloud – qui n’est nullement immatériel – engendrent des centaines de tonnes de CO2 additionnelles (cycle d’extraction de métaux, transformation, transport, usage).

Cette fuite en avant sur le décompte des émissions de CO2 ne saurait d’ailleurs être complète si l’on oublie d’évoquer le problème des déchets électroniques majoritairement non recyclables. Ils devraient être traités à la fin de vie de ces matériels mais ne le sont en réalité qu’à hauteur de 17 % (un smartphone contient plus de 50 métaux devenus impossibles à désolidariser).

Un contexte qui invite à la sobriété

Il est désormais acquis rapports du GIEC à l’appui, que le volume des rejets de CO2 dans l’atmosphère et la dégradation de la biosphère induits par les activités humaines des cinquante dernières années menace la stabilité du système Terre.

Dans le scénario où l’humanité conserverait sa trajectoire actuelle, les études envisagent un effondrement de la société et de la vie sur Terre entre 2025 et 2050. Pour nombre d’auteurs, la seule réponse viable est d’engager notre civilisation dans une diminution drastique (5 % à 7 % par an pendant 30 ans) de la production de biens et services puisés directement ou indirectement à la planète – minerais, eau, vivant – et dans une refonte de la symbolique de « croissance ».

Ceci pose naturellement la question de ce qui doit être supprimé ou réduit de la pression industrielle qui pèse sur la planète ainsi que des stratégies socialement acceptables pour atteindre ces objectifs.

Le modèle « World3 » dans le scénario « business as usual ». Construites en 1972, ces prédictions sont encore correctes en 2021. Il prévoit un effondrement de la population induit, par l’augmentation d’une pollution devenue impossible à endiguer et qui, par manque de ressources, domine la production de biens et services puis la production alimentaire (elle-même affectée fortement par la pollution et l’érosion des sols). Le manque d’équipement et les famines font alors basculer la mortalité et effondrent la population. Meadows, D., Meadows, D., Randers, J., & Behrens III, W. W. (2012). Les limites de la croissance. Rue de l’échiquier, Paris, 1, CC BY-NC-ND

Dans le cas de l’intelligence artificielle et de l’apprentissage profond, la réflexion à mener est la suivante.

Gadget ou besoin indispensable ?

L’intelligence artificielle s’est propagée au point de toucher des domaines traditionnels qui reposent pourtant sur des modèles mathématiques solides (finance, sismologie, biologie, etc.). Dans un monde fortement contraint par des limites énergétiques et en proie à une pollution galopante, la question se pose de la plus-value réelle des innovations pour ces nouveaux venus.

Mais le gros de la dépense des applications du numérique et de l’intelligence artificielle se trouve hors des laboratoires de recherche : il se concentre dans les usages technologiques dédiés aux loisirs et aux appareils de confort, que notre civilisation invente tous les jours et qui passent trop vite du statut de gadgets à celui de besoins supposés indispensables. Devant le constat de l’état du monde, n’est-il pas évident, sinon un devoir moral, dans cette nécessaire croissance symbolique où primerait la protection de la nature et du vivant, de commencer par renoncer à la plupart de ces gadgets et de focaliser nos efforts sur des pratiques plus vertueuses ?

On ouvre de fait une réflexion sur les compromis. Comparer la pertinence d’outils ayant produit des progrès sociaux n’est pas facile, d’autant qu’elle intègre des paramètres non techniques (d’ordre social, éthique ou psychologique). Une fois les outils vertueux identifiés, ils devront d’ailleurs nourrir une éthique attentive aux nouveaux impératifs, tâche pour laquelle il est déjà possible de s’appuyer sur les pionniers de l’éthique environnementale.

L’intelligence artificielle moderne fait-elle alors partie de ces outils vertueux ?

La difficile émergence de la « low tech »

Dans l’anticipation d’une énergie plus rare, les technologies dont l’étude elle-même est onéreuse deviennent non soutenables. Dans le cadre de l’intelligence artificielle, on peut anticiper un point prochain de bascule où les coûts de la recherche en intelligence artificielle prendront le pas sur les gains de performance, aussi conséquents soient-ils, apportés par les réseaux de neurones.

Ce constat sonne-t-il pour autant le glas de l’intelligence artificielle ? Pas forcément. Mais peut-être faut-il l’aborder avec un regard neuf. Un exemple éloquent dans ce sens est celui du travail du Dr d’Acremont en Tanzanie qui démontre sur le terrain l’intérêt, en matière de résilience et de performance, d’une technologie « low-tech » (qui n’utilise même plus d’ordinateur), cependant initialement construite sur un modèle d’intelligence artificielle « high-tech ».

Comme l’illustre parfaitement le Dr d’Acremont, tout l’enjeu repose ici sur notre capacité à extraire de ces brillantes machines une interprétabilité suffisante pour parvenir à exploiter leurs résultats tout en se passant au final de la machine elle-même. Et ce, dans le but de se préparer au moment où, tôt ou tard, il faudra peut-être abandonner définitivement l’outil.

Elles ne font pas la une des journaux mais on voit déjà émerger des démarches sobres et efficaces d’intelligence artificielle, qui entrent globalement dans le mouvement vertueux vers une économie symbiotique (cette économie radicalement nouvelle qui s’appuie sur la résilience et la génération « gratuite » de ressources par la nature) et un outillage low-tech.

En dépit d’une réelle sensibilité à l’éthique manifestée par les concepteurs de l’intelligence artificielle, ces idées restent difficilement valorisables dans les conférences académiques ou les grands appels à projets. Il est en particulier délicat aujourd’hui pour un jeune chercheur ou ingénieur d’envisager positivement l’avenir en se soustrayant à l’appel de l’apprentissage profond.

Ce constat est d’autant plus alarmant que ces jeunes talents sont érigés en sauveurs d’une planète que leur travail au quotidien œuvre à dégrader. Cette dissonance cognitive forte provoque de nouvelles maladies de civilisation que sont l’écoanxiété et la solastalgie.

En définitive, s’il est admis que la finalité de la recherche en intelligence artificielle, au même titre que toute autre forme de recherche, est d’améliorer les connaissances afin de contribuer au progrès et de maximiser le bien-être collectif, il est regrettable que nous mettions délibérément en péril la survie de l’humanité et annihilions l’engagement de nos jeunes talents alors que des alternatives plus vertueuses et moins coûteuses sont à portée de main.

The Conversation

Denis trystram est membre de l’institut pluridisciplinaire en IA de Grenoble (MIAI) où il anime la chaire « edge intelligence ». Il est également membre du collectif EcoInfo.

Thierry Ménissier est membre de l’institut pluridisciplinaire en IA de Grenoble, MIAI, où il anime la chaire « éthique & IA ».

Romain Couillet ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

L’intelligence artificielle peut-elle créer une poésie d’un genre nouveau ?

La boîte à poésie. Raffard Roussel

Il existe des centaines de programmes de génération de poésie sur Internet – c’est-à-dire des systèmes capables de produire de la poésie automatiquement –, mais à quoi peuvent-ils servir ? Ces programmes ont-ils un intérêt, au-delà de celui de satisfaire leur concepteur ?

On a beaucoup entendu parler de GPT2 ou GPT3, ces énormes programmes informatiques capables de produire des textes très réalistes, et même de la poésie. GPT2 et GPT3 sont en fait des « modèles », des espèces de bases de connaissances, alimentés par des milliards de phrases et de textes glanés sur Internet, et « digérés » afin de pouvoir produire des textes nouveaux, inspirés des textes anciens, mais en même temps très différents.

Ajouter des contraintes

Pour produire de la poésie, il « suffit » d’y ajouter des contraintes : surveiller les rimes et la longueur des vers, respecter la structure globale, l’absence de répétition en position rimée, etc. Les systèmes de génération automatique connaissent un certain succès (on en trouve un nombre phénoménal sur Internet) car la tâche est amusante, ludique, mais aussi complexe si on veut produire des textes avec du sens (et encore plus si on veut contrôler ce qui est dit).


À lire aussi : Quand l’IA prend la parole : des prouesses aux dangers


On a donc ici un cadre idéal pour expérimenter (souvent hors contrainte de financement) : la génération de poésie est souvent un loisir et un passe-temps, chez le chercheur comme chez l’amateur éclairé.

Une question se pose toutefois. Ces systèmes sont-ils dignes d'attention ?

Sur le plan littéraire, la plupart des systèmes sont encore, il faut bien l’avouer, assez rudimentaires et ont du mal à rivaliser avec du Baudelaire ou du Rimbaud. Les plus avancés sont toutefois bluffants, et c’est avant tout la base d’entraînement qui joue un rôle crucial (c’est-à-dire l’ensemble des textes qui ont permis au système d’apprendre. On peut en effet fournir à un système un jeu de données réduit, mais spécialisé (des œuvres de poètes du XIXe siècle par exemple) pour « spécialiser » un système, l’adapter à moindre coût. On peut alors obtenir des systèmes qui rédigent des paragraphes à la manière de Balzac, ou de la poésie à la manière de Baudelaire.

Il faut toutefois noter que les résultats apparaissant dans la presse (qu’il s’agisse de génération de prose ou de poésie) sont souvent le fruit de multiples essais, voire le fruit d’un travail de postédition de la part du journaliste.

Le projet Oupoco

Le projet Oupoco (Ouvroir de poésie combinatoire) que nous avons développé avec une équipe du laboratoire LATTICE, avait un but plus modeste. À l’image de l’expérience de Queneau dans Cent mille milliards de poèmes, notre ambition première était de produire des milliards de poèmes simplement en recombinant des vers issus d’un corpus poétique français représentatif.

Cent mille milliards de poèmes, Raymond Queneau, 1961. Musée Médard

À cette fin, nous avons assemblé une base de plus de 4000 sonnets d’auteurs allant du début du 19e jusqu’au début du XXe siècle. Alors que tous les vers de Queneau riment ensemble, il nous a fallu déterminer automatiquement la rime de chaque vers afin de pouvoir produire de la poésie avec rimes. Le projet était donc dès l’origine davantage un projet d’analyse qu’un projet de génération (comme en témoigne cette vidéo.

Ce projet peut paraître dommageable, en ce qu’il ferait passer la poésie pour du « n’importe quoi ». Mais le but est évidemment bien différent. Des expériences concrètes et la rencontre avec le public nous ont montré que cette crainte est en grande partie injustifiée. Le public (jeunes et vieux, femmes et hommes) est amusé, intrigué, veut en savoir plus. Un public d’ordinaire peu attiré par la poésie s’intéresse à ce qui est produit. Le public n’est pas naïf, même quand il s’agit d’enfants : il voit bien le caractère fabriqué, étrange et ludique de l’affaire. Il sait que derrière ce qui est produit se cachent d’autres textes et l’incongruité d’un vers hors norme pousse souvent à aller voir le contexte original, c’est-à-dire le poème d’origine.

Un exemple de poésie (Oupoco) – en rouge, les passages présentant un problème de cohérence. Oupoco, Fourni par l'auteur

Le générateur de poésie, avec les dispositifs de diffusion qui vont avec (comme la Boîte à poésie, une œuvre d’art conçue par l’Atelier Raffard-Roussel et permettant d’obtenir un objet portatif intégrant le générateur de poésie d’Oupoco), permettent à un public large de renouer avec la poésie, alors que c’est une forme souvent délaissée même par les lecteurs régulier.

Quant aux expériences en génération pure (où la poésie produite n’est pas composée à partir de vers préexistants, mais est réellement conçue par ordinateur), elles amènent à réfléchir à d’autres aspects. Sur le texte lui-même : quelle est la richesse du texte produit ? Qu’est-ce qui fait la valeur d’un texte poétique ? Si on est dans le cadre d’une génération « à la manière de » (de façon similaire à la production de musique « à la manière de »), on peut s’interroger sur la valeur du résultat, sur les caractéristiques d’un auteur, sur ce qui fait le style d’un auteur, finalement.

Différents niveaux de créativité

Ces questions amènent enfin à s’interroger sur la notion de créativité elle-même. Margaret Boden, une informaticienne anglaise ayant développé une théorie sur la question, distingue trois niveaux de créativité, chez les humains comme chez les ordinateurs : la « créativité exploratrice », qui consiste juste à étendre un peu ce qui existe déjà (écrire un poème à la façon de Hugo) ; la « créativité combinatoire », qui consiste à combiner de façon originale des éléments existants autour de nous, mais de nature éloignée (les travaux de l’Oulipo, mêlant littérature et contraintes mathématiques sont probablement de cet ordre). La troisième forme de créativité, qualifiée de « transformationnelle », est d’une autre nature, elle change radicalement la façon de voir la réalité et produit généralement toute une nouvelle lignée d’œuvres. Margaret Boden parle de l’invention du cubisme par Picasso ; on peut penser à l’abandon des codes du roman dans les années 1950, autour du nouveau roman, mais la notion de rupture en littérature serait un concept à discuter en lui-même.

Le système Oupoco, recombinant juste des vers existants, est indéniablement de nature exploratrice, même si cette exploration est fondée sur la combinatoire. Le Graal de la créativité par ordinateur serait d’atteindre la créativité transformationnelle, au sens que Boden accorde à ce mot. Un ordinateur serait-il capable d’atteindre ce niveau ? On peut en douter, car ce niveau implique une certaine conscience de soi, une prise de recul par rapport au réel, pour imaginer des mécanismes complètement nouveaux. L’apprentissage artificiel, à la source de la plupart des développements récents et médiatiques en matière d’IA (intelligence artificielle), est très bon pour généraliser et recombiner les milliards de données reçues en entrée, mais est incapable de « faire un pas de côté », pour réellement transformer le réel.

Notons enfin que les humains apprennent aussi à partir de stimulis et par imitation. La nature et la réalité de la créativité transformationnelle n’est pas complètement prouvée. Peut-être qu’à partir des milliards de perceptions reçues au cours de sa vie l’homme est capable de recombiner de manière suffisamment libre pour donner l’impression d’une créativité transformationnelle. On est alors au cœur de la cognition !


Ont participé à Oupoco les personnes suivantes : Claude Grunspan, Mylène Maignant, Clément Plancq, Frédérique Mélanie Becquet, Marco Naguib, Yann Raphalen, Mathilde Saurat, ainsi que l’Atelier Raffard-Roussel.

The Conversation

Thierry Poibeau est membre de l'institut 3IA PRAIRIE (PaRis Artificial Intelligence Research InstitutE, http://prairie-institute.fr/). Le projet Oupoco a aussi été soutenu par l'EUR Translitterae (https://www.translitterae.psl.eu/).

En images : accès, usages, intelligence artificielle, les trois fractures numériques

Une « fracture numérique » peut être définie comme un écart, à une période donnée, entre deux types de populations : ceux qui ont accès à la « société de l’information » et ceux qui n’y ont pas accès.

C’est dans ce sens que l’on parle d’une fracture car on considère que l’accès à l’information via des réseaux numériques (et désormais, avec la venue de la 5G et l’Internet des objets) est un facteur clé de croissance économique et de compétitivité dans nos sociétés contemporaines.

La fracture de premier niveau : l’accès

Initialement, la fracture numérique relevait avant tout d’une problématique territoriale et était celle de l’accès à Internet. Certaines parties du territoire français et plus largement européen (appelées alors « zones blanches ») ne proposaient pas – pour un prix raisonnable – une connexion suffisante en termes de débit pour répondre à l’évolution des nouvelles formes de contenus (le multimédia) proposés sur Internet. La politique européenne de soutien à un accès universel à Internet accompagnée d’innovations technologiques (ADSL, fibre et désormais les grappes de satellites) a permis de diminuer ce premier type de fracture sans pour autant la résorber totalement.

La fracture de second niveau : les usages

Chemin faisant, en résonance à une littérature volumineuse qui étudiait la fracture de premier niveau concernant l’accès à Internet, une sociologue du numérique, Eszter Hargittai, montra en 2002 qu’il existait aussi une fracture de second niveau : celle des usages. L’auteure observait que l’accès à Internet ne suffisait pas à garantir le développement d’une Société de l’Information. En effet, à travers différentes expérimentations, elle observa que certaines parties de la population n’avaient pas ou trop peu de compétences pour utiliser Internet et remplir certaines tâches en ligne. C’est encore aujourd’hui le cas des populations les plus âgées qui n’ont pas acquis suffisamment de « culture numérique » pour être apte à utiliser correctement les services publics en ligne.

La fracture de troisième niveau : l’intelligence artificielle

Mais désormais, une fracture plus sournoise est en train d’apparaître car elle touche une grande majorité de la population sans une réelle prise de conscience de sa part. À l’origine de cette fracture ; le « big data » (les grandes masses de données) accompagné des algorithmes qui traitent ces données permettant à une intelligence artificielle de les transformer en actions, en prise de décisions parfois à la place de l’utilisateur. Cette fracture de troisième niveau est celle de l’intelligence artificielle. Paradoxalement, dans un monde où l’information devient pléthorique, cette fracture est marquée par une méconnaissance du fonctionnement de cette intelligence artificielle, de ses algorithmes et de l’écosystème qui l’environne.

Désormais, une grande partie des services numériques que nous utilisons font appel à des algorithmes. Ces algorithmes sont toujours plus innovants. Certains se basent sur le « machine learning » (machines apprenantes), d’autres implémentent le « deep learning » (apprentissage profond). Dans tous les cas, ces algorithmes inaugurent une société où l’intelligence artificielle (à travers l’implémentation des algorithmes) pilote de nombreux services en ligne, particulièrement les systèmes de recommandations ou de classement de l’information recherchée. Concrètement, ils décident de la vidéo suivante qu’on voudrait bien voir, des dernières nouvelles qu’on voudrait bien lire, de la publicité qui semble nous intéresser ou encore de l’annonce d’emploi à laquelle on pourrait postuler. Or, si ces technologiques rendent des services évidents, elles peuvent aussi être à l’origine d’une fracture qui est le résultat d’une asymétrie d’information entre ceux qui développent cette intelligence artificielle et tendent à comprendre le fonctionnement de cette dernière et ceux qui l’utilisent, indirectement, en bout de chaîne, à travers le service qu’ils sollicitent en ligne : les consommateurs et plus largement les citoyens.

À part quelques spécialistes, qui est capable de comprendre et de rendre explicable le fonctionnement d’un algorithme ? Quelles données sont utilisées par l’algorithme qu’on sollicite en tâche de fond et quelles sont ses règles de décisions, sa « rationalité » ? Dans cette nouvelle société de l’information élargie aux interactions croissantes entre l’homme et la machine où l’homme apprend de la machine et réciproquement, où les deux parties homme/machine s’influencent mutuellement, où le code (informatique) peut même faire la loi), on devine qu’il sera fondamental de travailler sur cette nouvelle forme de fracture numérique. Il s’agira sans doute d’impliquer davantage le citoyen à travers la formation. Il faudra aussi utiliser la technologie pour surveiller la technologie. Il en va de la pérennité de nos démocraties sans oublier la question centrale de l’environnement dans un monde où des machines utilisent toujours plus d’énergie pour traiter une quantité croissante de données et parfois apporter un surplus de bien-être qui n’est que marginal.

The Conversation

Fabrice Le Guel a reçu des financements de l'ANR, de la MSH, du CNRS, de l'Institut DATAIA, de l'Europe (projet H2020).

Le machine learning, nouvelle porte d’entrée pour les attaquants d’objets connectés

Au cours des dernières années, les appareils connectés IoT (Internet des objets) ont continué de croître de manière exponentielle dans des domaines variés. D’après le rapport annuel de Cisco, le nombre de connexions de ces dispositifs devrait représenter 50 % des 14,7 milliards de connexions prévues en 2023.

Présents dans de nombreux domaines tels que la médecine avec les pompes insulines connectées, l’industrie ou encore le transport avec les voitures connectées, ces dispositifs sont peu à peu devenus une véritable aire de jeu pour les cyberattaquants.

À mesure que ces appareils évoluent, ils embarquent par ailleurs avec eux de nouvelles technologies, et intègrent notamment des algorithmes de machine learning. Une avancée qui résout certains problèmes mais ouvre aussi de nouvelles perspectives pour les attaquants.

L’IoT dopé par le machine learning

Avec l’avancée de la technologie, les appareils IoT sont désormais bien plus que de simples capteurs aptes à récupérer des données. Une nouvelle aire combinant l’IoT et le machine learning commence à donner le jour à des dispositifs de plus en plus intelligents, capables de répondre à des besoins spécifiques pour chaque utilisateur.

Le business des objets connectés | Internet de tout et n’importe quoi (½) (Arte, 19 mai 2020).

C’est par exemple le cas de l’Amazon echo, qui intègre avec elle des composants supportant le machine learning et répond à des requêtes telles qu’allumer une lumière ou jouer une musique. Les voitures autonomes en sont une autre illustration : partant des données récoltées en temps réel, elles arrivent à analyser le trafic et à adapter leur comportement.

Le machine learning répond aussi à de nombreux problèmes liés aux appareils en eux-mêmes, en optimisant par exemple leur consommation énergétique ou en adaptant leur connectivité.

Des algorithmes de machines learning peuvent ainsi être utilisés dans les téléphones intelligents afin d’économiser leur énergie. En récupérant des données comme la fréquence et la durée d’utilisation d’une application, il est alors possible de déduire des informations et d’adapter certains éléments en fonction, tels que la luminosité, et ainsi réduire la consommation énergétique de l’appareil.

Machine learning et cybersécurité

Le développement de solutions de machine learning dédiées à la détection d’attaques peut par ailleurs améliorer la sécurité de l’IoT.

Les algorithmes d’apprentissage automatique constituent en effet de véritables assistants dans différents domaines de la sécurité.

Ils servent par exemple à repérer des menaces sur un réseau en surveillant en continu le comportement de ce dernier, permettant de traiter une quantité de données en temps quasi réel. Ils représentent également un soutien essentiel pour les utilisateurs en déduisant et informant les utilisateurs des « mauvais comportements » d’un site web ou d’un mail.

Enfin, ils sont aussi capables de nous permettre de protéger nos données stockées en ligne, par l’analyse des activités de connexion suspectes aux applications Cloud, en se fondant sur les anomalies de localisation ou d’adresse IP.

Dans le cas de l’IoT, l’effet est néanmoins contrebalancé par la complexité et la variété croissantes des appareils connectés présents sur le marché, qui laissent encore place, au sein des algorithmes de machine learning, à de nombreux vecteurs d’attaques qu’Europol appréhende comme une menace réelle et importante.

Concevoir un algorithme de machine learning

Avant de comprendre comment les attaquants s’y prennent pour déjouer un algorithme de machine learning, il est essentiel d’appréhender le fonctionnement de ce dernier.

Dans la plupart des cas, la création se fait en plusieurs phases. La première consiste à entraîner un modèle de machine learning à partir de données prétraitées en amont. Vient ensuite la phase d’utilisation, qui ne commence réellement que lorsque le modèle est fiable. Celui-ci est alors utilisé avec de nouvelles données, dont la provenance dépend du problème à résoudre. Dans le cas d’Amazon Echo, par exemple, il s’agit des instructions fournies par l’utilisateur.

Cet éclaircissement fait, penchons-nous sur les trois principales types d’attaques visant le machine learning et applicables sur nos objets de l’IoT.

Attaque, mode d’emploi

La première est nommée « l’empoisonnement » : elle a pour but de modifier le comportement de base de l’algorithme. L’attaquant cherche alors à altérer les données utilisées lors de la phase d’apprentissage.

Une autre attaque particulièrement répandue est « l’évasion » : il s’agit ici de jouer sur les données d’entrée du machine learning afin d’obtenir une décision différente de celle normalement attendue par l’application. Le but est d’introduire une donnée légèrement modifiée afin d’obtenir une décision différente tout en restant indétectable. L’attaquant tâche de créer l’équivalent d’une illusion d’optique pour l’algorithme.

Les voitures autonomes constituent une cible de choix pour ce type d’attaques. Censées reconnaître, entre autres, les panneaux de signalisation routière, elles peuvent être trompées si une modification en apparence anodine pour l’homme est introduite. Une étude a ainsi montré que le simple ajout d’un autocollant sur un panneau « STOP » pouvait mettre l’algorithme en échec, approuvant alors à 97 % qu’il s’agissait d’un panneau de limitation de vitesse.

Enfin, il existe l’attaque par « inférence », le but ici étant de déduire le type d’algorithme utilisé, ainsi que les données. Un attaquant teste alors successivement différentes requêtes sur l’application et étudie l’évolution de son comportement afin de le déduire – il s’agit dans ce cas d’un vol de données.

Cette dernière attaque apparaît particulièrement efficace pour déterminer le comportement d’un système de détection fondé sur du machine learning dans les réseaux IoT.

L’attaque, toujours la meilleure des défenses

Face à leur augmentation constante et inexorable, la clé reste de découvrir et d’étudier en amont les différentes attaques possibles. Les entreprises, la recherche et l’innovation sont ainsi forcées d’anticiper les actions et d’utiliser les mêmes outils et les mêmes techniques que les attaquants afin d’évaluer la sécurité de leurs systèmes IoT ou d’y trouver de nouvelles vulnérabilités.

Se mettre à la place du hacker permet aussi de mieux comprendre le fonctionnement des appareils IoT, en les détournant de leur fonctionnalité première. L’un des objectifs est d’identifier les zones à risques les plus visibles afin de pouvoir créer des solutions le plus rapidement possible.

D’ailleurs, créer des attaques en laboratoire ne sert pas uniquement à prouver qu’elles sont réalisables. Cela donne aussi l’occasion de tester les solutions de sécurité existantes, de les améliorer et d’en concevoir de nouvelles.

Si la sécurisation des réseaux IoT est possible, ceux-ci présentent néanmoins encore d’importantes faiblesses, alors que le secteur est amené à occuper une place de plus en plus importante dans nos vies. À mesure que ces objets se développent, de nouvelles failles apparaissent et avec elles les menaces d’attaques, alertant toujours plus sur la nécessité de développer les recherches dans le domaine.

The Conversation

Les auteurs ne travaillent pas, ne conseillent pas, ne possèdent pas de parts, ne reçoivent pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'ont déclaré aucune autre affiliation que leur organisme de recherche.

  • ✇apprentissage profond (deep learning) – The Conversation
  • Les émotions de l’apprentissage du sport
    Un grimpeur avec le dispositif d'enregistrement. Guillaume Hacques, Fourni par l'auteur Cet article est publié dans le cadre de la Fête de la science, qui a lieu du 1er au 11 octobre 2021 en métropole et du 5 au 22 novembre 2021 en outre-mer et à l’international, et dont The Conversation France est partenaire. Cette nouvelle édition a pour thème : « Eureka ! L’émotion de la découverte ». Retrouvez tous les événements de votre région sur le site Fetedelascience.fr. À 8 h 25 précises, le petit

Les émotions de l’apprentissage du sport

Un grimpeur avec le dispositif d'enregistrement. Guillaume Hacques, Fourni par l'auteur

Cet article est publié dans le cadre de la Fête de la science, qui a lieu du 1er au 11 octobre 2021 en métropole et du 5 au 22 novembre 2021 en outre-mer et à l’international, et dont The Conversation France est partenaire. Cette nouvelle édition a pour thème : « Eureka ! L’émotion de la découverte ». Retrouvez tous les événements de votre région sur le site Fetedelascience.fr.


À 8 h 25 précises, le petit Sasha, tenant la main de son père, quitte la maison et marche le long de la route qu’il connaît très bien. C’est la même route qu’il a empruntée de nombreuses fois pour se rendre à la boulangerie, au marché avec ses parents et au magasin, même si le temps ou les piétons et les voitures qui passent ont changé à chaque fois. Aujourd’hui, cependant, ils passent devant la boulangerie pour traverser le portail et la porte d’un bâtiment que Sasha n’a jamais visité, qu’il ne connaît que par les histoires de ses parents.

Aujourd’hui, Sasha va à l’école pour la première fois. Dès qu’il passe la porte de l’école, tout est nouveau pour lui. Un instant ! La vue par la fenêtre est familière : Sasha voit la façade de la mairie, à côté de laquelle il aime faire du vélo. Ce que ses parents lui ont dit de l’école semblait séduisant, mais le grand bâtiment inconnu lui apparaît maintenant comme un lieu plein de recoins et de secrets. Comme c’est bien que son père lui tienne fermement la main. Sasha marche avec confiance dans un couloir long et étroit, voyant de part et d’autre des salles lumineuses entendre le rire des enfants. Au bout du passage, ils tournent à gauche et entrent dans l’une d’elles. L’aventure commence…

Le quotidien de Sasha, comme celui de tout un chacun, est parsemé de la confrontation d’informations que nous connaissons déjà, d’espaces que nous pourrions traverser les yeux fermés, mais aussi de personnes et de situations qui sont nouvelles et nous interpellent : de nouvelles circonstances, ou encore des modifications imprévues du familier, lorsque de nouveaux éléments apparaissent.

En nous déplaçant dans un environnement qui nous est familier, nous utilisons des modèles de comportement que nous connaissons et que nous avons développés auparavant. Dans les nouvelles circonstances, nous apprenons et construisons finalement de nouveaux modèles d’action. Une chose est sûre : les informations que nous possédons sur l’environnement et les comportements qui y sont appropriés, ainsi que les nouvelles données que nous recueillons en corrigeant ou en enrichissant des faits appris précédemment, sont abondantes.

Le simple fait de les enregistrer est un véritable casse-tête, les données occupent d’énormes ressources de mémoire, sans compter que le simple fait de les acquérir implique l’utilisation d’appareils spécialisés (par exemple, accéléromètre, magnétomètre, gyroscope, réseau de capteurs, caméras).

En outre, une question se pose : comment analyser les données comportementales de manière à généraliser certains schémas comportementaux, à apprendre comment nous nous débrouillons sur le plan moteur dans des conditions qui nous sont familières ou qui sont nouvelles pour nous ?

Pouvons-nous juger grossièrement quand nous utilisons les informations dont nous disposons pour améliorer nos capacités motrices, de perpétuer de vieux schémas, ou est-il nécessaire d’acquérir de nouvelles capacités ?

Comment apprendre mieux ? Comment doser les nouvelles informations et comment graduer la difficulté des tâches pour obtenir les meilleurs résultats ? La vie quotidienne est une situation trop complexe pour étudier l’apprentissage humain. Un « terrain d’essai » prometteur peut donc être une procédure sportive clairement définie et méthodique. Dans le sport, les règles sont simples et claires, il est donc facile de définir et de modifier les instructions. En outre, il est facile de comparer les résultats obtenus par différentes personnes. L’évaluation des effets sportifs ne laisse généralement pas non plus de place au doute. Concentrons-nous sur l’escalade.

Apprendre à grimper

Un grimpeur escalade de la même façon (dans la roche naturelle) ou d’une façon modifiée (par exemple sur un mur artificiel, où les prises d’escalade peuvent être déplacées) plusieurs fois pour atteindre le sommet. Nous pouvons enregistrer son ascension en suivant, entre autres, la position de son centre de gravité (hanches), de sa tête ou d’autres parties de son corps, en enregistrant le temps où il touche les prises d’escalade successives. Que pouvons-nous apprendre en observant les grimpeurs, sur l’acquisition de compétences en escalade ?

Chaque ascension est différente. Même sans se confronter à une voie inconnue, un grimpeur peut être plus ou moins fatigué, avoir plus ou moins de connaissances de la voie, être plus ou moins confiant dans ses compétences. Cette variabilité, qui dépend du temps, est appelée dynamique d’apprentissage et la façon dont le grimpeur s’améliore est exprimée par le taux d’apprentissage.

Ce sont ces quantités, dans leur immense complexité, que nous cherchons à étudier à l’aide d’algorithmes issus du vaste domaine de l’apprentissage automatique. L’immensité des données de mesure disponibles nous permet d’analyser statistiquement des cas spécifiques de participants à l’étude, et de construire les modèles de certaines activités motrices.

Dans la pratique, cependant, nous sommes souvent confrontés à des données manquantes, à des mesures incomplètes ou erronées. C’est là que l’apprentissage automatique vient au secours de la science du mouvement humain. Grâce aux méthodes statistiques, nous pouvons facilement et de manière fiable compléter les données manquantes ou attribuées par erreur. Dans l’étude du mouvement humain, en raison de sa nature séquentielle, il devient intéressant d’appliquer des algorithmes séquentiels, grâce auxquels nous pouvons, par exemple, combler les manques dans les mesures lorsque, sur une voie d’escalade, tous les contacts des prises n’ont pas été documentés.

Murs d’escalade, algorithmes et ordinateurs

L’une des applications des méthodes séquentielles, telles que le modèle de Markov caché, est la généralisation de jeu de données d’entraînement décrites manuellement avec un effort considérable, à l’ensemble des données d’escalade enregistrées qui ne sont pas décrites. Selon cette méthode, en utilisant la distribution de probabilité des déplacements suivants du corps ou des membres dans la séquence, nous pouvons, en entraînant l’algorithme sur un sous-ensemble de données, prédire comment pourrait se dérouler chaque nouvelle montée non décrite auparavant. Dans notre étude, grâce à un tel algorithme, nous avons pu compléter et étiqueter quelle main ou quel pied (gauche ou droit) a touché la poignée sur la voie d’escalade. Les analyses de ce type sont utiles aux experts de la science du mouvement humain pour classifier le style de mouvement et, par conséquent, pour évaluer comment un grimpeur fait face à l’utilisation d’un répertoire connu ou à la création d’un nouveau répertoire de positions sur un mur d’escalade.

L’objet de notre analyse au moyen d’algorithmes prédictifs est non seulement l’escalade elle-même, mais aussi les méthodes de son évaluation. Grâce à la possibilité d’évaluer, par régression linéaire, l’adéquation d’un test de progression donné avec la pratique d’apprentissage, nous pouvons déterminer s’il est utile de l’appliquer dans un cas particulier, et par conséquent s’il est opportun de modifier la pratique (la vitesse d’introduction des changements lors de l’entraînement à l’escalade) ou le test lui-même (la difficulté de la voie testant les compétences finales des grimpeurs). Nous pouvons ensuite corriger la forme de la pratique d’entraînement sur la base des données finales, afin d’obtenir le meilleur résultat possible à un test de compétences particulier.

En outre, toutes nos considérations prennent une importance encore plus grande dans le contexte de l’enrichissement récent de la compétition olympique (en 2021) par la discipline de l’escalade sportive. Car, bien sûr, outre l’étude des schémas généraux d’apprentissage moteur, l’objet de notre recherche est l’escalade elle-même et l’objectif spécifique d’améliorer sa pratique d’entraînement, qui devient une ligne directrice pour les grimpeurs et leurs entraîneurs.

Si le travail sur les signaux comportementaux est intéressant et gratifiant, il a aussi ses limites.

L’une des limites de notre recherche sur la dynamique d’apprentissage est la difficulté d’acquisition des mesures – elle nécessite un groupe nombreux de participants à l’étude qui se soumettent à un protocole d’entraînement fastidieux. Souvent, un échantillon trop petit entraîne malheureusement une fiabilité analytique réduite.

Une autre limite est le besoin de généralisation, de normalisation, de standardisation des données, nécessaire dans l’application de l’apprentissage statistique. Du point de vue des chercheurs en mouvement humain et des psychologues du sport, une telle généralisation comporte le danger d’éliminer les différences individuelles entre les participants. Pourtant, chacun apprend un peu différemment : chaque organisme a des capacités génétiques et des expériences antérieures différentes, ainsi qu’une différente vitesse et un style d’apprentissage.

Malgré la difficulté d’étudier un processus aussi complexe que l’apprentissage, en n’ayant accès qu’à des données externes mesurant le mouvement humain, nous espérons, que grâce à l’apprentissage statistique, nous serons en mesure d’adapter le style d’apprentissage aux besoins individuels des pratiquants, de déterminer quand, après des centaines d’exercices pratiques, une nouvelle compétence naît chez une personne, et peut-être même de capturer le moment fugace, le point de l’illumination, quand un grimpeur commence à savourer la connaissance et qu’une nouvelle voie difficile devient un défi joyeux ?

Les recherches décrites ici montrent que, pour des conditions simplifiées et contrôlées, nous pouvons déjà formuler les premières hypothèses, en utilisant les méthodes d’intelligence artificielle et d’analyse automatique les plus récentes. Il s’agit de la première étape d’un long parcours vers la compréhension du plus grand mystère de l’humanité : la connaissance de nous-mêmes.

The Conversation

Anna Aniszewska-Stepien a reçu des financements de l'Agence Nationale de la Recherche (référence : ANR-17-CE38-0006 DynACEV).

Discrimination et IA : comment limiter les risques en matière de crédit bancaire

L’intelligence artificielle (IA), cet ensemble de technologies visant à reproduire les capacités cognitives et affectives humaines, a envahi notre quotidien. Si certaines applications médiatisées de l’IA inquiètent, telles que la reconnaissance faciale ou les drones de combat autonomes, une application moins sensationnelle prend néanmoins une place croissante dans nos vies : l’IA comme aide à la décision.

Couplé au big data – ce concept qui fait référence à de grandes masses de données – les algorithmes de machine learning apprennent à prédire des phénomènes sur le fondement des relations (corrélations mathématiques), reliant le phénomène considéré à une grande masse de données appelée « jeu d’apprentissage ».

Ces modèles contribuent par exemple à prédire la météorologie du lendemain, sur la base de nombreuses données (température, pression, densité de l’air…). Mais ce type d’aide à la décision permet aussi de prédire si tel candidat à une formation est susceptible d’obtenir son diplôme, ou bien si tel autre candidat à l’embauche sera performant à l’avenir dans son nouveau poste, ou encore si tel emprunteur, sollicitant sa banque dans le cadre d’un crédit immobilier sera, au final, en mesure de le rembourser. On comprend dès lors l’importance sociale de ces décisions guidées par les données.

Le risque de discrimination

L’un des risques de dérive éthique majeure de ces modèles d’aide à la décision concerne la discrimination d’une personne physique sur la base d’un attribut protégé par la loi, c’est-à-dire une caractéristique de la personne qui ne peut en aucun cas être utilisée par respect des valeurs de justice et d’égalité. Par exemple, pour la France, le genre ne peut être un critère recevable pour toute prise de décision regardant la personne.

Aussi, le risque de discrimination algorithmique existe dès lors que les données du jeu d’apprentissage présentent des corrélations entre le phénomène que l’on cherche à prédire et l’attribut protégé, tel le genre.

Pour expliquer ce risque discriminatoire, plaçons-nous dans le cadre de la distribution de crédit bancaire. Supposons, à des fins d’illustration, que les emprunteurs femmes, clientes historiques d’une banque, aient en moyenne et par le passé, moins remboursé leur crédit que les hommes : alors le lien entre le genre et la prédiction du défaut (ne pas avoir remboursé l’intégralité de son crédit) sera « appris » par le modèle de machine learning, qui s’en servira pour ses prédictions futures.

En clair, les emprunteuses seront automatiquement moins bien notées (note appelée credit score) que leurs homologues masculins, toutes choses égales par ailleurs, ce qui constitue une discrimination d’après le genre, prohibée par la loi.

En première analyse, la solution à ce problème semble triviale, il suffit de supprimer tous les attributs protégés par la loi du jeu de données d’apprentissage. Pourtant, par le truchement des corrélations entre attributs protégés et non protégés, le problème demeure sous une forme indirecte, plus subtile à identifier et nécessitant des analyses statistiques.

Illustrons ce cas : en droit français, il est interdit de discriminer un individu d’après son âge. En revanche, rien ne semble interdire, a priori, de fonder la prédiction de défaut d’un client sur son ancienneté dans la banque. Or, cette variable est potentiellement liée (corrélée) à l’âge de l’individu, ce qui entraîne de facto une discrimination indirecte, bannie également en droit français.

Une proposition de règlement européen pour limiter les risques

Consciente de l’importance prise par l’IA dans la vie des citoyens européens et des risques associés, la Commission européenne a proposé un premier cadre légal pour l’IA le 21 avril 2021 dernier.

L’approche retenue est fondée sur les risques, avec une gradation des exigences en quatre niveaux selon l’activité considérée. Le credit scoring bancaire est classé dans la catégorie des risques élevés, ce qui implique que l’IA satisfasse aux exigences définies dans le titre III, chapitre 2 du règlement, préalablement à toute mise sur le marché, afin de réduire au minimum les risques, jusqu’à un niveau résiduel jugé acceptable.

Or, si le jugement de l’acceptabilité d’un niveau de risque constitue déjà une contrainte floue, la commission accorde en outre aux fournisseurs de systèmes d’IA une flexibilité en matière de solution technique de mise en conformité.

L’équité algorithmique

Ainsi, pour minimiser autant que possible le risque discriminatoire, il faut disposer d’un indicateur de mesure approprié. Or la discrimination est associée au concept protéiforme d’équité algorithmique, développé dans le champ du fair machine learning.

On distingue trois formes d’équité algorithmique : individuelle, de groupe et contrefactuelle. La première correspond à la discrimination telle que définie dans les textes légaux (chaque individu est évalué indépendamment des attributs protégés) ; la seconde se situe au niveau du groupe et exige une classification identique pour les individus appartenant à même groupe (par exemple le groupe des femmes) ; la troisième forme impose que les résultats de classification soient insensibles à la modification des valeurs des attributs protégés.

Pour un motif de complexité, l’équité de groupe est privilégiée par les chercheurs comme moyen opérationnel de mesure de l’intensité discriminatoire d’un modèle prédictif. Mais là encore, plusieurs indicateurs entrent en concurrence.

Quelle mesure pertinente du risque de discrimination ?

Considérons les deux principaux indicateurs, pertinents dans le cadre du « credit scoring » :

  • L’indicateur d’indépendance impose une prédiction identique pour les groupes définis par l’attribut protégé, ce qui revient à dire, avec l’exemple du genre, que les proportions de femmes et d’hommes obtenant un crédit devraient être strictement égales.

  • Au contraire, l’indicateur de séparation autorise des proportions différentes de crédits alloués entre hommes et femmes, mais exige des proportions d’erreurs de prédiction identiques pour les femmes et les hommes.

Ce dernier indicateur semble davantage adapté au cas qui nous intéresse, car le fait d’imposer une stricte égalité dans les proportions de crédits alloués entre hommes et femmes (indicateur d’indépendance parfait) n’est ni une conséquence nécessaire ni une conséquence souhaitable de l’équité individuelle.

Cette idée contre-intuitive s’explique ainsi : si une corrélation empirique réelle existe entre le genre et le défaut, alors ne pas en tenir compte conduirait à allouer des crédits en excès à des individus qui ne pourraient honorer leur dette, les faisant tomber dans la spirale du surendettement, ou bien à ne pas prêter à des personnes pourtant solvables, les menant à une situation d’exclusion bancaire, ces deux résultats étant coûteux socialement.

On comprend dès lors que, dans le cadre du crédit bancaire, le choix d’un indicateur de mesure de la discrimination n’est ni évident, ni neutre.

Un cadre légal qui nécessite davantage de précisions

Aussi, si le cadre légal proposé par la Commission européenne représente une avancée précisant les lignes directrices du futur cadre réglementaire, des conflits d’interprétation inévitables demeurent.

Et certains points, tels les indicateurs de mesure de la discrimination admissibles ainsi que les seuils qui leur sont associés, mériteraient davantage de précisions.

Notons qu’une fois ce cadre réglementaire finalisé et le calendrier d’entrée en vigueur fixé, le secteur bancaire devra se mettre en conformité urgemment car l’APCR notait en juin 2020 que très peu d’institutions financières s’étaient engagées jusque-là dans l’identification et la remédiation des biais de leurs modèles d’IA.

Si l’enjeu de la discrimination par les IA est peu médiatisé, il est pourtant crucial tant les décisions de ces modèles affectent les citoyens à des moments clés de leur vie, déterminants pour leur intégration à la société comme pour l’amélioration de leur niveau de vie : accès à un établissement d’enseignement, accès à l’embauche, distribution de crédit…

The Conversation

Christian Goglin ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

Archéologie : une immersion dans la préhistoire à Tautavel grâce à la réalité virtuelle et à l’intelligence artificielle

Une plate-forme permet de simuler l’environnement préhistorique de la vallée de Tautavel au cours d’un épisode glaciaire il y a 550 000 ans. Auteurs, Fourni par l'auteur

Pouvoir se promener dans une grotte habitée il y a plus de 500 000 ans, visualiser les restes d’une occupation humaine puis sortir dans la vallée qui la borde pour observer la faune et la flore de cette époque : voilà le rêve des archéologues du site de Tautavel, dans les Pyrénées-Orientales.

Aujourd’hui, ce rêve devient presque réalité avec le projet Schopper porté par l’Agence nationale de la recherche. Autour de celui-ci gravitent cinq partenaires français : trois laboratoires (CERP-HNHP, CEROS et LIX) et deux entreprises (Craft.AI et Immersion Tools) qui créent ensemble des solutions technologiques novatrices appliquées à la recherche en archéologie.

Ce projet nous a permis d’aboutir notamment à une technologie générant les paysages de la vallée de Tautavel fréquentée par les hommes préhistoriques au cours de périodes climatiques contrastées (glaciaire et interglaciaire), entre 600 000 ans et 90 000 ans avant le présent.

La simulation est alimentée par les paramètres climatiques (température, humidité) obtenus par des modèles de machine learning (apprentissage automatique) appliqués aux périodes passées. Elle permet de positionner les espèces végétales selon leurs aptitudes écologiques et les animaux qui se déplacent et se nourrissent en fonction des ressources disponibles et de leur éthologie.

Associé au développement de l’ensemble de la vallée en 3D immersif, le résultat offre aujourd’hui aux chercheurs archéologues la possibilité de se déplacer à l’échelle 1 :1 dans la vallée afin d’apprécier le relief du terrain et les distances, la densité du couvert végétal, les zones de franchissement de barrières naturelles, de regroupement et de passage des animaux. Autant de repères importants pour appréhender la mobilité des chasseurs-cueilleurs. Il est également possible d’observer des dispositions de flores dont les pollens ont été retrouvés fossilisés dans la grotte, ou encore de suivre l’évolution du paysage.

54 ans de fouilles

À l’origine de cette reconstitution virtuelle, on retrouve « Schopper », un simulateur qui permet de tester des hypothèses sur l’environnement et les comportements des hommes préhistoriques dans un environnement immersif reconstitué. Le principe est dans un premier temps d’apprendre des données archéologiques, pour ensuite formuler des hypothèses sur le comportement ou sur l’environnement, et enfin observer les mécanismes et impacts de ces hypothèses dans l’environnement reconstitué.

Ce simulateur est le résultat de deux plates-formes en interaction.

Deux plates-formes interagissent pour explorer la faune et la flore avoisinant la grotte de Tautavel. La vallée au cours d’un interglaciaire il y a 500 000 ans. Auteurs, Fourni par l'auteur

La première repose sur la base de données du laboratoire de recherche en préhistoire situé à Tautavel, en charge de la fouille du site pilote du projet, la Caune de l’Arago. Ce gisement du paléolithique inférieur d’intérêt mondial a livré, entre autres, les plus vieux fossiles humains sur le territoire français.

Grâce aux travaux du préhistorien Henry de Lumley, le CERP a constitué une base de données qui mémorise 54 ans de fouilles avec une méthodologie structurée. Elle contient près de 500 000 objets (ossements d’animaux, industries lithiques…), correspondant à une cinquantaine de moments d’occupation de la grotte, ainsi que des prélèvements (sédiments, pollens…).

Pour exploiter cette base de données, Craft.AI, start-up spécialisée dans l’intelligence artificielle (IA), a développé pour Schopper un moteur qui permet de tester des hypothèses scientifiques. Il est ainsi possible d’interroger par exemple la durée des périodes d’occupation de la grotte, la fonction qu’elle avait pour les hommes du passé, mais aussi les conditions climatiques.

La deuxième plate-forme est réalisée par l’équipe d’Immersion Tools, spécialisée dans l’intégration d’outils de présentation visuelle innovants. Elle offre aux archéologues la possibilité d’interagir en réalité virtuelle, en immersion, avec la base de données dans la grotte modélisée en 3D comme le montre l’animation ci-dessous.

Chaque objet est matérialisé par un parallélépipède de couleur correspondant à sa nature. Leur position spatiale au moment de leur découverte à la fouille, leur orientation et leur inclinaison sont respectées. Les chercheurs ont accès à une palette d’outils leur permettant de mesurer les distances entre les objets, d’afficher des scans 3D ou le carroyage, ou encore de se déplacer en suivant les mouvements du corps ou par « téléportation ».

Deux approches pour entraîner l’IA

Pour fonctionner, un outil d’IA a besoin d’apprendre. Quand il s’agit d’un apprentissage supervisé, comme c’est le cas de Schopper, il faut lui donner des données « étiquetées », associant par exemple un ensemble de restes de flore et de faune avec un certain climat.

Deux difficultés majeures se présentent ici en archéologie. Tout d’abord, le volume de données est faible. Les données proviennent de plusieurs disciplines académiques et sont donc assez hétérogènes. Elles restent de plus difficiles à interpréter : comme personne n’était là il y a 400 000 ans pour savoir s’il faisait chaud ou froid, il paraît difficile de savoir dans quelles conditions climatiques se développait une plante dont nous retrouvons un fossile de pollen.

Nous avons donc dû adapter les modes d’entraînement de l’IA à ces contraintes spécifiques de l’archéologie. Le premier mode d’entraînement proposé dans Schopper repose ainsi sur l’« actualisme » : il s’agit d’admettre que ce qui se passe maintenant est similaire à ce qui se passait il y a longtemps (dans certains cas). Cela nous permet d’avoir accès à un plus grand volume de données en enrichissant les données préhistoriques avec des données actuelles.

On suppose par exemple que le renne chassé par l’homme de Tautavel il y a 450 000 ans possède la même écologie que le renne actuel. Cela revient à émettre l’hypothèse qu’il vivait sous un climat relativement froid dans des régions arctiques ou subarctiques. Le chêne vert, dont les grains de pollens sont prélevés dans certains niveaux de la Caune de l’Arago, devrait, lui, rester typique du cortège méditerranéen actuel, thermophile et résistant à la sécheresse.

Pour la faune, nous nous référons notamment à une importante base de données WWF listant les espèces de vertébrés de l’ensemble des écorégions du globe. Celles-ci représentent autant de points de données nourrissant l’apprentissage en associant aux animaux les caractéristiques de leur environnement. Ce peut être le biome terrestre, une valeur de température moyenne annuelle, ou encore un total des précipitations en millimètres sur l’année.

D’après l’IA, les thèses des experts ne reposent pas toujours exactement sur les arguments qu’ils énoncent. Fourni par l'auteur

Le deuxième mode utilisé a pour point de départ des « dires d’experts ». Un archéologue selon sa spécialité va par exemple déduire d’un ensemble de données que les hommes à une certaine date n’avaient résidé que brièvement dans la grotte.

L’IA vient alors interroger les mêmes éléments pour identifier ceux qui ont poussé, d’après elle, le chercheur à donner cet avis. Il peut d’ailleurs arriver que l’algorithme déduise que les variables décisives dans la décision finale diffèrent de celles énoncées par l’expert dans ses articles.

Exploitation des modèles

Une fois ainsi les données préparées, débute une série d’aller-retour qui visent à identifier les paramètres optimaux. Elle est entrecoupée d’étapes de validation permettant de déterminer la qualité de l’apprentissage du modèle ainsi que son pouvoir de généralisation. En ce sens, le machine learning suit le principe du rasoir d’Ockham où une modélisation plus simple est préférée à une explication trop complexe.

Les modèles se voient enfin appliqués pour comprendre, dans la région de la Caune de l’Arago et à différentes époques, le biome, le type de climat, la température, la quantité de précipitations ou la durée d’occupation et la fonction du site.

Des algorithmes d’explication tels que SHAP sont par ailleurs utilisés afin de comprendre comment un modèle aboutit à une décision et pas une autre. Cela permet notamment aux archéologues qui ne sont pas experts en machine learning d’appréhender les processus décisionnels mis en œuvre dans les modèles qu’ils utilisent.

Reste maintenant à approfondir le traitement par le modèle de ce qui touche aux comportements de nos ancêtres. Cela se heurte malheureusement aux difficultés d’établir des référentiels solides d’apprentissage avec peu de données sur des périodes aussi anciennes. Le consortium du projet travaille néanmoins sur de nouvelles pistes techniques pour améliorer la performance de l’IA et ajouter de l’immersion par le son. Ce sera la suite des développements de Schopper.


Ce papier a été rédigé avec Philippe Carrez, fondateur d’Immersion-Tools, et Matthieu Boussard, ingénieur Recherche et Développement chez Craft.AI, deux partenaires du projet Schopper.

The Conversation

Le projet Schopper a été financé par l'ANR : Projet-ANR-16-CE38-0007.

Le projet Schopper a reçu des financements de l'ANR.

Des milliards d’arbres cartographiés dans le désert grâce à des satellites et des supercalculateurs

L’informatique moderne permet de traiter les grandes quantités de données des satellites d’imagerie à haute résolution. Repérer les arbres et arbustes isolés dans des zones arides et semi-arides permet mieux évaluer et comprendre l’évolution du couvert végétal. Martin Brandt, Author provided

Les zones arides et semi-arides sont à l’étude depuis longtemps, pour savoir si leur couvert végétal régresse. En effet, la théorie selon laquelle le Sahara s’étendait et la végétation ligneuse reculait a été émise pour la première fois dans les années 1930. Puis, la « grande sécheresse » des années 1970 au Sahel a mis l’accent sur la désertification causée par la surexploitation et par le changement climatique. Au cours des dernières décennies, c’est l’impact potentiel du changement climatique sur la végétation qui a été la principale préoccupation – et l’effet rétroactif de la végétation sur le climat, lié au rôle de la végétation dans le cycle global du carbone.

Pour mieux comprendre l’état du couvert végétal et son évolution dans des zones arides et semi-arides, nous avons récemment cartographié des milliards d’arbres et d’arbustes individuels en Afrique de l’Ouest. Un défi relevé en associant images satellites haute résolution et techniques d’apprentissage machine (machine learning), grâce à des supercalculateurs.

Trouver un arbuste dans le désert – depuis l’espace

Depuis les années 1970, la végétation dans les zones semi-arides du monde entier est cartographiée grâce à des données satellites. Les images disponibles sont soit de « hautes » résolutions spatiales (avec les satellites de la NASA, Landsat MSS et TM, et de l’ESA, Spot et Sentinel), soit de « moyennes ou basses » résolutions spatiales (satellites NOAA AVHRR et MODIS).

Pour analyser avec précision le couvert végétal à l’échelle continentale ou mondiale, il faut utiliser les images de la plus haute résolution disponible, avec une résolution d’un mètre ou moins. Jusqu’à présent, les coûts d’acquisition et d’analyse de ces données étaient prohibitifs et la plupart des études se sont appuyées sur des données de moyenne ou faible résolution, qui ne permettent pas d’identifier des arbres individuels. Ces études ne donnent donc que des estimations du couvert végétal agrégé et de la productivité, mélangeant de plus végétations herbacées et ligneuses.

Une nouvelle étude publiée dans Nature en octobre 2020, couvrant une grande partie de la zone semi-aride des Sahara, Sahel et Soudan en Afrique de l’Ouest, surmonte ces limites. En combinant une immense quantité de données satellites haute résolution, des capacités de calcul avancées au sein d’un supercalculateur, des techniques d’apprentissage automatique et de nombreuses données de terrain recueillies au fil des décennies, nous avons pu identifier des arbres et des arbustes individuels dont la surface de la couronne est supérieure à 3 m2 avec une grande précision. Le résultat est une base de données comprenant 1,8 milliard d’arbres dans la région étudiée, disponible pour tous les intéressés.

Supercalculateur, apprentissage automatique, données satellitaires et évaluations sur le terrain permettent de cartographier des milliards d’arbres individuels en Afrique occidentale. Martin Brandt, Author provided

Actuellement, ce travail est étendu pour couvrir la ceinture semi-aride au sud du Sahara à travers le continent africain jusqu’à la mer Rouge. Le nombre d’arbres cartographiés à ce jour est de 13 milliards, et la méthodologie est en cours d’amélioration. La couverture géographique devrait être élargie, d’abord au reste des zones semi-arides d’Afrique, puis à d’autres continents.

Pour couvrir l’ensemble de la zone sahélienne de l’Afrique, de l’Atlantique à la mer Rouge, nous avons utilisé environ 100 000 images satellites, soit un volume total de données de plusieurs centaines de téraoctets. Grâce aux superordinateurs de la NASA et de Blue Waters (Université d’Illinois à Urbana-Champaign), les images ont été assemblées pour créer une mosaïque continue. Les arbres ont ensuite été identifiés à l’aide de l’apprentissage profond, une technique d’intelligence artificielle dans laquelle l’ordinateur est entraîné à reconnaître des arbres individuels. Au cours de son entraînement, des dizaines de milliers d’arbres ont été « montrés » à l’ordinateur par un opérateur, qui a utilisé ses connaissances du terrain en combinaison avec ses compétences en matière d’interprétation d’images. Ensuite, les résultats de l’identification par la machine ont été vérifiés. Dans l’ensemble, la précision s’est avérée être fortement corrélée aux mesures sur le terrain.

Des informations inattendues sur les arbres individuels

Notre base de données d’arbres et d’arbustes contient des informations sur chaque arbre, sa localisation exacte (généralement avec une incertitude de quelques mètres), la taille de sa couronne, la date d’acquisition de l’image satellite sur laquelle il a été identifié, ainsi que des estimations de sa masse ligneuse au-dessus du sol et son contenu en carbone. À l’avenir, d’autres informations pourront être ajoutées, par exemple sa hauteur et sa phénologie, c’est-à-dire ses événements périodiques comme la feuillaison.

Les populations du Sahel semi-aride sauvegardent et promeuvent les arbres au sein des peuplements et des terres agricoles. La relation entre les humains et les arbres n’engendre pas toujours des pertes de couverture arborée. Martin Brandt, Author provided

Ce n’est que le début du projet de recherche, mais des implications importantes sont déjà évidentes. Dans l’étude ouest-africaine, nous avons trouvé beaucoup plus d’arbres que ce à quoi nous nous attendions. Alors que d’autres sources de données indiquent que les arbres sont quasiment absents du Sahara et de la zone nord-sahélienne, nous avons trouvé des centaines de millions d’arbres. Le stock de carbone associé à ces arbres serait plus grand et plus stable que les stocks de carbone dans la végétation herbacée. De plus, les arbres des terres agricoles sont généralement plus grands que ceux des savanes vierges, et la couverture arborée globale est élevée dans les zones peuplées ou exploitées. Cela montre qu’une forte densité de population humaine n’est pas toujours liée à une perte de couverture arborée, car les habitants du Sahel semi-aride protègent et encouragent les arbres dans les zones habitées et les terres agricoles.

À quoi servira la base de données ?

Cette base de données sert différents objectifs. Elle constitue une base de référence qui permettra d’étudier l’évolution temporelle de la végétation ligneuse à grande échelle, peut-être même aux échelles continentales ou mondiales.

Elle permettra aussi d’analyser les facteurs qui contrôlent la présence des arbres dans les zones arides, comme l’occupation humaine, les précipitations, les sols ou la géomorphologie. Ces informations alimenteront la modélisation des écosystèmes et du « système Terre », puisque les arbres jouent des rôles importants dans les interactions entre l’atmosphère et la surface terrestre, en contrôlant à la fois l’échange de carbone, l’évapotranspiration et la rugosité aérodynamique.

Enfin, les informations de la base de données pourraient être utilisées pour informer et soutenir les politiques environnementales aux niveaux national et international.


Créé en 2007 pour accélérer les connaissances scientifiques et leur partage, le Axa Research Fund a apporté son soutien à environ 650 projets dans le monde menés par des chercheurs de 55 pays. Pour en savoir plus, visitez le site Axa Research Fund ou suivez sur Twitter @AXAResearchFund.)

Article traduit par Elsa Couderc avec l’aide de DeepL.

The Conversation

Martin Brandt a reçu des financements du AXA Postdoctoral Research Fund.

Kjeld Rasmussen ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

❌
❌