Une expérience relativement simple consistant à demander à une intelligence artificielle générative de comparer deux objets de tailles très différentes permet de réfléchir aux limites de ces technologies.
Une expérience relativement simple consistant à demander à une intelligence artificielle générative de comparer deux objets de tailles très différentes permet de réfléchir aux limites de ces technologies.
Images générées par IA en réponse à la requête « Dessine-moi un gratte-ciel et un trombone à coulisse côte à côte pour qu’on puisse apprécier leur taille respective » (par ChatGPT à gauche, par Gemini à droite). CC BYUne expérience relativement simple consistant à demander à une intelligence artificielle générative de comparer deux objets de tailles très différentes permet de réfléchir aux limites de ces technologies.
Les intelligence artificielle (IA) génératives font désor
Images générées par IA en réponse à la requête « Dessine-moi un gratte-ciel et un trombone à coulisse côte à côte pour qu’on puisse apprécier leur taille respective » (par ChatGPT à gauche, par Gemini à droite).CC BY
Une expérience relativement simple consistant à demander à une intelligence artificielle générative de comparer deux objets de tailles très différentes permet de réfléchir aux limites de ces technologies.
Les intelligence artificielle (IA) génératives font désormais partie de notre quotidien. Elles sont perçues comme des « intelligences », mais reposent en fait fondamentalement sur des statistiques. Les résultats de ces IA dépendent des exemples sur lesquels elles ont été entraînées. Dès qu’on s’éloigne du domaine d’apprentissage, on peut constater qu’elles n’ont pas grand-chose d’intelligent. Une question simple comme « Dessine-moi un gratte-ciel et un trombone à coulisse côte à côte pour qu’on puisse apprécier leurs tailles respectives » vous donnera quelque chose comme ça (cette image a été générée par Gemini) :
Image générée par l’IA Gemini en réponse au prompt (la requête) : Dessine-moi un gratte-ciel et un trombone à coulisse côte à côte pour qu’on puisse apprécier leur taille respective.Fourni par l'auteur
L’exemple provient du modèle de Google, Gemini, mais le début de l’ère des IA génératives remonte au lancement de ChatGPT en novembre 2022 et ne date que d’il y a trois ans. C’est une technologie qui a changé le monde et qui n’a pas de précédent dans son taux d’adoption. Actuellement ce sont 800 millions d’utilisateurs, selon OpenAI, qui chaque semaine, utilisent cette IA pour diverses tâches. On notera que le nombre de requêtes diminue fortement pendant les vacances scolaires. Même s’il est difficile d’avoir des chiffres précis, cela montre à quel point l’utilisation des IA est devenue courante. À peu près un étudiant sur deux utilise régulièrement des IA.
Les IA : des technologies indispensables ou des gadgets ?
Trois ans, c’est à la fois long et court. C’est long dans un domaine où les technologies évoluent en permanence, et court en termes sociétaux. Même si on commence à mieux comprendre comment utiliser ces IA, leur place dans la société n’est pas encore quelque chose d’assuré. De même la représentation mentale qu’ont ces IA dans la culture populaire n’est pas établie. Nous en sommes encore à une alternance entre des positions extrêmes : les IA vont devenir plus intelligentes que les humains ou, inversement, ce ne sont que des technologies tape-à-l’œil qui ne servent à rien.
En effet, un nouvel appel à faire une pause dans les recherches liées aux IA a été publié sur fond de peur liée à une superintelligence artificielle. De l’autre côté sont promis monts et merveilles, par exemple un essai récent propose de ne plus faire d’études, car l’enseignement supérieur serait devenu inutile à cause de ces IA.
Difficile de sortir de leurs domaines d’apprentissage
Depuis que les IA génératives sont disponibles, je mène cette expérience récurrente de demander de produire un dessin représentant deux objets très différents et de voir le résultat. Mon but par ce genre de prompt (requête) est de voir comment le modèle se comporte quand il doit gérer des questions qui sortent de son domaine d’apprentissage. Typiquement cela ressemble à un prompt du type « Dessine-moi une banane et un porte-avions côte à côte pour qu’on se rende compte de la différence de taille entre les deux objets ». Ce prompt en utilisant Mistral donne le résultat suivant :
Capture d’écran d’un prompt et de l’image générée par l’IA Mistral.Fourni par l'auteur
À ce jour je n’ai jamais trouvé un modèle qui donne un résultat censé. L’image donnée en illustration ci-dessus (ou en tête de l’article) est parfaite pour comprendre comment fonctionnent ce type d’IA et quelles sont ses limites. Le fait qu’il s’agisse d’une image est intéressant, car cela rend palpables des limites qui seraient moins facilement discernables dans un long texte.
Ce qui frappe est le manque de crédibilité dans le résultat. Même un enfant de 5 ans voit que c’est n’importe quoi. C’est d’autant plus choquant qu’avec la même IA il est tout à fait possible d’avoir de longues conversations complexes sans pour autant qu’on ait l’impression d’avoir affaire à une machine stupide. D’ailleurs ce même type d’IA peut tout à fait réussir l’examen du barreau ou répondre avec une meilleure précision que des professionnels sur l’interprétation de résultats médicaux (typiquement, repérer des tumeurs sur des radiographies).
D’où vient l’erreur ?
La première chose à remarquer est qu’il est difficile de savoir à quoi on est confronté exactement. Si les composants théoriques de ces IA sont connus dans la réalité, un projet comme celui de Gemini (mais cela s’applique aussi aux autres modèles que sont ChatGPT, Grok, Mistral, Claude, etc.) est bien plus compliqué qu’un simple LLM couplé à un modèle de diffusion.
Un LLM est une IA qui a été entraînée sur des masses énormes de textes et qui produit une représentation statistique de ces derniers. En gros, la machine est entraînée à deviner le mot qui fera le plus de sens, en termes statistiques, à la suite d’autres mots (votre prompt).
Les modèles de diffusion qui sont utilisés pour engendrer des images fonctionnent sur un principe différent. Le processus de diffusion est basé sur des notions provenant de la thermodynamique : on prend une image (ou un son) et on ajoute du bruit aléatoire (la neige sur un écran) jusqu’à ce que l’image disparaisse, puis ensuite on fait apprendre à un réseau de neurones à inverser ce processus en lui présentant ces images dans le sens inverse du rajout de bruit. Cet aspect aléatoire explique pourquoi avec le même prompt le modèle va générer des images différentes.
Un autre point à considérer est que ces modèles sont en constante évolution, ce qui explique que le même prompt ne donnera pas le même résultat d’un jour à l’autre. De nombreuses modifications sont introduites à la main pour gérer des cas particuliers en fonction du retour des utilisateurs, par exemple.
À l’image des physiciens, je vais donc simplifier le problème et considérer que nous avons affaire à un modèle de diffusion. Ces modèles sont entraînés sur des paires images-textes. Donc on peut penser que les modèles de Gemini et de Mistral ont été entraînés sur des dizaines (des centaines ?) de milliers de photos et d’images de gratte-ciel (ou de porte-avions) d’un côté, et sur une grande masse d’exemples de trombone à coulisse (ou de bananes) de l’autre. Typiquement des photos où le trombone à coulisse est en gros plan. Il est très peu probable que, dans le matériel d’apprentissage, ces deux objets soient représentés ensemble. Donc le modèle n’a en fait aucune idée des dimensions relatives de ces deux objets.
Pas de « compréhension » dans les modèles
Les exemples illustrent à quel point les modèles n’ont pas de représentation interne du monde. Le « pour bien comparer leurs tailles » montre qu’il n’y a aucune compréhension de ce qui est écrit par les machines. En fait les modèles n’ont pas de représentation interne de ce que « comparer » signifie qui vienne d’ailleurs que des textes dans lesquels ce terme a été employé. Ainsi toute comparaison entre des concepts qui ne sont pas dans le matériel d’apprentissage sera du même genre que les illustrations données en exemple. Ce sera moins visible mais tout aussi ridicule. Par exemple, cette interaction avec Gemini « Considérez cette question simple : “Le jour où les États-Unis ont été établis est-il dans une année bissextile ou une année normale ?”. »
Lorsqu’il a été invoqué avec le préfixe CoT (Chain of Thought, une évolution récente des LLMs dont le but est de décomposer une question complexe en une suite de sous-questions plus simples), le modèle de langage moderne Gemini a répondu : « Les États-Unis ont été établis en 1776. 1776 est divisible par 4, mais ce n’est pas une année séculaire (de cent ans), c’est donc une année bissextile. Par conséquent, le jour où les États-Unis ont été établis était dans une année normale. »
On voit bien que le modèle déroule la règle des années bissextiles correctement, donnant par là même une bonne illustration de la technique CoT, mais il conclut de manière erronée à la dernière étape ! Ces modèles n’ont en effet pas de représentation logique du monde, mais seulement une approche statistique qui crée en permanence ce type de glitchs qui peuvent paraître surprenants.
Cette prise de conscience est d’autant plus salutaire qu’aujourd’hui, les IA écrivent à peu près autant d’articles publiés sur Internet que les humains. Ne vous étonnez donc pas d’être étonné par la lecture de certains articles.
Frédéric Prost ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.
En 1997, le champion du monde d’échecs Garry Kasparov perd pour la première fois de l’histoire un match face à un ordinateur, Deep Blue. Cet événement historique pour le jeu comme pour l’informatique est aujourd’hui porté à l’écran dans une minisérie d’Arte, Remacth. 27 ans plus tard, qu’est-ce que la défaite de l’humain contre la machine nous a appris, et ces leçons peuvent-elles éclairer l’arrivée massive de l’IA dans nos vies ?
Les récents progrès de l’intelligence artificielle (IA), comme
En 1997, le champion du monde d’échecs Garry Kasparov perd pour la première fois de l’histoire un match face à un ordinateur, Deep Blue. Cet événement historique pour le jeu comme pour l’informatique est aujourd’hui porté à l’écran dans une minisérie d’Arte, Remacth. 27 ans plus tard, qu’est-ce que la défaite de l’humain contre la machine nous a appris, et ces leçons peuvent-elles éclairer l’arrivée massive de l’IA dans nos vies ?
Dans les parlements comme sur les réseaux sociaux, les rapides progrès de l’IA animent les discussions. À l’avenir, à quels impacts faut-il s’attendre sur notre société ? Pour tenter de répondre à cette question de manière dépassionnée, nous proposons de regarder ce qui s’est passé dans un secteur qui a déjà connu l’arrivée et la victoire de l’IA sur les capacités humaines : les échecs. La machine y a en effet un niveau supérieur à celui des humains depuis maintenant plus d’un quart de siècle.
Pourquoi le jeu d’échecs comme indicateur ?
Depuis les débuts de l’informatique, les échecs ont été utilisés comme un indicateur des progrès logiciels et matériels. C’est un jeu intéressant à de multiples niveaux pour étudier les impacts des IA sur la société :
C’est une activité intellectuelle qui demande différentes compétences : visualisation spatiale, mémoire, calcul mental, créativité, capacité d’adaptation, etc., compétences sur lesquelles l’IA vient concurrencer l’esprit humain.
Le jeu n’a pas changé depuis des siècles. Les règles sont bien établies et cela donne une base stable pour étudier l’évolution des joueurs.
Il est possible de mesurer la force des machines de manière objective et de comparer ce niveau à celui des humains avec le classement Elo.
Le champ d’études est restreint : il est clair que les échecs ne sont qu’un tout petit aspect de la vie, mais c’est justement le but. Cette étroitesse du sujet permet de mieux cibler les impacts des IA sur la vie courante.
Les IA ont dépassé le niveau des meilleurs joueurs humains depuis plus de 20 ans. Il est donc possible de voir quels ont été les impacts concrets sur le jeu d’échecs et la vie de sa communauté, qui peut être vue comme un microcosme de la société. On peut également étudier ces impacts en regard de la progression des IA au cours du temps.
Explorons quelles ont été les évolutions dans le monde des échecs depuis que Garry Kasparov, alors champion du monde en titre, a perdu une partie contre Deep Blue en 1996, puis le match revanche joué en 1997. Nous allons passer en revue plusieurs thèmes qui reviennent dans la discussion sur les risques liés aux IA et voir ce qu’il en a été de ces spéculations dans le domaine particulier des échecs.
Les performances de l’IA vont-elles continuer à augmenter toujours plus vite ?
Il existe deux grandes écoles pour programmer un logiciel d’échecs : pendant longtemps, seule la force brute fonctionnait. Il s’agissait essentiellement de calculer le plus vite possible pour avoir un arbre de coups plus profonds, c’est-à-dire capable d’anticiper la partie plus loin dans le futur.
À partir d’une position initiale, l’ordinateur calcule un ensemble de possibilités, à une certaine profondeur, c’est-à-dire un nombre de coups futurs dans la partie.Chris Butner, CC BY-SA
Aujourd’hui, la force brute est mise en concurrence avec des techniques d’IA issues des réseaux de neurones. En 2018, la filiale de Google DeepMind a produit AlphaZero, une IA d’apprentissage profond par réseau de neurones artificiels, qui a appris tout seul en jouant contre lui-même aux échecs. Parmi les logiciels les plus puissants de nos jours, il est remarquable que LC0, qui est une IA par réseau de neurones, et Stockfish, qui est essentiellement un logiciel de calcul par force brute, aient tous les deux des résultats similaires. Dans le dernier classement de l’Association suédoise des échecs sur ordinateur (SSDF), ils ne sont séparés que de 4 points Elo : 3 582 pour LC0 contre 3 586 pour Stockfish. Ces deux manières totalement différentes d’implanter un moteur d’échecs sont virtuellement indistinguables en termes de force.
En termes de points Elo, la progression des machines a été linéaire. Le graphique suivant donne le niveau du meilleur logiciel chaque année selon le classement SSDF qui a commencé depuis le milieu des années 1980. Le meilleur logiciel actuel, LC0, en est à 3586, ce qui prolonge la figure comme on pourrait s’y attendre.
Cette progression linéaire est en fait le reflet d’une progression assez lente des logiciels. En effet, le progrès en puissance de calcul est, lui, exponentiel. C’est la célèbre loi de Moore qui stipule que les puissances de calcul des ordinateurs doublent tous les dix-huit mois.
Cependant, Ken Thompson, informaticien américain ayant travaillé dans les années 80 sur Belle, à l’époque le meilleur programme d’échecs, avait expérimentalement constaté qu’une augmentation exponentielle de puissance de calcul conduisait à une augmentation linéaire de la force des logiciels, telle qu’elle a été observée ces dernières dizaines d’années. En effet, le fait d’ajouter un coup supplémentaire de profondeur de calcul implique de calculer bien plus de nouvelles positions. On voit ainsi que l’arbre des coups possibles est de plus en plus large à chaque étape.
Les progrès des IA en tant que tels semblent donc faibles : même si elles ne progressaient pas, on observerait quand même une progression de la force des logiciels du simple fait de l’amélioration de la puissance de calcul des machines. On ne peut donc pas accorder aux progrès de l’IA tout le crédit de l’amélioration constante des ordinateurs aux échecs.
La réception par la communauté de joueurs d’échecs
Avec l’arrivée de machines puissantes dans le monde des échecs, la communauté a nécessairement évolué. Ce point est moins scientifique mais est peut-être le plus important. Observons quelles ont été ces évolutions.
« Pourquoi les gens continueraient-ils de jouer aux échecs ? » Cette question se posait réellement juste après la défaite de Kasparov, alors que le futur des échecs amateurs et professionnels paraissait sombre. Il se trouve que les humains préfèrent jouer contre d’autres humains et sont toujours intéressés par le spectacle de forts grands maîtres jouant entre eux, et ce même si les machines peuvent déceler leurs erreurs en temps réel. Le prestige des joueurs d’échecs de haut niveau n’a pas été diminué par le fait que les machines soient capables de les battre.
Le style de jeu a quant à lui été impacté à de nombreux niveaux. Essentiellement, les joueurs se sont rendu compte qu’il y avait beaucoup plus d’approches possibles du jeu qu’on le pensait. C’est l’académisme, les règles rigides, qui en ont pris un coup. Encore faut-il réussir à analyser les choix faits par les machines. Les IA sont par ailleurs très fortes pour pointer les erreurs tactiques, c’est-à-dire les erreurs de calcul sur de courtes séquences. En ligne, il est possible d’analyser les parties de manière quasi instantanée. C’est un peu l’équivalent d’avoir un professeur particulier à portée de main. Cela a sûrement contribué à une augmentation du niveau général des joueurs humains et à la démocratisation du jeu ces dernières années. Pour le moment, les IA n’arrivent pas à prodiguer de bons conseils en stratégie, c’est-à-dire des considérations à plus long terme dans la partie. Il est possible que cela change avec les modèles de langage, tel que ChatGPT.
Les IA ont aussi introduit la possibilité de tricher. Il y a eu de nombreux scandales à ce propos, et on se doit de reconnaître qu’il n’a pas à ce jour de « bonne solution » pour gérer ce problème qui rejoint les interrogations des professeurs qui ne savent plus qui, de ChatGPT ou des étudiants, leur rendent les devoirs.
Conclusions temporaires
Cette revue rapide semble indiquer qu’à l’heure actuelle, la plupart des peurs exprimées vis-à-vis des IA ne sont pas expérimentalement justifiées. Le jeu d’échecs est un précédent historique intéressant pour étudier les impacts de ces nouvelles technologies quand leurs capacités se mettent à dépasser celles des humains. Bien sûr, cet exemple est très limité, et il n’est pas possible de le généraliser à l’ensemble de la société sans précaution. En particulier, les modèles d’IA qui jouent aux échecs ne sont pas des IA génératives, comme ChatGPT, qui sont celles qui font le plus parler d’elles récemment. Néanmoins, les échecs sont un exemple concret qui peut être utile pour mettre en perspective les risques associés aux IA et à l’influence notable qu’elles promettent d’avoir sur la société.
Frédéric Prost ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.