Vue lecture

Il y a de nouveaux articles disponibles, cliquez pour rafraîchir la page.

Comment l’IA apprend le langage secret de l’ADN, et ce que la recherche y gagne

Plutôt que de produire des mots, le modèle d’intelligence artificielle Evo 2 est capable de prédire une base d’ADN en se fondant sur une séquence donnée. Lancé, il y a un peu plus d’un an, le modèle s’affine et permet aux scientifiques de mieux comprendre le langage de l’ADN. Sa puissance de calcul pose néanmoins des questions de ressources énergétiques.


Si vous avez déjà utilisé un modèle de langage comme ChatGPT ou Mistral, vous vous souvenez sans doute de la première impression : orthographe impeccable, grammaire fluide, phrases qui ont du sens. Pourtant, sous le capot, ces systèmes ne font qu’une chose très simple : prévoir dans une phrase le mot qui va suivre. Ils utilisent des statistiques apprises sur un immense corpus de textes, et c’est ainsi qu’ils « parlent » français, anglais et bien d’autres langues.

Une idée féconde a alors germé chez les généticiens : et si l’on entraînait la même classe de modèles pour apprendre le langage de la vie, la suite de lettres A, T, G, C, inscrite dans nos génomes ? C’est le pari des modèles de langage génomiques : ils apprennent la grammaire cachée de l’ADN et offrent à la recherche un allié précieux pour explorer, proposer et tester plus vite des hypothèses scientifiques.

Que fait un modèle d’IA ?

Un algorithme d’intelligence artificielle (IA) est, au fond, une machine à transformer des nombres. Les données d’entrée, qui peuvent être des images, des sons ou du texte, sont d’abord encodées en chiffres. Puis l’algorithme applique des opérations simples (additions et multiplications par des paramètres internes au réseau et seuillage) et renvoie les résultats (d’autres chiffres) en sortie. À grande échelle, cette mécanique très simple suffit à jouer au go, à conduire une voiture… ou à comprendre les génomes.

L’astuce, ce n’est pas seulement l’encodage : c’est surtout l’apprentissage. Le modèle ajuste ses paramètres internes à chaque exemple (association entre une entrée et une sortie cible), un peu comme on accorde un instrument : à chaque note jouée, on tend ou détend la corde jusqu’à ce que la mélodie sonne juste.

Les applications de ce principe simple sont multiples et variées. Au jeu de go, l’IA regarde la position des pierres (un tableau de chiffres) et propose le prochain coup ; dans une phrase, le modèle suggère le prochain mot. En génomique, il lit A T G C… et prédit la prochaine base. Si ses prédictions sont bonnes, c’est qu’il a appris quelque chose sur la structure cachée du problème qu’il résout.

Les premiers modèles de langages génomiques

C’est en suivant ce principe que les premiers modèles de langage génomiques ont été entraînés en utilisant des génomes à la place des corpus de texte. Une des versions les plus récentes, Evo 2, a été développée par une large équipe autour du centre de recherche Arc Institute, dans la Silicon Valley. Ce modèle a été entraîné sur de nombreux génomes, comptabilisant près de 10 000 milliards de bases (les fameuses lettres A,C,G,T) ce qui représente 3 000 fois la taille de notre génome.

Le modèle lit à chaque étape un million de bases et le calcul revient toujours à la même question très simple : parmi les quatre lettres possibles (A, C, G ou T), laquelle est la plus probable juste après celles que l’on vient de lire ? La taille gigantesque de sa « fenêtre de lecture » lui permet de saisir à la fois des règles locales et des dépendances lointaines (régulations des gènes à distance). Ce saut d’échelle n’est pas qu’une prouesse technique : il change la manière dont on peut poser des questions en biologie, notamment dans ces régions non codantes (celles qui ne sont pas traduites en protéines) qui restent souvent incomprises et constituent la « matière noire » du génome.

Dans la pratique, l’apprentissage ressemble à une partie de devinettes : à chaque fois que le modèle devine correctement une lettre masquée au sein d’une séquence, il renforce les chemins internes qui l’y ont mené ; lorsqu’il se trompe, il corrige ces chemins. À force, il repère des schémas récurrents : certains motifs précèdent souvent le début d’un gène, d’autres signalent la fin, et certains motifs de la séquence trahissent la façon dont la cellule découpe l’ARN (l’épissage) ou assemble la machinerie de traduction des ARN en protéines.

L’apprentissage se fait d’abord à l’échelle globale. Le modèle lit une grande diversité de génomes et apprend une grammaire générale du vivant. Ensuite, on peut éventuellement l’adapter à une famille d’organismes ou à une question précise (par exemple, en le spécialisant sur un groupe de virus ou de bactéries).

L’IA apprend la grammaire cachée de l’ADN

C’est ici que la recherche s’enthousiasme : en apprenant juste à compléter les séquences, les modèles reconnaissent des signatures biologiques sans qu’on les leur ait pointées du doigt.

Ils retrouvent la périodicité en trois lettres du code génétique : le texte du vivant se lit par triplets (les codons), et les modèles « entendent » ce rythme, comme une mesure en musique. Ils repèrent aussi les départs et arrêts de gènes, avec des contraintes fortes sur les lettres les plus importantes, où l’on s’attend à ce que l’erreur soit rare. Ils détectent des signaux utiles à la machinerie cellulaire : chez les bactéries, les sites de liaison du ribosome ; chez les eucaryotes, les frontières entre exons (conservés) et introns (séquences à retirer), comme si le modèle distinguait les paragraphes et les espaces dans un texte.

Plus étonnant, ils révèlent aussi les éléments mobiles (par exemple, des virus intégrés au génome au cours de l’évolution) et même des empreintes liées aux formes 3D des protéines (hélices α, feuillets β) et des ARN. Le modèle dessine alors les contours de la sculpture finale. Car c’est bien de sculpture qu’il s’agit.

Le génome ne contient pas seulement des instructions – il encode des formes. Une protéine, un ARN, ne sont pas de simples colliers de lettres : ils se replient, se tordent, se nouent dans l’espace pour adopter une architecture précise, dont dépend leur fonction. C’est cette forme qui permet à une molécule de reconnaître une autre, de s’y accrocher, de déclencher une réaction. Les contacts qui stabilisent cette forme se font parfois entre des régions très éloignées dans la séquence – et pourtant, les modèles semblent capables de les capturer, comme s’ils devinaient, à force de lire le texte, quelles lettres se correspondent malgré la distance qui les sépare.

Ce qui peut surprendre, c’est que ces découvertes n’ont pas été enseignées : elles émergent spontanément de l’apprentissage. Et parfois, paradoxalement, quand on essaie d’affiner le modèle en lui montrant des exemples bien connus, il perd une partie de ce qu’il avait trouvé seul. Comme si trop guider l’élève lui faisait oublier ce qu’il avait intuitivement compris.

Pour rendre cette « boîte noire » plus lisible, les chercheurs utilisent des « autoencodeurs clairsemés » qui décomposent les représentations internes du modèle en traits compréhensibles. Chaque trait s’allume comme une lampe au-dessus d’un élément de séquence (exon, motif, élément mobile). Ces traits servent de fil d’Ariane. Ils indiquent où le modèle a vu un signal, de quel type il est et comment il varie d’un organisme à l’autre. On peut même transférer ces traits vers des génomes peu étudiés, ouvrant la voie à des atlas fonctionnels multi‑espèces construits de manière plus rapide et moins coûteuse que par les approches classiques.

Dans nos propres recherches, Evo 2 est surtout un point de comparaison : il montre jusqu’où peut aller un très grand modèle quand on lui donne énormément de données et de puissance de calcul. Il faut aussi voir que cette démonstration a une dimension vitrine pour Nvidia, le plus gros fabricant de processeurs pour l’IA, qui a mis sa puissance de calcul au service de l’Arc Institute pour concevoir Evo 2. L’idée sous-jacente est de montrer qu’il faut des modèles gigantesques et des infrastructures de calcul hors normes pour déchiffrer le secret de la vie. Le résultat est impressionnant, mais ce n’est pas forcément le seul chemin possible pour faire avancer la biologie.

Nous avons justement lancé le projet PLANETOID, financé dans le cadre de France 2030, pour explorer une stratégie complémentaire : construire des modèles beaucoup plus petits, plus rapides, plus faciles à entraîner et à déployer dans des laboratoires académiques. L’objectif est d’exploiter des données de biodiversité riches, produites par nos partenaires – en particulier au Muséum national d’histoire naturelle et dans les stations marines – afin d’annoter des génomes et des métagénomes (des ensembles de génomes) à l’échelle de l’arbre du vivant, y compris pour des espèces dites « non modèles », qui représentent l’immense majorité du vivant, mais restent souvent mal comprises.

PLANETOID vise aussi à produire des ressources et des outils réutilisables, pour que ces approches ne restent pas réservées à quelques acteurs capables de mobiliser des moyens industriels, mais puissent irriguer la recherche publique, puis à terme la santé et l’environnement.

Le futur : estimer l’effet d’une mutation ou écrire de nouveaux génomes

Parce qu’un modèle de langage assigne une vraisemblance à chaque séquence, il devient possible de comparer la version de référence et une version mutée. Si la mutation fait chuter la vraisemblance, elle devient suspecte. Ce score agit comme une carte pour guider les chercheurs : il montre des zones où une variation risque de perturber une fonction et oriente les expériences à prioriser.

Une autre application a le vent en poupe : la génération de séquences « fonctionnelles » in silico. Les chercheurs ont montré qu’on peut composer du texte génétique qui a toutes les caractéristiques de génomes naturels. Toutefois cette pratique soulève d’importantes questions éthiques (risques eugénistes, possibilité de virus synthétiques…) et doit rester strictement encadrée – c’est un sujet de société plus qu’un enjeu immédiat de recherche.

The Conversation

Julien Mozziconacci est professeur au Muséum National d'Histoire Naturelle et membre junior de l'Institut Universitaire de France. Il a reçu des financements de l'Agence Nationale de la Recherche (ANR, France 2030, PostGenAI@Paris). Les points de vue et opinions exprimés sont toutefois ceux des auteurs uniquement et ne reflètent pas nécessairement ceux des instituts qui les ont financés.

Élodie Laine ne travaille pas, ne conseille pas, ne possède pas de parts, ne reçoit pas de fonds d'une organisation qui pourrait tirer profit de cet article, et n'a déclaré aucune autre affiliation que son organisme de recherche.

AlphaGenome, une nouvelle avancée en intelligence artificielle pour explorer les effets des mutations génétiques

Même une mutation génétique très simple -- une lettre qui change dans l’immense chaîne composée d’A, T, C et G -- peut avoir des conséquences sur la santé. Sangharsh Lohakare/Unsplash, CC BY

Notre ADN est composé d’un enchaînement de quatre petites molécules appelées « acides nucléiques » et dénotées par les lettres A, C, G, et T. Parfois, une mutation génétique a lieu et affecte notre santé. Une simple modification dans la grande séquence de lettres qui constitue notre génome peut suffire à affecter l’expression des gènes ou les versions des protéines produites à partir de ces gènes.

Mais on ne sait pas, à l’heure actuelle, expliquer systématiquement comment telle ou telle mutation génétique peut avoir tel ou tel effet. C’est la question à laquelle AlphaGenome, le nouveau logiciel d’intelligence artificielle présenté dans la revue Nature par Google, tente de répondre.

AlphaGenome analyse un million d’acides nucléiques à la fois, et prédit, pour chacun d’eux, des milliers de quantités, qui sont autant de facettes de la régulation de nos gènes pour façonner nos tissus et nos organes.

Coupler un tel niveau de résolution avec un contexte aussi long (un million de lettres !) et prédire autant d’aspects de la régulation du génome relève du tour de force. Cependant, ce nouvel opus de la série Alpha de DeepMind ne représente pas une avancée aussi spectaculaire qu’AlphaGo ou AlphaFold, par exemple.

AlphaGenome affine une approche existante, déjà implémentée dans Enformer et Borzoi, deux modèles d’apprentissage profond développés chez Google qui ont fait leurs preuves. Il améliore, d’une part, leur efficacité par des optimisations techniques et, d’autre part, leur pertinence, en modélisant plus finement la complexité des processus génétiques.


À lire aussi : Décrypter notre génome grâce à l’intelligence artificielle


Pourquoi cette avancée est importante

L’enjeu de ce travail est de taille pour la santé humaine. Les bases de données génomiques de populations humaines recensent près de 800 millions de variations ponctuelles – c’est-à-dire des changements portant sur une seule lettre du code génétique – dont l’impact sur notre santé reste largement inexploré. Identifier quelles sont celles qui sont à l’origine de maladies ou de dysfonctionnements, et comprendre leurs mécanismes d’action, est crucial.

Par exemple, dans certaines leucémies, une mutation d’un seul acide nucléique active de manière inappropriée un gène bien spécifique. AlphaGenome confirme le mécanisme déjà connu de cette activation aberrante : la mutation permet à un régulateur génétique de s’accrocher au gène, et modifie les marques épigénétiques alentour.

Ainsi, en unifiant plusieurs dimensions de la régulation génétique, AlphaGenome s’impose comme un modèle de fondation, c’est-à-dire un modèle générique qui peut être transféré ou appliqué facilement à plusieurs problèmes.

Quelles sont les suites de ces travaux ?

Plusieurs limitations tempèrent néanmoins l’enthousiasme.

Par exemple, les prédictions sur différentes facettes d’un même processus biologique ne sont pas toujours cohérentes entre elles, révélant que le modèle traite encore ces modalités de façon relativement cloisonnée.

Le modèle peine aussi à capturer la « spécificité tissulaire », c’est-à-dire le fait qu’un même variant génétique peut être délétère dans un tissu et neutre dans un autre.

De plus, il reste difficile de quantifier l’ampleur de l’effet d’une mutation.

Enfin, AlphaGenome prédit des conséquences moléculaires, pas des symptômes ni des diagnostics – or, entre une variation d’ADN et une maladie, il reste énormément de travail pour comprendre les relations entre ces différents niveaux ; et il n’a pas encore été validé sur des génomes individuels – un passage obligé pour toute application en médecine personnalisée, où l’enjeu serait d’interpréter le profil génétique unique d’un patient pour prédire sa susceptibilité à certaines maladies ou adapter son traitement.

Au-delà de ces enjeux pour la santé humaine, comment transférer cette connaissance à la biodiversité dans son ensemble ? AlphaGenome dépend en effet de mesures expérimentales, accessibles en abondance uniquement pour une poignée d’espèces (l’humain et quelques organismes modèles). Une autre famille de modèles pourrait ici jouer un rôle complémentaire : les « modèles de langage génomique », qui fonctionnent un peu comme ChatGPT mais pour prédire la suite d’une séquence d’ADN plutôt que la suite d’une phrase. Ces modèles, entraînés sur des millions de séquences génomiques, peuvent ainsi capturer les règles et les motifs conservés au cours de l’évolution, ce qui permet de déchiffrer des génomes inconnus.

Rien de tout cela n’existerait sans les grandes bases de données publiques et le travail cumulé de la recherche académique et des consortia ouverts, qui ont produit, standardisé et partagé les données nécessaires à l’entraînement de ces modèles. La suite logique est claire : la science doit rester ouverte, au service de la société. L’équipe d’AlphaGenome a rendu le code et les poids publiquement accessibles, et propose une interface facilitant l’adoption par la communauté scientifique. Reste à voir comment celle-ci s’emparera de cet outil : sera-t-il utilisé comme une « boîte noire » pratique, ou inspirera-t-il un véritable changement de paradigme en génomique computationnelle ?


Cet article a bénéficié de discussions avec Arnaud Liehrmann, post-doctorant au laboratoire de Biologie computationnelle, quantitative et synthétique.


Tout savoir en trois minutes sur des résultats récents de recherches commentés et contextualisés par les chercheuses et les chercheurs qui les ont menées, c’est le principe de nos « Research Briefs ». Un format à retrouver ici.


The Conversation

Elodie Laine est membre junior de l'Institut Universitaire de France. Elle a reçu des financements de l'Agence Nationale de la Recherche (ANR, France 2030, PostGenAI@Paris, ANR-23-IACL-0007) et de l'Union Européenne (ERC, PROMISE, 101087830). Les points de vue et opinions exprimés sont toutefois ceux des auteurs uniquement et ne reflètent pas nécessairement ceux de l'Union européenne ou du Conseil européen de la recherche. Ni l'Union européenne ni l'autorité octroyant la subvention ne peuvent en être tenus responsables.

Julien Mozziconacci est professeur au Muséum National d'Histoire Naturelle et membre junior de l'Institut Universitaire de France. Il a reçu des financements de l'Agence Nationale de la Recherche (ANR, France 2030, PostGenAI@Paris). Les points de vue et opinions exprimés sont toutefois ceux des auteurs uniquement et ne reflètent pas nécessairement ceux des instituts qui les ont financés.

❌