G-GENOCOD

Graph-GEneration for NOvel COmpound Discovery



Projet scientifique de l'Université d'Angers (LERIA) financé par le dispositif Étoiles Montantes de la région Pays de la Loire

La région Pays de la Loire.

G-GENOCOD est un projet financé par la Région Pays de la Loire

Un projet porté par le LERIA.

L’intelligence artificielle utilisée pour créer de nouvelles molécules

Dernière publication

A Transformer Model for Predicting Chemical Reaction Products from Generic Templates




Résumé grand public

Comment découvrir de nouvelles molécules utiles, par exemple pour fabriquer des médicaments ou des matériaux innovants ? Aujourd’hui, cette quête ressemble à chercher une aiguille dans une botte de foin : l’espace des combinaisons possibles est immense, et chaque tentative demande du temps, des calculs complexes et beaucoup de ressources.

Le projet G-GENOCOD, mené par une équipe de chercheurs angevins des laboratoires LERIA et MOLTECH-Anjou (CNRS) de l’Université d’Angers, propose une approche novatrice : utiliser l’Intelligence Artificielle (IA) pour apprendre à imaginer et construire des molécules. L’idée repose sur la représentation des molécules sous forme de graphes — un schéma reliant des atomes par des liaisons, un peu comme un jeu de construction. L’algorithme, comme un joueur qui s’améliore en testant différentes stratégies, explore cet espace et apprend progressivement à générer des structures prometteuses. Mais imaginer une molécule « idéale » ne suffit pas. Encore faut-il qu’elle soit synthétisable, c’est-à-dire réalisable en laboratoire. C’est pourquoi G-GENOCOD intègre un aspect essentiel : la synthétisabilité.

Pour y parvenir, le projet s’appuie sur deux apprentissages complémentaires : un premier algorithme apprend à concevoir des molécules, tandis qu’un second apprend à les construire à partir de réactions chimiques connues, en suivant une démarche réaliste et reproductible. Ces apprentissages sont guidés par les règles de la chimie réelle, avec une exigence forte : produire des molécules non seulement prometteuses, mais aussi réellement « fabriquables » en laboratoire. À terme, ce projet pourrait accélérer la découverte de nouveaux composés d’intérêt, tout en proposant à la communauté scientifique de nouveaux outils pour générer, analyser et fabriquer des composés chimiques. G-GENOCOD incarne ainsi une rencontre prometteuse entre IA et recherche en chimie.

Contexte

Le projet s’inscrit dans le domaine de l’Intelligence Artificielle, plus précisément la programmation génétique et l’apprentissage par renforcement appliqués à la génération de structures graphiques. Dans ce cas, l’objectif est de générer des graphes représentant des molécules chimiques. La problématique est motivée par les besoins en chimie moléculaire, notamment la recherche de nouvelles molécules aux propriétés optimales (par exemple, pour la pharmacologie ou les matériaux). En plus de générer des molécules avec des propriétés intéressantes, un enjeu majeur est que ces structures soient synthétisables en laboratoire, c’est-à-dire qu’elles puissent être réellement produites à partir de réactions chimiques connues et accessibles. Générer une molécule aux propriétés idéales mais impossible à fabriquer n’a pas d’intérêt pratique.

Objectifs

L’objectif principal de G-GENOCOD est de développer des modèles d’IA capables de générer automatiquement des molécules à la fois innovantes et synthétisables. Pour cela, le projet combine des techniques avancées de génération de graphes, d’apprentissage par renforcement et de prédiction de réactions chimiques. Ces outils doivent permettre à la fois l’exploration de l’espace chimique et la validation de la faisabilité des molécules.

Travaux

Le projet a permis de réaliser des travaux qui ont mené à une publication dans une revue international de rang Q1 (d’après SJR), une publication en conférence internationale de rang B (d’après ICORE), une en pré-publication sur ArXiv (soumise et en cours de relecture), une communication orale et un poster en symposium national (MADICS) et deux communications orales dans le cadre d’un séminaire spécifique à la chémoinformatique (SFR MathSTIC de l’Université d’Angers). Enfin, un mémoire d’Habilitation à Diriger des Recherches (HDR) a été publié (HDR soutenue le 31/03/2025), dont un chapitre porte sur le projet G-GENOCOD.

Publications

Retrouvez ici les publications scientifiques issues du projet G-GENOCOD :

  1. ProPreT5: A Transformer-Based Model for Generic Template-Based Chemical Reaction Product Prediction. (D. Özer, S. Lamprier, T. Cauchy, N. Gutowski, B. Da Mota). 2025. ArXiv
    Ce travail porte sur la prédiction des produits de réactions chimiques, un domaine complexe en chimie computationnelle. Les modèles actuels présentent deux approches principales, chacune ayant ses limites : les modèles basés sur des templates spécifiques, qui manquent de flexibilité et ne peuvent pas bien généraliser à des réactions nouvelles ou peu communes, et les méthodes sans template (template-free), qui sont plus flexibles mais souvent moins précises et plus difficiles à contrôler. Pour surmonter ces faiblesses, ce travail introduit le Broad Reaction Set (BRS), un nouveau jeu de données comprenant 20 templates de réaction génériques qui permet une exploration plus étendue et efficace de l'espace chimique. En complément, ProPreT5, un modèle T5 spécialement adapté à la chimie, est proposé comme une solution équilibrée, combinant les avantages des approches basées sur des templates et des méthodes sans. ProPreT5 prouve sa capacité à générer des produits de réaction non seulement précis et valides, mais aussi réalistes, offrant ainsi une solution capable de rivaliser avec l'état de l'art actuel dans la prédiction des produits de réactions chimiques.
  2. Bias-Variance Analysis of Multi-Step Loss Functions for Dynamical System Identification. (F. Lionti, N. Gutowski, S. Aubin, P. Martinet). 2025. Conférence IJCNN
    Ce travail présente une analyse approfondie des fonctions de perte multi-étape pour l’identification de systèmes dynamiques, en mettant en évidence leur impact sur le compromis biais-variance dans des contextes d’apprentissage séquentiel. Dans le cadre du projet G-GENOCOD, cette problématique trouve un écho direct dans le processus de génération de structures moléculaires par apprentissage par renforcement, où l’agent explore des trajectoires d’actions séquentielles sur des graphes représentant des molécules. L’efficacité de l’apprentissage dépend alors fortement de la fonction de récompense et de la capacité du modèle à généraliser à travers des séquences longues d’actions, ce qui renvoie aux dynamiques du système. L’analyse théorique développée dans cette contribution permet ainsi de mieux comprendre comment le choix d’une fonction de perte influera sur l'identifiabilité et la stabilité du comportement de l’agent au fil des étapes. Elle fournit un socle rigoureux pour concevoir des objectifs d’apprentissage mieux adaptés aux contraintes séquentielles et structurelles de la génération moléculaire, notamment dans des contextes où la prédiction à long terme est cruciale pour obtenir des structures valides et optimales.
  3. Bandit algorithms: A comprehensive review and their dynamic selection from a portfolio for multicriteria top-k recommendation. (A. Letard, N. Gutowski, O. Camp, T.Amghar). 2024. Journal Expert Systems With Applications
    Ce travail présente une approche de sélection dynamique fondée sur un portefeuille d’algorithmes de bandits-manchots, appliquée à la recommandation Top-k multicritère. Dans le cadre du projet G-GENOCOD, cette problématique émerge à travers des actions de mutation de graphes moléculaires (assimilables à des recommandations) impliquant des choix multiples (multiple-play) et l’optimisation simultanée de plusieurs critères, tels que le réalisme et le QED. Une revue complète des algorithmes de bandits-manchots a été réalisée afin d’identifier les plus adaptés à ce contexte. Différents algorithmes classiques et avancés ont ainsi été combinés dans une stratégie adaptative, sélectionnant dynamiquement le plus pertinent selon le contexte et les objectifs. Les impacts de plusieurs politiques de sélection, notamment inspirées des méta-bandits, ont été étudiés. Des expériences sur des jeux de données bien connus ont permis de mettre en évidence la robustesse, la flexibilité et les bénéfices de cette approche face à l’usage d’un bandit-manchot unique.
  4. Apprentissage automatique pour la génération et l’exploration : Adaptation et contextualisation pour données complexes (N. Gutowski). 2025. Habilitation à Diriger des Recherches. Lire le mémoire d'HDR ou visionner la soutenance
    Les travaux de recherche présentés dans ce mémoire se concentrent sur l'apprentissage automatique, avec une attention particulière portée sur l'adaptation et la contextualisation pour données complexes. La première partie traite de l'optimisation multicritère, avec une application des algorithmes de bandits-manchots aux systèmes de recommandation, et de méthodes évolutionnaires à la sélection d'attributs médicaux. La seconde partie se concentre sur les méthodes d'apprentissage profond : 1) pour l'estimation de paramètres ou d'état dans des systèmes dynamiques non linéaires ; 2) pour la génération appliquée à la musique symbolique. Enfin, la troisième partie présente les perspectives de recherche, notamment autour du projet G-GENOCOD qui tire parti des compétences développées dans les travaux précédents pour la génération de nouveaux composés moléculaires.

Communications

G-GENOCOD est présenté dans divers événements scientifiques et de vulgarisation :

  1. G-GENOCOD : L’Intelligence Artificielle au service de la découverte de molécules (N. Gutowski, D. Ozer, G. Milon-Harnois, B. Da Mota, T. Cauchy, S. Lamprier). 05/2025. EchoSciences Pays de la Loire. Lien vers l'article
    Cet article revient en détail sur le projet G-GENOCOD, depuis ses objectifs initiaux jusqu’aux résultats obtenus, en passant par les approches d’IA développées spécialement pour explorer l'espace moléculaire. Ce projet transdisciplinaire illustre comment l’IA peut accélérer et orienter la recherche en chimie, en identifiant plus rapidement des molécules d’intérêt pour la santé ou les matériaux.
  2. Vers une planification de synthèse explicable et généralisable : MCTS guidé par apprentissage sur des réactions génériques (D. Ozer, B. Da Mota, T. Cauchy, N. Gutowski, S. Lamprier). 05/2025. 7 ème symposium MADICS. Toulouse. Lien vers l'événement
    Les modèles actuels de prédiction de réactions chimiques et de chemins de synthèse sont fréquemment évalués sur des jeux de données comme USPTO, accessibles et gratuits, mais ne couvrant qu’une portion limitée de la diversité chimique réelle. Issus exclusivement de brevets américains, ces jeux favorisent certaines classes de réactions industrielles tout en négligeant de nombreuses transformations simples mais essentielles à la construction de véritables voies de synthèse. Par ailleurs, les modèles existants reposent soit sur l’apprentissage direct à partir de paires réactifs-produits, sans aucune information explicite sur la réaction, ce qui limite leur capacité de généralisation ; soit sur des règles réactionnelles très strictes, qui imposent une correspondance quasi unique entre réactifs et produits, restreignant fortement l’exploration de l’espace chimique. Pour répondre à ces limitations, nous proposons un ensemble de réactions génériques conçu pour capturer l’essentiel des transformations chimiques tout en autorisant une certaine flexibilité. Sur cette base, nous développons une approche de planification de synthèse reposant sur un algorithme de Monte Carlo Tree Search (MCTS). Chaque chemin dans l’arbre représente une séquence plausible de réactions, et l’exploration est guidée par un modèle Transformer entraîné en auto-supervision pour prédire une distance d’édition de graphe en fonction de nos réactions entre l’état courant et la molécule cible. Cette estimation agit comme heuristique pour orienter efficacement la recherche. Cette approche hybride, combinant raisonnement symbolique et apprentissage automatique, constitue une piste prometteuse vers une planification de synthèse plus robuste, généralisable et explicable.
  3. Une IA réaliste ? (Gaëlle Milon-Harnois). 05/2025. Pint of Science Angers. Lien vers l'événement
    En chimie, créer des molécules spécifiques véritablement nouvelles est rare et complexe. C’est pourquoi à travers le monde des chercheurs développent des applications d’Intelligence Artificielle (IA) capables de générer des molécules. Or ces molécules ne sont pas toujours réalistes. Le projet G-GENOCOD propose ainsi de nouvelles méthodes d’IA pour générer des molécules et séquencer les réactions afin de les rendre synthétisables, tout comme le ferait un chimiste pour améliorer une propriété.
  4. Séminaire SFR MathSTIC - Université d'Angers : Bio & Chem informatics in the era of Machine & Deep Learning. Lien vers l'événement
    a) AI and molecular chemistry: challenges and perspectives, par Benoit Da Mota (MCF, co-responsable scientifique du projet G-GENOCOD);
    b) Prediction of chemical synthesis routes using LLMs par Derin Ozer (Doctorante co-encadrée par Sylvain Lamprier, Benoit Da Mota et Nicolas Gutowski).

Téléchargements

Les ressources du projet seront progressivement mises à disposition :

  1. Repository github d'EvoMol