G-GENOCOD

Graph-GEneration for NOvel COmpound Discovery



Projet scientifique de l'Université d'Angers (LERIA) financé par le dispositif Étoiles Montantes de la région Pays de la Loire

La région Pays de la Loire.

G-GENOCOD est un projet financé par la Région Pays de la Loire

Un projet porté par le LERIA.

G-GENOCOD : L’Intelligence Artificielle au service de la découverte de molécules

Dernière publication

Rethinking NLP for Chemistry: A Critical Look at the USPTO Benchmark




Résumé grand public

Comment découvrir de nouvelles molécules utiles, par exemple pour fabriquer des médicaments ou des matériaux innovants ? Aujourd’hui, cette quête ressemble à chercher une aiguille dans une botte de foin : l’espace des combinaisons possibles est immense, et chaque tentative demande du temps, des calculs complexes et beaucoup de ressources.

Le projet G-GENOCOD, mené par une équipe de chercheurs angevins des laboratoires LERIA et MOLTECH-Anjou (CNRS) de l’Université d’Angers, propose une approche novatrice : utiliser l’Intelligence Artificielle (IA) pour apprendre à imaginer et construire des molécules. L’idée repose sur la représentation des molécules sous forme de graphes — un schéma reliant des atomes par des liaisons, un peu comme un jeu de construction. L’algorithme, comme un joueur qui s’améliore en testant différentes stratégies, explore cet espace et apprend progressivement à générer des structures prometteuses. Mais imaginer une molécule « idéale » ne suffit pas. Encore faut-il qu’elle soit synthétisable, c’est-à-dire réalisable en laboratoire. C’est pourquoi G-GENOCOD intègre un aspect essentiel : la synthétisabilité.

Pour y parvenir, le projet s’appuie sur deux apprentissages complémentaires : un premier algorithme apprend à concevoir des molécules, tandis qu’un second apprend à les construire à partir de réactions chimiques connues, en suivant une démarche réaliste et reproductible. Ces apprentissages sont guidés par les règles de la chimie réelle, avec une exigence forte : produire des molécules non seulement prometteuses, mais aussi réellement « fabriquables » en laboratoire. À terme, ce projet pourrait accélérer la découverte de nouveaux composés d’intérêt, tout en proposant à la communauté scientifique de nouveaux outils pour générer, analyser et fabriquer des composés chimiques. G-GENOCOD incarne ainsi une rencontre prometteuse entre IA et recherche en chimie.

Contexte

Le projet s’inscrit dans le domaine de l’Intelligence Artificielle, plus précisément la programmation génétique et l’apprentissage par renforcement appliqués à la génération de structures graphiques. Dans ce cas, l’objectif est de générer des graphes représentant des molécules chimiques. La problématique est motivée par les besoins en chimie moléculaire, notamment la recherche de nouvelles molécules aux propriétés optimales (par exemple, pour la pharmacologie ou les matériaux). En plus de générer des molécules avec des propriétés intéressantes, un enjeu majeur est que ces structures soient synthétisables en laboratoire, c’est-à-dire qu’elles puissent être réellement produites à partir de réactions chimiques connues et accessibles. Générer une molécule aux propriétés idéales mais impossible à fabriquer n’a pas d’intérêt pratique.

Objectifs

L’objectif principal de G-GENOCOD est de développer des modèles d’IA capables de générer automatiquement des molécules à la fois innovantes et synthétisables. Pour cela, le projet combine des techniques avancées de génération de graphes, d’apprentissage par renforcement et de prédiction de réactions chimiques. Ces outils doivent permettre à la fois l’exploration de l’espace chimique et la validation de la faisabilité des molécules.

Travaux

Le projet a permis de réaliser des travaux qui ont mené à une publication dans une revue international de rang Q1 (d’après SJR), une publication en conférence internationale de rang A* (d'après ICORE), trois publications en conférence internationale de rang B (d’après ICORE), trois communications orales et un poster durant des symposiums nationaux et deux communications orales dans le cadre d’un séminaire spécifique à la chémoinformatique (SFR MathSTIC de l’Université d’Angers). Enfin, un mémoire de Master Recherche en Informatique et un mémoire d’Habilitation à Diriger des Recherches (HDR) ont été publiés (un chapitre de l'HDR porte sur le projet G-GENOCOD). L'HDR a été soutenue le 31/03/2025.

Publications

Retrouvez ici les publications scientifiques issues du projet G-GENOCOD :

  1. ProPreT5: A Transformer-Based Model for Generic Template-Based Chemical Reaction Product Prediction. (D. Özer, S. Lamprier, T. Cauchy, N. Gutowski, B. Da Mota). 2025. ArXiv
    Ce travail porte sur la prédiction des produits de réactions chimiques, un domaine complexe en chimie computationnelle. Les modèles actuels présentent deux approches principales, chacune ayant ses limites : les modèles basés sur des templates spécifiques, qui manquent de flexibilité et ne peuvent pas bien généraliser à des réactions nouvelles ou peu communes, et les méthodes sans template (template-free), qui sont plus flexibles mais souvent moins précises et plus difficiles à contrôler. Pour surmonter ces faiblesses, ce travail introduit le Broad Reaction Set (BRS), un nouveau jeu de données comprenant 20 templates de réaction génériques qui permet une exploration plus étendue et efficace de l'espace chimique. En complément, ProPreT5, un modèle T5 spécialement adapté à la chimie, est proposé comme une solution équilibrée, combinant les avantages des approches basées sur des templates et des méthodes sans. ProPreT5 prouve sa capacité à générer des produits de réaction non seulement précis et valides, mais aussi réalistes, offrant ainsi une solution capable de rivaliser avec l'état de l'art actuel dans la prédiction des produits de réactions chimiques.
  2. Bias-Variance Analysis of Multi-Step Loss Functions for Dynamical System Identification. (F. Lionti, N. Gutowski, S. Aubin, P. Martinet). 2025. Conférence IJCNN
    Ce travail présente une analyse approfondie des fonctions de perte multi-étape pour l’identification de systèmes dynamiques, en mettant en évidence leur impact sur le compromis biais-variance dans des contextes d’apprentissage séquentiel. Dans le cadre du projet G-GENOCOD, cette problématique trouve un écho direct dans le processus de génération de structures moléculaires par apprentissage par renforcement, où l’agent explore des trajectoires d’actions séquentielles sur des graphes représentant des molécules. L’efficacité de l’apprentissage dépend alors fortement de la fonction de récompense et de la capacité du modèle à généraliser à travers des séquences longues d’actions, ce qui renvoie aux dynamiques du système. L’analyse théorique développée dans cette contribution permet ainsi de mieux comprendre comment le choix d’une fonction de perte influera sur l'identifiabilité et la stabilité du comportement de l’agent au fil des étapes. Elle fournit un socle rigoureux pour concevoir des objectifs d’apprentissage mieux adaptés aux contraintes séquentielles et structurelles de la génération moléculaire, notamment dans des contextes où la prédiction à long terme est cruciale pour obtenir des structures valides et optimales.
  3. Bandit algorithms: A comprehensive review and their dynamic selection from a portfolio for multicriteria top-k recommendation. (A. Letard, N. Gutowski, O. Camp, T.Amghar). 2024. Journal Expert Systems With Applications
    Ce travail présente une approche de sélection dynamique fondée sur un portefeuille d’algorithmes de bandits-manchots, appliquée à la recommandation Top-k multicritère. Dans le cadre du projet G-GENOCOD, cette problématique émerge à travers des actions de mutation de graphes moléculaires (assimilables à des recommandations) impliquant des choix multiples (multiple-play) et l’optimisation simultanée de plusieurs critères, tels que le réalisme et le QED. Une revue complète des algorithmes de bandits-manchots a été réalisée afin d’identifier les plus adaptés à ce contexte. Différents algorithmes classiques et avancés ont ainsi été combinés dans une stratégie adaptative, sélectionnant dynamiquement le plus pertinent selon le contexte et les objectifs. Les impacts de plusieurs politiques de sélection, notamment inspirées des méta-bandits, ont été étudiés. Des expériences sur des jeux de données bien connus ont permis de mettre en évidence la robustesse, la flexibilité et les bénéfices de cette approche face à l’usage d’un bandit-manchot unique.
  4. Apprentissage automatique pour la génération et l’exploration : Adaptation et contextualisation pour données complexes (N. Gutowski). 2025. Habilitation à Diriger des Recherches. Lire le mémoire d'HDR ou visionner la soutenance
    Les travaux de recherche présentés dans ce mémoire se concentrent sur l'apprentissage automatique, avec une attention particulière portée sur l'adaptation et la contextualisation pour données complexes. La première partie traite de l'optimisation multicritère, avec une application des algorithmes de bandits-manchots aux systèmes de recommandation, et de méthodes évolutionnaires à la sélection d'attributs médicaux. La seconde partie se concentre sur les méthodes d'apprentissage profond : 1) pour l'estimation de paramètres ou d'état dans des systèmes dynamiques non linéaires ; 2) pour la génération appliquée à la musique symbolique. Enfin, la troisième partie présente les perspectives de recherche, notamment autour du projet G-GENOCOD qui tire parti des compétences développées dans les travaux précédents pour la génération de nouveaux composés moléculaires.
  5. Traitement et raisonnement sur données complexes pour la classification ou la génération en chimie moléculaire (J. Sanna). 08/2025. Mémoire de stage de Master 2 Recherche. ResearchGate
    Ce travail introduit une approche de reconstruction et génération de molécules fondée sur des descripteurs atomiques locaux réversibles, conçus pour conserver suffisamment d’information structurelle (type/valence, contraintes sur les liaisons simples/doubles/triples, informations de cycles, etc.) afin de régénérer le graphe moléculaire. À partir de ces descripteurs, une distance inter-molécules est proposée via un appariement atome-à-atome, déclinée en une version exacte formulée en contraintes et une version « minimum local » plus rapide. Les poids associés aux composantes de la distance sont ajustés pour se rapprocher de la Graph Edit Distance, atteignant une corrélation de Spearman d’environ 0,8 pour un coût de calcul nettement inférieur.
    Pour la reconstruction exhaustive, plusieurs stratégies sont évaluées : programmation par contraintes (MiniZinc), branch-and-cut par indices, branch-and-cut par regroupement d’atomes en profils (hash), et une méthode « dual » combinant guidage par hash et validation par indices, offrant le meilleur compromis précision/temps. En complément, une approche heuristique basée sur un algorithme évolutionnaire (mutations sur liaisons) guidé par la distance proposée et une liste « Tabou » permet d’obtenir des solutions approchées lorsque les méthodes exactes échouent.
    Les expériences, menées principalement sur 300 molécules Evo10 (≤ 10 atomes lourds), montrent que la variante branch-and-cut dual est la plus performante parmi les méthodes exactes (faible taux d’erreurs, temps réduits), tandis que l’algorithme évolutionnaire se révèle plus flexible et compétitif face à EvoMol en nombre d’évaluations de la fonction objectif. Enfin, la distance « minimum local » apparaît particulièrement rapide tout en restant chimiquement cohérente pour guider la recherche. Les limites concernent surtout le passage à l’échelle (molécules plus grandes, multi-cycles) et la gestion des symétries ; les perspectives incluent de meilleurs élagages et heuristiques, des stratégies de type UCB, l’extension des descripteurs et une optimisation plus poussée des poids.
  6. A Transformer Model for Predicting Chemical Products from Generic SMARTS Templates with Data Augmentation. (D. Özer, S. Lamprier, T. Cauchy, B. Da Mota, N. Gutowski). 11/2025. Proceeding of IEEE International Conference on Tools with Artificial Intelligence (ICTAI). Athens, Greece.
    Ce travail porte sur la prédiction des produits de réactions chimiques, un domaine complexe en chimie computationnelle. Les modèles actuels présentent deux approches principales, chacune ayant ses limites : les modèles basés sur des templates spécifiques, qui manquent de flexibilité et ne peuvent pas bien généraliser à des réactions nouvelles ou peu communes, et les méthodes sans template (template-free), qui sont plus flexibles mais souvent moins précises et plus difficiles à contrôler. Pour surmonter ces faiblesses, ce travail introduit le Broad Reaction Set (BRS), un nouveau jeu de données comprenant 20 templates de réaction générique qui permet une exploration plus étendue et efficace de l'espace chimique. En complément, ProPreT5, un modèle T5 spécialement adapté à la chimie, est proposé comme une solution équilibrée, combinant les avantages des approches basées sur des templates et des méthodes sans. ProPreT5 prouve sa capacité à générer des produits de réaction non seulement précis et valides, mais aussi réalistes, offrant ainsi une solution capable de rivaliser avec l'état de l'art actuel dans la prédiction des produits de réactions chimiques.
  7. Guiding Evolutionary Molecular Design: Adding Reinforcement Learning for Mutation Selection. (G. Milon-Harnois, C. Touhami, N. Gutowski, B. Da Mota, T. Cauchy). 03-05/11/2025. Proceeding of IEEE International Conference on Tools with Artificial Intelligence (ICTAI). Athens, Greece. ArXiv
    Ce travail s’inscrit dans la problématique de l’exploration de l’espace chimique pour la génération moléculaire. Aujourd’hui, de nombreux modèles génératifs continuent de produire des composés irréalistes ou difficilement synthétisables. En reposant sur l’algorithme évolutionnaire EvoMol, nous surmontons déjà ces limitations via un mécanisme de filtrage. Pour s’émanciper de ce mécanisme, nous proposons dans cet article EvoMol-RL, une extension d’EvoMol, intégrant un mécanisme d’apprentissage par renforcement pour guider les actions de mutations moléculaires en fonction du contexte structural local afin d’apprendre à générer des molécules réalistes sans besoin de filtrage.
    En nous appuyant sur les Extended Connectivity Fingerprints (ECFP), nous permettons à EvoMol d’apprendre des politiques de mutation selon le contexte moléculaire, favorisant des transformations chimiquement plausibles. Cette approche améliore significativement la génération de molécules valides et réalistes.
    Nos résultats montrent qu’EvoMol-RL surpasse systématiquement la version de base d’EvoMol en termes de réalisme moléculaire avant filtrage. Ces observations soulignent l’efficacité de la combinaison entre apprentissage par renforcement et ECFP pour la génération de structures chimiques réalistes.
  8. Rethinking NLP for Chemistry: A Critical Look at the USPTO Benchmark. (D. Özer, N. Gutowski, B. Da Mota, T. Cauchy, S. Lamprier). 04-09/11/2025. Conference on Empirical Methods in Natural Language Processing (EMNLP). Suzhou, China. ACL Anthology
    Ce travail porte sur l’application des méthodes de traitement automatique du langage (NLP) à la planification assistée par ordinateur de la synthèse chimique (Computer-Aided Synthesis Planning, CASP). Les récents progrès du NLP ont permis de reformuler la prédiction de synthèse chimique comme un problème de modélisation séquence-à-séquence appliqué à des représentations textuelles de molécules, telles que les chaînes SMILES. Cette approche rend possible l’utilisation directe de modèles de langage dans le domaine de la chimie et a conduit à de bonnes performances sur le jeu de données USPTO, un vaste corpus de réactions extraites de brevets américains.
    Cependant, nous montrons que les données issues de ces brevets présentent un biais industriel significatif et une couverture incomplète du champ réactionnel. De nombreuses transformations fondamentales, pourtant cruciales pour la synthèse chimique réelle, y sont absentes. En conséquence, nous observons que les modèles entraînés exclusivement sur le jeu de données USPTO obtiennent d’excellents scores sur les benchmarks standards, mais échouent sur des réactions simples et pourtant « pharmaceutiquement » pertinentes.
    Ces résultats mettent en évidence un problème plus général : l’application de pipelines NLP standards à des domaines scientifiques spécialisés, sans repenser les données et les méthodes d’évaluation, conduit souvent à des modèles apprenant les artefacts du jeu de données plutôt que le raisonnement chimique sous-jacent. Nous soulignons ainsi la nécessité de développer des benchmarks chimiquement significatifs, d’accroître la diversité des jeux de données et de renforcer le dialogue entre la communauté NLP et les experts du domaine afin de garantir la pertinence et la transférabilité des modèles dans des contextes expérimentaux réels.

Communications

G-GENOCOD est présenté dans divers événements scientifiques et de vulgarisation :

  1. G-GENOCOD : L’Intelligence Artificielle au service de la découverte de molécules (N. Gutowski, D. Ozer, G. Milon-Harnois, B. Da Mota, T. Cauchy, S. Lamprier). 05/2025. EchoSciences Pays de la Loire. Lien vers l'article
    Cet article revient en détail sur le projet G-GENOCOD, depuis ses objectifs initiaux jusqu’aux résultats obtenus, en passant par les approches d’IA développées spécialement pour explorer l'espace moléculaire. Ce projet transdisciplinaire illustre comment l’IA peut accélérer et orienter la recherche en chimie, en identifiant plus rapidement des molécules d’intérêt pour la santé ou les matériaux.
  2. Vers une planification de synthèse explicable et généralisable : MCTS guidé par apprentissage sur des réactions génériques (D. Ozer, B. Da Mota, T. Cauchy, N. Gutowski, S. Lamprier). 05/2025. 7 ème symposium MADICS. Toulouse. Lien vers l'événement
    Les modèles actuels de prédiction de réactions chimiques et de chemins de synthèse sont fréquemment évalués sur des jeux de données comme USPTO, accessibles et gratuits, mais ne couvrant qu’une portion limitée de la diversité chimique réelle. Issus exclusivement de brevets américains, ces jeux favorisent certaines classes de réactions industrielles tout en négligeant de nombreuses transformations simples mais essentielles à la construction de véritables voies de synthèse. Par ailleurs, les modèles existants reposent soit sur l’apprentissage direct à partir de paires réactifs-produits, sans aucune information explicite sur la réaction, ce qui limite leur capacité de généralisation ; soit sur des règles réactionnelles très strictes, qui imposent une correspondance quasi unique entre réactifs et produits, restreignant fortement l’exploration de l’espace chimique. Pour répondre à ces limitations, nous proposons un ensemble de réactions génériques conçu pour capturer l’essentiel des transformations chimiques tout en autorisant une certaine flexibilité. Sur cette base, nous développons une approche de planification de synthèse reposant sur un algorithme de Monte Carlo Tree Search (MCTS). Chaque chemin dans l’arbre représente une séquence plausible de réactions, et l’exploration est guidée par un modèle Transformer entraîné en auto-supervision pour prédire une distance d’édition de graphe en fonction de nos réactions entre l’état courant et la molécule cible. Cette estimation agit comme heuristique pour orienter efficacement la recherche. Cette approche hybride, combinant raisonnement symbolique et apprentissage automatique, constitue une piste prometteuse vers une planification de synthèse plus robuste, généralisable et explicable.
  3. Une IA réaliste ? (Gaëlle Milon-Harnois). 05/2025. Pint of Science Angers. Lien vers l'événement
    En chimie, créer des molécules spécifiques véritablement nouvelles est rare et complexe. C’est pourquoi à travers le monde des chercheurs développent des applications d’Intelligence Artificielle (IA) capables de générer des molécules. Or ces molécules ne sont pas toujours réalistes. Le projet G-GENOCOD propose ainsi de nouvelles méthodes d’IA pour générer des molécules et séquencer les réactions afin de les rendre synthétisables, tout comme le ferait un chimiste pour améliorer une propriété.
  4. Séminaire SFR MathSTIC - Université d'Angers : Bio & Chem informatics in the era of Machine & Deep Learning. Lien vers l'événement
    a) AI and molecular chemistry: challenges and perspectives, par Benoit Da Mota (MCF, co-responsable scientifique du projet G-GENOCOD);
    b) Prediction of chemical synthesis routes using LLMs par Derin Ozer (Doctorante co-encadrée par Sylvain Lamprier, Benoit Da Mota et Nicolas Gutowski).
  5. Intervention à la Nuit angevine des chercheurs intitulée : « De la chimie à l'intelligence artificielle : inventer les molécules de demain » (Thomas Cauchy). Lien vers l'événement NEDC
  6. Interventions deux après-midi à la Fête de la science sous forme d’un atelier de vulgarisation de génération de molécules permettant de comprendre nos générateurs développés dans le projet G-GENOCOD (Thomas Cauchy).
  7. EvoMol: De novo generation of realistic molecules with an evolutionary algorithm (Benoit Da Mota). Lien vers l'événement SFCI 2025
  8. Toward More Generalizable Reaction Prediction: From USPTO Bias to SMARTS-Based Reasoning (Derin Ozer). Lien vers l'événement SFCI 2025