La découverte de nouvelles molécules, qui sont dotées de spécifications biochimiques bien particulières, représente toujours un processus très laborieux et coûteux dans la R&D pharmaceutique. En effet, cette découverte est traditionnellement menée par un tâtonnement au cas par cas sur un nombre astronomique de molécules candidates dont l’objectif est de trouver, ou mieux identifier, une molécule qui maximise un grand nombre de critères de natures très diverses. Même en s’appuyant sur des logiciels de simulation complexes, la démarche demeure incertaine, étant donné que, d’une part, la stabilité physico-chimique des molécules prédites numériquement n’est pas toujours assurée, et que, d’autre part, les structures moléculaires générées sont souvent difficiles à développer et à mettre en œuvre. Dans ce contexte, l’Intelligence Artificielle (IA) permet d’optimiser ce problème multiparamétrique dont les contraintes sont abordées simultanément et, par la suite, de mettre au point des modèles holistiques à forte valeur ajoutée qui ont le potentiel de générer des nouvelles molécules pratiques et rentables.

Notre projet intitulé « L’IA pour la génération contrôlée de nouvelles molécules » s’inscrit dans cette perspective de creuser les apports possibles de l’IA dans la R&D pharmaceutique. Pour y parvenir, nous avons développé un nouveau modèle de réseau neuronal récurrent contrôlé, basé sur une architecture multicouche de cellules « Long Short-Term Memory (LSTM) », pour générer des molécules présentant des propriétés pharmacologiques et physico-chimiques particulières (activité sur une protéine, solubilité, toxicité, etc.) et qui peuvent être, par exemple, utiles pour le traitement du cancer. En l’occurrence, nous avons généré des molécules actives sur les cibles suivantes :

  • BRAF, gène responsable de la production de la protéine B-Raf sérine/thréonine kinase B-Raf impliquée dans l’envoi des signaux qui déterminent la croissance des cellules,
  • ITK, gène responsable de la production de la protéine Tyrosine-protéine kinase ITK/TSK soupçonnée de jouer un rôle important dans la prolifération et la différentiation de lymphocytes T,
  • mTOR, enzyme de la famille des sérine/thréonine kinases qui régule la prolifération cellulaire, la croissance, la mobilité et la survie cellulaire ainsi que la biosynthèse des protéines et la transcription.

Le modèle proposé, que nous appelons « Multiplicative Conditionned LSTM-based RNN », est capable de générer de nouvelles molécules qui n’avaient jamais été observées auparavant et qui présentent une diversité proche de celle des molécules qui ont servi à l’apprentissage du modèle, tout en contrôlant leurs propriétés et les caractères actifs ou non sur chaque cible, malgré le nombre limité de données d’apprentissage disponibles.

Les algorithmes utilisés dans le cadre de ce projet sont : (1) un réseau de neurones récurrents (en anglais « Recurrent Neural Network RNN ») profond avec une cellule d’architecture « Long Short-Term Memory », (2) « Semantically Conditionned LSTM-based RNN » et (3) « Multiplicative Conditionned LSTM-based RNN », le nouveau modèle que nous proposons.

Exemple de nouvelles molécules générées présentant une activité sur le gène BRAF ; Ces représentations graphiques, dites formules topologiques, montrent la structure de chaque molécule et indiquent le nombre et le type d’atomes qui la composent, ses liaisons interatomiques et sa forme dans l’espace.