Livre blanc :
Analyse computationnelle de la planification synthétique : Passé et futur

Adapté de
Wang, Z., Zhang, W. et Liu, B. (2021), Computational Analysis of Synthetic Planning : Past and Future. Chin. J. Chem. 39 : 3127-3143. https://doi.org/10.1002/cjoc.202100273
Publié avec l'aimable autorisation de Wiley.
La planification de la synthèse assistée par ordinateur (CASP) peut jouer un rôle important dans l'organisation et l'exploitation du flot de nouvelles réactions chimiques et de règles de réaction expertes pour la planification d'une synthèse nouvelle et hautement efficace de produits naturels et de candidats-médicaments. Cette étude décrit les progrès réalisés dans l'analyse computationnelle de la planification de la synthèse, depuis le stade initial axé sur les programmes basés sur des règles jusqu'à l'apprentissage automatique et leur capacité combinée.
Introduction
Les chimistes utilisent l'analyse rétrosynthétique pour concevoir une stratégie synthétique pour un composé cible. En bref, ils utilisent leur expérience de la rupture des liaisons chimiques dans le composé cible et les précurseurs ultérieurs d'une manière itérative.
Divers outils normalisés (par exemple, CML, SMILES, SMARTS, InChl et ECFP) traduisent les réactions chimiques et les molécules en informations lisibles par la machine. Des algorithmes plus avancés (par exemple, les réseaux neuronaux, l'apprentissage par renforcement) élargissent le traitement des données des réactions chimiques.
Cette étude couvre trois catégories de CASP. Deux catégories utilisent la déduction logique à partir des intuitions et des expériences des chimistes : Les algorithmes CASP basés sur des règles codées à la main ou sur des règles extraites automatiquement. La troisième catégorie de CASP utilise des bases de données de réactions chimiques pour la formation d'algorithmes d'apprentissage machine (ML).
Structure générale du système CASP
Un système CASP type comporte quatre modules. La base de données de modèles de réactions stocke des réactions connues avec des règles de rupture de liaison. Le module de rétrosynthèse aligne les réactions connues dans la base de données de modèles avec les structures des molécules d'entrée et fournit la correspondance la plus proche avec les précurseurs disponibles dans le commerce de manière itérative. Le guide d'arborescence et le module d'évaluation évaluent l'adéquation des précurseurs candidats aux Voies de synthèse. La base de données des composés disponibles dans le commerce sert de point d'arrêt au module de rétrosynthèse.
Règles codées à la main combinées à un algorithme logique
Les systèmes CASP représentatifs sont LHASA, SECS, IGOR, CHIRON et Chematica/ SynthiaTM. Les systèmes CASP LHASA et SECS comprenaient tous deux un module de communication : un bloc-notes interfacé permettait aux chimistes d'évaluer et de sélectionner la meilleure voie dans l'arbre de synthèse.
IGOR (Intermediate Generation of Organic Reactions) ne limite pas l'analyse rétrosynthétique à des règles heuristiques empiriques. IGOR inclut toutes les molécules participant à une réaction, nécessite de nombreux calculs et ne peut simuler que des transformations rétrosynthétiques simples.
CHIRON peut décoder une stéréochimie et une fonctionnalité complexes qu'il peut mettre en corrélation avec des précurseurs enrichis en stéréochimie disponibles dans le commerce. Il recherche des précurseurs dont les squelettes, les stéréocentres et les groupes fonctionnels sont étroitement liés à la molécule cible.
Chematica (désormais appelé SynthiaTM) a étendu le réseau de la chimie organique (NOC) à environ 10 millions de composés et a ajouté manuellement des informations de compatibilité et de contexte (par exemple, conditions canoniques, intolérance des groupes fonctionnels, régio- et stéréosélectivité de réactions spécifiques) à l'aide de la méthode de codage SMILES/SMART. Ses règles de réaction codées à la main sont passées à plus de 100 000 en 2021. Chematica/SynthiaTM intègre une fonction de recherche intelligente et des fonctions de notation chimique permettant d'obtenir des résultats globalement optimaux (par exemple, un précurseur chiral pour une synthèse asymétrique).
Chematica/SynthiaTM présente l'arbre de synthèse de manière dendritique : chaque nœud désigne la transformation rétrosynthétique et l'ensemble de substrats qui lui est associé (Fig. 1a). Chematica/SynthiaTM accélère le processus analytique grâce à une file d'attente prioritaire pour les nœuds les moins bien notés dans l'algorithme de recherche (Fig. 1b).
Chematica/SynthiaTM inclut diverses méthodes de mécanique quantique et d'apprentissage automatique pour optimiser l'algorithme de recherche, les fonctions de notation et les transformations stéréosélectives. Chematica/SynthiaTM a conçu des Voies de synthèse pour huit molécules apparentées à des médicaments et plusieurs produits naturels complexes. Leurs synthèses ont été réalisées expérimentalement. Le programme SynthiaTM a conçu une Voies de synthèse plus efficace pour l'OICR-9429 (Fig. 2). La littérature fait état d'un rendement de 1 % pour l'OICR-9429, alors que la voie de SynthiaTM permet d'obtenir un rendement de 60 %. De plus, la Voies de synthèse conçue par SynthiaTM a simplifié la purification de l'OICR-9429, qui est passée de quatre procédures chromatographiques à une recristallisation. Ainsi, Grzybowski et ses collègues démontrent clairement que Chematica/SynthiaTM peut résoudre des problèmes complexes en chimie de synthèse.
L'extraction manuelle des modèles de réaction peut élargir les informations contextuelles des réactions chimiques et améliorer les analyses rétrosynthétiques. Le choix entre l'extraction automatique et manuelle dépend de la cohérence de la description des variables et des applications souhaitées.

Règles extraites automatiquement combinées à un algorithme logique
L'auto-extraction quotidienne de nouvelles réactions chimiques et de nouveaux modèles permet de maintenir efficacement les bases de données, mais elle peut omettre des groupes fonctionnels et des atomes adjacents.
SYNCHEM2 permet des transformations synthétiques en amont et en aval avec un codage alternatif. RETROSYN résume le centre de réaction et établit une corrélation atomique entre les produits et les réactifs à l'aide d'un algorithme spécial de différence de graphes. RETROSYN recherche et trie le degré de correspondance avec une priorité élevée ou faible, mais ignore la stéréochimie.
KOSP (Kowledge-base-Oriented System for Planification de la synthèse) extrait automatiquement les modèles de réaction, y compris les groupes/atomes activateurs situés à moins de trois distances de liaison, pour alimenter la base de connaissances des réactions. La nouvelle version de KOSP permet l'analyse de la rétrosynthèse régio- et stéréosélective et les mises à jour ont permis de multiplier par 10 le contenu des réactions.
ChemPlanner, successeur d'ARChem, a conclu une coopération exclusive avec l'American Chemical Abstracts Service et Wiley pour SciFinder, une base de données très accessible de contenus réactionnels créés par des scientifiques. La nouvelle version de ChemPlanner permet l'analyse de rétrosynthèse régio- et stéréosélective.

ICSYNTH représente sa base de données de réactions sous forme de graphe. Les utilisateurs peuvent inclure des règles chimiques internes à partir de sa base de données de réactions confidentielle et adapter ICSYNTH à divers scénarios d'application en sélectionnant et en éditant des règles chimiques.
ASKCOS calcule la similarité des produits de réaction avec la molécule cible afin d'élaborer un plan de rétrosynthèse par étapes. Les modules d'ASKCOS comprennent la rétrosynthèse en une étape, la planification interactive du chemin, la construction d'arbres et la recommandation de contexte.
Règles extraites automatiquement combinées à un algorithme d'apprentissage automatique
Les algorithmes d'apprentissage automatique sont formés à l'aide de bases de données de réactions chimiques comprenant des réactifs. Les algorithmes d'apprentissage par renforcement interagissent en permanence avec l'environnement qui leur enseigne la stratégie optimale par le biais d'une approche pénalité-récompense.
Le programme Bishop combine l'analyse rétrosynthétique basée sur des règles et l'apprentissage par renforcement. Le Chemical Reaction Network compile les intermédiaires, relie les réactifs et les produits, et dispose d'un module d'apprentissage par renforcement pour cartographier une ou plusieurs voies de réaction optimales, définies de manière flexible, avec des filtres potentiels pour le coût, l'efficacité globale et/ou l'impact sur l'environnement.
3N-MCTS (Monte Carlo Tree Search algorithm) utilise les réseaux neuronaux artificiels formés par des séquences numériques de produits et de précurseurs pertinents provenant de la littérature. Le système CASP basé sur l'ANN réorganise les règles de réaction spécifiques apprises, ce qui simplifie le processus de calcul. Chaque cycle des SCTM comprend la sélection, l'expansion, le déploiement et la mise à jour. Des améliorations sont nécessaires pour prédire les stéréosélectivités.
Le modèle Seq2Seq avec le système de traduction SMILES (Simplified Molecular Input Line-Entry System)
peut traiter un ensemble massif de données et simuler une réaction avec un résultat optimal global. AutoSynRoute évalue les voies synthétiques en appliquant l'algorithme MCTS avec des fonctions de notation heuristique inspirées de Chematica/SynthiaTM. RXN utilise deux modèles ML rétrosynthétiques entraînés par deux bases de données. RXN peut prédire les conditions de réaction appropriées pour la Voies de synthèse proposée.
Conclusions
Plusieurs programmes CASP appliquent des règles de réaction heuristiques et des règles de réaction tirées de la littérature dans leurs algorithmes de chimie rétrosynthétique avec ou sans fonctions de notation et ML (par exemple, Chematica/SynthiaTM). D'autres programmes CASP s'appuient sur ML ou sur la combinaison de ML avec des règles de réaction heuristiques et/ou des règles chimiques tirées de la littérature. Ces algorithmes ont déjà fourni de nouvelles Voies de synthèse qui ont amélioré le rendement de molécules compliquées. D'autres améliorations peuvent fournir de nouvelles Voies de synthèse pour des composés complexes avec des contraintes supplémentaires telles qu'un coût plus faible, une empreinte environnementale plus faible, et moins de réactifs ou de solvants dangereux.