Livre blanc :

La synergie entre les approches d'experts et d'apprentissage automatique permet d'améliorer la planification rétrosynthétique

Adapté de
T.Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew. Chem. Int. Ed. 2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083
Publié avec l'aimable autorisation de Wiley.

Grzybowski et ses collègues démontrent qu'une plus grande précision synthétique peut être obtenue dans les plans synthétiques multi-étapes conçus par ordinateur lorsqu'un logiciel d'intelligence artificielle (IA) qui combine à la fois des connaissances d'expert et des informations extraites par des machines à partir de vastes référentiels de types de réactions.

Introduction

Les plateformes d'intelligence artificielle (IA) pour les plans synthétiques conçus par ordinateur recherchent des matériaux précurseurs disponibles dans le commerce, évaluent des étapes synthétiques individuelles et évaluent les vastes possibilités synthétiques à partir de leur(s) ressource(s) et de leur matériel de formation. Les fonctions de notation (FS) qui guident l'élaboration des plans font partie intégrante de l'IA. Historiquement, l'IA a développé des plans de synthèse chimique basés sur les connaissances de synthèse des experts ou sur les Voies synthétiques rapportées dans la littérature comme les dépôts de données chimiques. Cependant, chaque ensemble de données présente des avantages et des limites.

Bien que les connaissances synthétiques heuristiques et expertes reflètent généralement les plans chimiques réussis de l'intuition des chimistes, les préférences des chimistes comprennent des déconnexions centrales, un nombre réduit d'anneaux et de stéréocentres, et souvent plusieurs étapes de masquage et de démasquage des groupes réactifs pertinents.

En comparaison, les fonctions d'apprentissage automatique basées sur la littérature se concentrent sur les types de réaction populaires avec suffisamment de références, et l'IA utilise des algorithmes de réseaux neuronaux (NN) pour identifier un ou plusieurs plans synthétiques. Les SF des NN compilent des informations sur les réactions et les produits finaux à partir d'une base de données spécifique telle que l'USPTO (US Patent Trademark Office). Les résultats des SF fournissent la probabilité de réactions spécifiques (identifiants, ID) mais peuvent être trop chargés en réactions populaires et manquer des réactions plus efficaces connues des chimistes.

Caractéristiques du matériel de formation à l'IA pour la combinaison de l'apprentissage automatique à partir d'experts et du NN

Le NN est entraîné sur des données analogues de produits et de substrats provenant des deux sources : réactions issues de la littérature et règles de réaction de haute qualité provenant d'experts. Toutes les analyses ont utilisé environ 1,6 million de réactions rapportées pour synthétiser environ 1,4 million de produits uniques (des produits chimiques simples aux produits naturels complexes). Les réactions de protection et de déprotection des deux sources n'ont pas été incluses afin d'éviter leur surutilisation dans les plans de synthèse. Grzybowski et ses collègues ont exigé que chaque réaction incluse dans la littérature corresponde à une ou plusieurs règles de réaction d'un expert provenant d'au moins une des 75 000 procédures de Chematica. Le résultat basé sur SF peut inclure un plan de synthèse impliquant des règles de réaction alternatives de Chematica, maintenant appelé SynthiaTM et disponible dans le commerce.

Les analyses ont fourni une moyenne d'environ 60 ré-actions sans conflit et adaptées au produit pour un produit. Au total, Grzybowski et ses collègues ont pris en compte environ 85 millions de réactions de haute qualité chimique et sans conflit dans l'élaboration de plans synthétiques pour 1,4 million de produits. L'ensemble des produits a été divisé aléatoirement en 70 % pour la formation, 10 % pour la validation et 20 % pour les tests.

Le programme des auteurs (ICHO) possède une fonction de notation basée sur un réseau national (NN) qui contient quatre couches : trois couches cachées qui fournissent des réactions possibles pour la production du Produit 1 (P1), P2 et P3, et une couche de sortie (Fig. 1, panneau de gauche). Le programme amélioré (ICHO+) a complété l'architecture NN ICHO par les connaissances d'expert suivantes sur les réactions chimiquement intuitives : nombre d'anneaux créés ou détruits, nombre de stéréocentres installés ou supprimés, sélectivité de la réaction, taille des produits de dégradation (similaires ou très disparates), etc. Le programme ICHO+ ajuste ainsi la fréquence des réactions spécifiques pour un produit particulier dans la littérature avec leurs fréquences dans les plans synthétiques des experts. Au cours de la formation ICHO et ICHO+, le programme attribue des probabilités plus importantes pour les réactions spécifiques obtenues à la fois dans la littérature et dans les plans synthétiques d'experts. En revanche, le programme ajuste également la probabilité à la baisse pour une règle de chimiste très populaire qui est rarement utilisée pour la synthèse d'un produit particulier, ce qui suggère que la réaction peut être délicate, difficile à exécuter ou inefficace.

Performances des plateformes d'IA

La comparaison directe de l'architecture NN entre ICHO/ICHO+ et le programme NN de Segler et Walker, appelé SW, est illustrée à la figure 1 [1,2]. La plateforme d'IA SW et les autres plateformes synthétiques d'IA basées sur les NN publiées en 2019 n'apprennent qu'à partir des réactions des précédents de la littérature. La plupart des programmes d'IA, y compris ICHO et SW, utilisent une fonction d'activation d'apprentissage automatique très répandue, appelée unité linéaire exponentielle (ULE). L'ELU accélère l'apprentissage et augmente les performances du programme. L'efficacité du programme combiné ICHO+ a également été comparée à un système de notation heuristique mis à jour, appelé à l'origine SMILES, qui évalue la simplicité du plan de synthèse. Le programme actualisé appelé SMALLER fait progresser les déconnexions centrales qui simulent l'intuition et la pratique des chimistes en matière de synthèse organique. L'un des avantages de SMALLER est que la fréquence des réactions dans la littérature n'a qu'une influence minime sur l'itinéraire final proposé.

Dans les programmes ICHO et SW, l'inclusion de l'apprentissage à partir des règles chimiques expertes de l'heuristique (ICHO+, SW+) n'a amélioré que marginalement l'Efficacité des plans de synthèse. La limitation des programmes SW aux réactions d'adaptation au produit (SW2, SW2+) a amélioré leurs performances. Cependant, ICHO+ est restée la voie la mieux classée, probablement en raison de sa connaissance supplémentaire des substrats.

Les performances des trois types de programmes ont été évaluées sur le développement de voies synthétiques impliquant à la fois des réactions établies expérimentalement et des voies synthétiques relativement avancées. Les plans de synthèse pour quatre produits complexes développés par les programmes ICHO+, SW2+ et SMALLER sont comparés dans la figure 2. ICHO+ s'est classé en tête pour les plans de synthèse des quatre produits : l'inhibiteur de BRD 7/9, l'inhibiteur de la recapture de la sérotonine et de la norépinéphrine (+)-synosutine, le produit naturel seimatopolide A et l'analogue de prostaglandine bimatoprost.

Résumé

Grzybowski et ses collègues ont comparé leurs fonctions de notation ICHO+ basées sur le NN, qui combinent l'IA chimique et les connaissances d'experts, y compris les règles de réaction, avec d'autres programmes d'IA de notation basés sur le NN pour l'élaboration de plans de synthèse de molécules complexes. Leurs exemples démontrent un avantage majeur de la combinaison de l'IA chimique et des connaissances d'experts : la capacité du programme à proposer des réactions synthétiquement puissantes qui ne sont répertoriées que de manière éparse dans la littérature. Chematica a été mis à jour et s'appelle désormais SynthiaTM. Il s'agit d'un logiciel de rétrosynthèse par IA qui peut également utiliser un inventaire ou une base de données personnalisée (par exemple, une base de données interne de réactions confidentielles) en plus de plusieurs bases de données accessibles au public.

Références

[1] Segler, M.H.S. et al. (2018). Planningchemical syntheses with deep neuralnetworks and symbolic AI (Planification de synthèses chimiques avec des réseaux neuronaux profonds et de l'IA symbolique). Nature. DOI:10.1038/nature25978.

[2] Segler, M.H.S. et Waller, M.P. (2017).Neural-Symbolic Machine Learning forRetrosynthesis and Reaction Prediction.Chemistry - A European Journal. DOI:10.1002/chem.201605499.