Libro blanco:

La sinergia entre enfoques expertos y de aprendizaje automático permite mejorar la planificación retrosintética

Adaptado de
T.Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew. Chem. Int. Ed. 2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083
Publicado por cortesía de Wiley.

Grzybowski y sus colegas demuestran que se puede conseguir una mayor precisión sintética en los planes sintéticos multipaso diseñados por ordenador cuando se utiliza un software de Inteligencia artificial (IA) que combina tanto el conocimiento experto como la información extraída por máquina de grandes repositorios de tipos de reacciones.

Introducción

Las plataformas de Inteligencia artificial (IA) para planes sintéticos diseñados por ordenador buscan materiales precursores disponibles en el mercado, evalúan pasos sintéticos individuales y valoran las amplias posibilidades sintéticas a partir de sus recursos y materiales de entrenamiento. Los componentes integrales de la IA son las funciones de puntuación (FS) que guían el desarrollo de los planes. Históricamente, la IA ha desarrollado planes de síntesis química basados en los conocimientos de síntesis de expertos o en vías de síntesis recogidas en la bibliografía, como los repositorios químicos. Sin embargo, cada conjunto de datos presenta ventajas y limitaciones.

Aunque el conocimiento sintético experto y heurístico suele reflejar los planes químicos exitosos de la intuición de los químicos, las preferencias de éstos incluyen desconexiones centrales, números reducidos de anillos y estereocentros, y a menudo múltiples pasos de enmascaramiento y desenmascaramiento de grupos reactivos pertinentes.

En comparación, las funciones de aprendizaje automático basadas en la bibliografía se centran en tipos de reacción populares con suficientes referencias, y la IA utiliza algoritmos de redes neuronales (NN) para identificar uno o varios planes sintéticos. Los SF de las NN recopilan información sobre reacciones y productos finales de una base de datos específica, como la USPTO (US Patent Trademark Office). El resultado de los SF proporciona la probabilidad de reacciones específicas (identificadores, ID), pero puede estar excesivamente sobrecargado de reacciones populares y pasar por alto reacciones más eficientes conocidas por los químicos.

Características de los materiales de entrenamiento de la IA para combinar el aprendizaje automático de expertos y la NN

La NN se entrena con datos de productos y sustratos análogos procedentes de ambas fuentes: reacciones de la bibliografía y reglas de reacción de alta calidad de expertos. Todos los análisis utilizaron aproximadamente 1,6 millones de reacciones notificadas para sintetizar aproximadamente 1,4 millones de productos únicos (desde sustancias químicas simples hasta productos naturales complejos). No se incluyeron las reacciones de protección y desprotección de ninguna de las dos fuentes para evitar su uso excesivo en los planes sintéticos. Grzybowski y sus colegas exigieron que cada reacción incluida en la bibliografía coincidiera con las reglas de reacción de un experto de al menos uno de los 75.000 procedimientos de Chematica. El resultado basado en SF puede incluir un plan sintético que incluya reglas de reacción alternativas de Chematica, que ahora se llama SynthiaTM y está disponible comercialmente.

Los análisis proporcionaron una media de aproximadamente 60 reacciones libres de conflictos y ajustadas al producto. En total, Grzybowski y sus colegas consideraron unos 85 millones de reacciones de alta calidad química y libres de conflictos en el desarrollo de planes sintéticos para 1,4 millones de productos. El conjunto de productos se dividió aleatoriamente en un 70% para la formación, un 10% para la validación y un 20% para las pruebas.

El programa de los autores (ICHO) tiene una función de puntuación basada en NN que contiene cuatro capas: tres capas ocultas que proporcionan posibles reacciones para producir el producto 1 (P1), P2 y P3, y una capa de salida (Fig. 1 panel izquierdo). El programa mejorado (ICHO+) aumentó la arquitectura NN ICHO con el siguiente conocimiento experto de reacciones químicamente intuitivas: número de anillos creados o destruidos, número de estereocentros instalados o eliminados, selectividad de la reacción, tamaños de los productos de descomposición (similares frente a muy dispares), etc. De este modo, el programa ICHO+ ajusta la frecuencia de reacciones específicas para un producto concreto en la bibliografía con sus frecuencias en los planes sintéticos de los expertos. Durante el entrenamiento de ICHO e ICHO+, el programa asigna mayores probabilidades para reacciones específicas obtenidas tanto en la literatura como en los planes sintéticos expertos. Por el contrario, el programa también ajusta la probabilidad a la baja para una regla química muy popular que rara vez se utiliza para la síntesis de un producto concreto, lo que sugiere que la reacción puede ser complicada, difícil de ejecutar o ineficiente.

Rendimiento de las plataformas de IA

La comparación directa de la arquitectura NN entre ICHO/ICHO+ y el programa basado en NN de Segler y Walker, denotado como SW, se ilustra en la Figura 1 [1,2]. La plataforma de IA SW y otras plataformas sintéticas de IA basadas en NN publicadas en 2019 aprenden sólo de reacciones en precedentes bibliográficos. La mayoría de los programas de IA, incluidos ICHO y SW, utilizan una popular función de activación de aprendizaje automático denominada unidad lineal exponencial (ELU). ELU acelera el entrenamiento y aumenta el rendimiento del programa. La eficiencia del programa combinado ICHO+ también se comparó con un esquema de puntuación heurística actualizado llamado originalmente SMILES que evalúa la simplicidad del plan de síntesis. El programa actualizado llamado SMALLER avanza desconexiones centrales que simulan la intuición sintética orgánica y la práctica de los químicos. Una ventaja de SMALLER es que la frecuencia de las reacciones en la literatura tiene una influencia mínima en la ruta final propuesta.

Dentro de los programas ICHO y SW, la inclusión del aprendizaje a partir de las reglas químicas expertas en heurística (ICHO+, SW+) sólo mejoró marginalmente la eficacia de los planes sintéticos. La limitación de los programas SW a las reacciones de ajuste del producto (SW2, SW2+) mejoró su rendimiento. Sin embargo, ICHO+ siguió siendo la vía mejor clasificada, probablemente debido a su conocimiento adicional de los sustratos.

El rendimiento de los tres tipos de programas se evaluó en el desarrollo de vías sintéticas que incluían tanto reacciones establecidas experimentalmente como vías sintéticas relativamente avanzadas. En la Figura 2 se comparan los planes de síntesis de cuatro productos complejos desarrollados por los programas ICHO+, SW2+ y SMALLER. ICHO+ ocupó el primer puesto en los planes sintéticos de los cuatro productos: el inhibidor BRD 7/9, el inhibidor de la recaptación de serotonina-norepinefrina (+)-sinosutina, el producto natural seimatopolida A y el análogo de prostaglandina bimatoprost.

Resumen

Grzybowski y sus colegas compararon sus funciones de puntuación ICHO+ basadas en NN que combinan la IA química con el conocimiento experto, incluidas las reglas de reacción, con otros programas de IA de puntuación basados en NN para el desarrollo de planes sintéticos de moléculas complejas. Sus ejemplos demuestran una gran ventaja de combinar la IA química con el conocimiento experto: la capacidad del programa para proponer reacciones sintéticamente potentes que aparecen escasamente en la literatura. Chematica se ha actualizado y ahora se llama SynthiaTM. Proporciona un software de retrosíntesis de IA que también puede utilizar un inventario o base de datos personalizada (por ejemplo, una base de datos interna de reacciones confidenciales) además de varias bases de datos disponibles públicamente.

Referencias

[1] Segler, M.H.S. et al. (2018). Planningchemical syntheses with deep neuralnetworks and symbolic AI (Planificación de síntesis químicas con redes neuronales profundas e IA simbólica). Nature. DOI:10.1038/nature25978.

[2] Segler, M.H.S. y Waller, M.P. (2017).Neural-Symbolic Machine Learning forRetrosynthesis and Reaction Prediction.Chemistry - A European Journal. DOI:10.1002/chem.201605499.