Acceso a la API

El acceso API (interfaz de programación de aplicaciones) está disponible para organizaciones que deseen interconectar otras herramientas de Cheminformatics con SYNTHIA™ para una experiencia personalizada.

Beneficios incluidos:

  • Acceda a la API de retrosíntesis completa o Puntaje de accesibilidad sintética (SAS)
  • Vea los datos uno al lado del otro para mejorar los conocimientos sobre la selección de moléculas
  • Cree visualizaciones robustas usando múltiples fuentes de datos
  • Informar sobre la selección de moléculas aguas arriba del paso de síntesis
  • Analice miles de rutas en minutos con la API de SAS

Comunícate con nosotros para obtener más información

Vaya más allá de la literatura con SYNTHIA API

Aproveche el poder de la puntuación de accesibilidad sintética (SAS)

La capacidad de diferenciar entre moléculas 'fáciles de fabricar' y 'difíciles de fabricar' es una tarea difícil, pero muy útil, por ejemplo, para priorizar compuestos en procesos de cribado virtuales. Al combinar el modelo moderno de aprendizaje profundo y los datos recopilados con nuestro renombrado software de planificación retrosintético, ofrecemos Puntuación de accesibilidad sintética (SAS) SYNTHIA™ servicio, una herramienta aplicable a alto rendimiento in silico procesamiento de compuestos.

En la actualidad, la química combinatoria y el modelado generativo se utilizan para construir conjuntos de datos de compuestos gigantes [1]. Sin embargo, la síntesis real de muchas moléculas obtenidas con dichos métodos puede ser un desafío. Para abordar este problema, se utilizan medidas de accesibilidad sintética para determinar la viabilidad de la molécula lo antes posible en la tubería de descubrimiento de fármacos.

El servicio SYNTHIA™ SAS API proporciona las predicciones de tal "complejidad molecular" en términos de número de pasos sintéticos a partir de pequeños bloques de construcción disponibles comercialmente. El modelo de aprendizaje automático que sustenta SAS se entrenó previamente en escenarios sintéticos obtenidos con algoritmos de la herramienta de planificación retrosintética SYNTHIA™ [2], [3], [4]. Finalmente, nuestro producto alojado en la nube y con certificación ISO-27001 ofrece la capacidad de procesar fácilmente millones de moléculas por día y hasta mil moléculas en una sola consulta, lo que permite que la predicción del servicio SYNTHIA™ SAS se use más comúnmente en el proceso de diseño de fármacos.

Entrada/salida para modelo SAS

Las moléculas de entrada deben proporcionarse en el formato de texto SMILES ampliamente utilizado [5] y el punto final de API admite solicitudes por lotes. Las SONRISAS de entrada consisten en una sola molécula de fragmento.

La medida devuelta, aquí definida como Puntuación de accesibilidad sintética (SAS), es un número flotante único del rango 0-10, asignado para cada molécula de entrada correspondiente. La puntuación devuelta se aproxima a la cantidad de pasos necesarios para sintetizar la molécula utilizando bloques de construcción disponibles comercialmente. Los números más bajos (valores cercanos a 0) se devuelven a los productos químicos que se predice que serán fáciles de fabricar (o que incluso pueden estar disponibles comercialmente). Los números más altos se devuelven cuando el modelo pronostica más pasos sintéticos para obtener el compuesto solicitado. Para puntuaciones cercanas al valor máximo (10), se predice que la síntesis será extremadamente compleja (muchos pasos de reacción) o incluso inviable, por ejemplo, debido a motivos estructurales exóticos en la molécula. En general, cuanto menor sea la puntuación, más fácil debería ser sintetizar la molécula.

En el caso de que algunas de las moléculas solicitadas no sean válidas (p. ej., hipervalentes, anillos incompletos, protonación incorrecta de átomos aromáticos, fragmentos múltiples), la solicitud aún se procesará. Los puntajes para dichas entradas serán nulos y los comentarios apropiados se devolverán junto con la estructura de respuesta.

Características del modelo predictivo

SYNTHIA™ SAS v1.0 se basa en un regresor que incluye una red neuronal convolucional gráfica (GCNN). Tal arquitectura permite aprender una representación interna de cada molécula operando en su estructura gráfica en lugar de descriptores moleculares precalculados [6]. En particular, el modelo consiste en una red neuronal de paso de mensajes dirigidos a nivel de enlace (D-MPNN) seguida de una red neuronal de avance (FNN). La implementación se adaptó del proyecto de código abierto Chemprop [7].

El modelo de aprendizaje automático se entrenó utilizando los resultados del módulo de retrosíntesis automática SYNTHIA™ como valor objetivo. Se utilizó la puntuación SYNTHIA™ especializada y normalizada para reflejar la cantidad de pasos, por ejemplo, no penalizar las reacciones no selectivas, la estrategia de protección implícita, la contribución mínima del precio a la puntuación y solo se usaron pequeños bloques de construcción como configuración de búsqueda de SYNTHIA™. Además, se aplicó una función de suavizado para mejorar el gradiente de construcción para puntajes altos, con el objetivo de lograr una mejor resolución de moléculas difíciles de sintetizar (ver también la Fig. 1).

función de suavizado aplicada a las puntuaciones de synthia sas

Figura 1 y XNUMX. Representación de la función de suavizado aplicada a las partituras. Tenga en cuenta que en valores pequeños y moderados (eje x), la puntuación de accesibilidad sintética (eje y) se comporta de forma casi lineal. En otras palabras, la puntuación devuelta corresponde al número de pasos sintéticos previstos por el modelo. Para un mayor número de pasos de síntesis predichos (alrededor de 10 o más), la puntuación relacionada se suaviza de modo que el valor devuelto aún esté cerca (y no sea mayor que) 10. Esto permite volver a escalar todos los casos considerados a [0, 10] intervalo.

Los datos utilizados para el entrenamiento de modelos de aprendizaje automático tienen 33306 moléculas en total. Se compone de moléculas conocidas (base de datos ChEMBL) [8] y moléculas pequeñas generadas combinatoriamente (GDB) [9]. La composición de los datos antes de la división de entrenamiento/prueba:

  • Subconjunto GDB: 16081, que incluye:
    • compuestos con 1-7 átomos pesados ​​(C, N, O, Cl, S): 7198
    • compuestos con 8-9 átomos pesados ​​(C, N, O): 8883
  • Subconjunto ChEMBL: 17225, que incluye:
    • Pequeños compuestos sintéticos seleccionados al azar: 15449
    • compuestos derivados de productos naturales seleccionados al azar: 1776

El entrenamiento y la evaluación del modelo de aprendizaje automático requerían dividir los datos en conjuntos de entrenamiento y prueba (se utilizó una división común de entrenamiento/prueba 80/20). Además, el conjunto de validación interna se extrajo usando una proporción de 9:1 del conjunto de entrenamiento y se usó para la optimización de los parámetros de la red.

La puntuación pronosticada (modelo SYNTHIA™ SAS) se correlaciona con el valor objetivo en función de las puntuaciones SYNTHIA™ con R2 = 0.726 y MAE = 1.1497. En la Fig. 2 se presenta un diagrama de dispersión con una línea ajustada y un diagrama de caja que muestra la densidad/distribución de los puntos de datos.

diagramas de dispersión y de caja que muestran las correlaciones de synthia frente al modelo

Figura 2. Diagrama de dispersión y caja que muestra la correlación entre las puntuaciones de SA calculadas con SYNTHIA™ frente a las puntuaciones aprendidas por el modelo.

Los resultados previstos con SYNTHIA™ SAS se basan en relaciones recuperadas de conjuntos de datos (posiblemente, bastante complejos y no fáciles de capturar). Esto debe tenerse en cuenta cuando se consultan nuevas moléculas a través de SYNTHIA™ SAS-API. Es decir, las puntuaciones de las moléculas que no están relacionadas con el conjunto de pruebas pueden quedar fuera del llamado dominio de aplicabilidad, por lo que los resultados correspondientes pueden no ser significativos. Esta es una limitación típica de los modelos basados ​​en datos, sin embargo, siempre es bueno recordar dicha limitación para evitar malas interpretaciones de las puntuaciones obtenidas.

Casos de estudio

Caso 1

El derivado N-acetil del sulfametoxazol (Fig. 3, izquierda) es un precursor directo de este fármaco (Fig. 3, derecha). A pesar de la estructura química más compleja, se reconoce que el derivado es más fácil de sintetizar (SAS=1.038 es mucho más pequeño que SAS=4.051).

Figura 3. Estructuras químicas de moléculas para el caso de uso de sulfametoxazol.

Caso 2

Por otro lado, el derivado N-Boc de la adrenalina (Fig. 4, izquierda) no es un precursor directo de la adrenalina (Fig. 4, derecha). En el procedimiento típico no hay necesidad de proteger el grupo amino a lo largo de la vía de síntesis. El derivado de N-Boc se reconoce correctamente como más complejo en términos de accesibilidad sintética (SAS = 8.399 es mayor que SAS = 7.631). Esto está en consonancia con el hecho de que la adrenalina es un precursor de su derivado N-Boc.

Figura 4. Estructuras químicas para el caso de uso de adrenalina.

Flujo de datos de usuario

SYNTHIA™ SAS es un servicio alojado en la nube, disponible para cada cliente a través de la API RESTful. Es escalable horizontalmente y proporciona un alto rendimiento a través de un único punto de entrada de API para todos los clientes. El usuario final debe proporcionar una lista de moléculas en formato SMILES y SYNTHIA™ SAS devuelve una puntuación para cada una de ellas (Fig. 5). El servicio no tiene estado y está diseñado para escalar según la demanda.

Figura 5. Representación esquemática del flujo de datos del servicio SYNTHIA™ SAS.

Referencias

  1.  Joshua Meyers, Benedek Fabian, Nathan Brown, Diseño molecular de novo y modelos generativos, Descubrimiento de fármacos hoy262021, 2707-2715. DOI
  2. Software de retrosíntesis SYNTHIA™
  3. Tomasz Klucznik, et al., Síntesis eficientes de diversos objetivos médicamente relevantes planificados por computadora y ejecutados en el laboratorio, Chem4,  2018, 522-532. DOI
  4. Mikulak-Klucznik, B., et al. Planificación computacional de la síntesis de productos naturales complejos, Naturaleza, 5882020, 83-88. DOI
  5. Sistemas de información química de luz diurna, Inc. 
  6. Yang, K., et al. Análisis de representaciones moleculares aprendidas para la predicción de propiedades, Revista de información y modelado químico.592019, 3370-3388. DOI
  7. Proyecto de código abierto Chemprop
  8. base de datos CHEMBL
  9. base de datos del BGF