Accès API

API Access (Application Programming Interface) est disponible pour les organisations qui souhaitent interconnecter d'autres outils Cheminformatics avec SYNTHIA™ pour une expérience personnalisée.

Les avantages comprennent:

  • Accédez à la rétrosynthèse complète ou à l'API de score d'accessibilité synthétique (SAS)
  • Afficher les données côte à côte pour améliorer les informations sur la sélection des molécules
  • Créez des visualisations robustes à l'aide de plusieurs sources de données
  • Informer la sélection des molécules en amont de l'étape de synthèse
  • Analysez des milliers de parcours en quelques minutes avec l'API SAS

Contactez-nous pour en savoir plus

Allez au-delà de la littérature avec l'API SYNTHIA

Exploitez la puissance du score synthétique d'accessibilité (SAS)

La capacité de différencier les molécules « faciles à fabriquer » et « difficiles à fabriquer » est une tâche difficile, mais largement utile, par exemple, pour hiérarchiser les composés dans les pipelines de criblage virtuels. En combinant le modèle moderne d'apprentissage en profondeur et les données collectées avec notre célèbre logiciel de planification rétrosynthétique, nous offrons Score d'accessibilité synthétique SYNTHIA™ (SAS) service, un outil applicable au haut débit in silico traitement des composés.

À l'heure actuelle, la chimie combinatoire et la modélisation générative sont utilisées pour construire de gigantesques ensembles de données de composés [1]. Cependant, la synthèse réelle de nombreuses molécules obtenues avec de telles méthodes peut être difficile. Pour résoudre ce problème, des mesures d'accessibilité synthétique sont utilisées pour déterminer la faisabilité de la molécule le plus tôt possible dans le pipeline de découverte de médicaments.

Le service API SYNTHIA™ SAS fournit les prédictions d'une telle « complexité moléculaire » en termes de nombre d'étapes de synthèse à partir de petits blocs de construction disponibles dans le commerce. Le modèle d'apprentissage automatique qui sous-tend SAS a été pré-entraîné sur des scénarios synthétiques obtenus avec des algorithmes de SYNTHIA™ Retrosynthetic Planning Tool [2], [3], [4]. Enfin, notre produit hébergé dans le cloud et certifié ISO-27001 offre la possibilité de traiter facilement des millions de molécules par jour et jusqu'à un millier de molécules en une seule requête, permettant à la prédiction du service SYNTHIA™ SAS d'être plus couramment utilisée dans le processus de conception de médicaments.

Entrée/sortie pour modèle SAS

Les molécules d'entrée doivent être fournies dans le format de texte SMILES largement utilisé [5] et le point de terminaison de l'API prend en charge les requêtes par lots. Les SMILES d'entrée sont constitués d'une seule molécule de fragment.

La mesure renvoyée, définie ici comme score d'accessibilité synthétique (SAS), est un nombre flottant unique compris entre 0 et 10, attribué à chaque molécule d'entrée correspondante. Le score renvoyé se rapproche du nombre d'étapes nécessaires pour synthétiser la molécule à l'aide de blocs de construction disponibles dans le commerce. Les nombres les plus bas (valeurs proches de 0) sont renvoyés aux produits chimiques qui sont censés être faciles à fabriquer (ou même qui peuvent être disponibles dans le commerce). Les nombres les plus élevés sont renvoyés lorsque le modèle prévoit des étapes plus synthétiques pour obtenir le composé demandé. Pour les scores proches de la valeur maximale (10), la synthèse devrait être soit extrêmement complexe (nombreuses étapes de réaction), soit même irréalisable, par exemple en raison de motifs structuraux exotiques dans la molécule. En général, plus le score est bas, plus il devrait être facile de synthétiser la molécule.

Dans le cas où certaines des molécules demandées seraient invalides (par exemple, anneaux hypervalents, incomplets, protonation incorrecte des atomes aromatiques, multi-fragments), la demande sera quand même traitée. Les scores de ces entrées seront nuls et les commentaires appropriés seront renvoyés à côté de la structure de réponse.

Caractéristiques du modèle prédictif

SYNTHIA™ SAS v1.0 est basé sur un régresseur qui inclut un réseau de neurones à convolution de graphes (GCNN). Une telle architecture permet d'apprendre une représentation interne de chaque molécule en opérant sur sa structure de graphe plutôt que sur des descripteurs moléculaires pré-calculés [6]. En particulier, le modèle consiste en un réseau de neurones à transmission de messages dirigé au niveau de la liaison (D-MPNN) suivi d'un réseau de neurones à réaction (FNN). L'implémentation a été adaptée du projet open source Chemprop [7].

Le modèle d'apprentissage automatique a été formé en utilisant les résultats du module de rétrosynthèse automatique SYNTHIA™ comme valeur cible. Le score SYNTHIA™ spécialisé et normalisé a été utilisé pour refléter le nombre d'étapes, par exemple, ne pas pénaliser les réactions non sélectives, stratégie de protection implicite, contribution minimale du prix au score, et seuls de petits blocs de construction ont été utilisés comme paramètres de recherche SYNTHIA™. De plus, une fonction de lissage a été appliquée pour mieux construire le gradient pour les scores élevés, visant une meilleure résolution des molécules difficiles à synthétiser (voir également Fig. 1).

fonction de lissage appliquée aux partitions synthia sas

Figure 1. Représentation de la fonction de lissage appliquée aux scores. Notez que sur des valeurs petites et modérées (axe des x), le score d'accessibilité synthétique (axe des y) se comporte presque linéairement. En d'autres termes, le score renvoyé correspond au nombre d'étapes synthétiques prédites par le modèle. Pour un nombre plus élevé d'étapes de synthèse prévues (autour de 10 ou plus), le score associé est lissé de sorte que la valeur renvoyée soit toujours proche de (et non supérieure à) 10. Cela permet de redimensionner tous les cas considérés à [0, 10] intervalle.

Les données utilisées pour la formation des modèles d'apprentissage automatique comptent 33306 molécules au total. Il est composé de molécules connues (base de données ChEMBL) [8] et de petites molécules générées combinatoirement (GDB) [9]. La composition des données avant la séparation train/test :

  • Sous-ensemble GDB : 16081, comprenant :
    • composés avec 1-7 atomes lourds (C, N, O, Cl, S): 7198
    • composés à 8-9 atomes lourds (C, N, O) : 8883
  • Sous-ensemble ChEMBL : 17225, comprenant :
    • petits composés synthétiques sélectionnés au hasard: 15449
    • composés dérivés de produits naturels sélectionnés au hasard : 1776

La formation et l'évaluation du modèle d'apprentissage automatique ont nécessité de diviser les données en ensembles de formation et de test (une répartition commune 80/20 train/test a été utilisée). De plus, l'ensemble de validation interne a été extrait à l'aide d'un rapport 9: 1 de l'ensemble d'apprentissage et a été utilisé pour l'optimisation des paramètres du réseau.

Le score prédit (modèle SYNTHIA™ SAS) est en corrélation avec la valeur cible basée sur les scores SYNTHIA™ avec R2 = 0.726 et MAE = 1.1497. Un nuage de points avec une ligne ajustée et une boîte à moustaches montrant la densité/distribution des points de données sont présentés sur la Fig. 2.

diagrammes de dispersion et diagrammes en boîte montrant les corrélations de synthia par rapport au modèle

Figure 2. Nuage de points et boîte à moustaches montrant la corrélation entre les scores SA calculés avec SYNTHIA™ et les scores appris par le modèle.

Les résultats prédits avec SYNTHIA™ SAS sont basés sur des relations extraites d'ensembles de données (éventuellement assez complexes et pas simples à saisir). Ceci doit être pris en considération lorsque de nouvelles molécules sont interrogées via SYNTHIA™ SAS-API. À savoir, les scores des molécules qui ne sont pas liées à l'ensemble de tests peuvent ne pas appartenir au domaine dit d'applicabilité, de sorte que les résultats correspondants peuvent ne pas être significatifs. Il s'agit d'une limitation typique des modèles basés sur les données, néanmoins il est toujours bon de se souvenir d'une telle limitation pour éviter une mauvaise interprétation des scores obtenus.

Études de cas

Cas 1

Le dérivé N-acétylé du sulfaméthoxazole (Fig. 3, à gauche) est un précurseur direct de ce médicament (Fig. 3, à droite). Malgré la structure chimique plus complexe, le dérivé est reconnu comme plus facile à synthétiser (SAS = 1.038 est beaucoup plus petit que SAS = 4.051).

Figure 3. Structures chimiques des molécules pour le cas d'utilisation du sulfaméthoxazole.

Cas 2

D'autre part, le dérivé N-Boc de l'adrénaline (Fig. 4, à gauche) n'est pas un précurseur direct de l'adrénaline (Fig. 4, à droite). Dans une procédure typique, il n'est pas nécessaire de protéger le groupe amino tout au long de la voie de synthèse. Le dérivé N-Boc est correctement reconnu comme plus complexe en termes d'accessibilité synthétique (SAS = 8.399 est supérieur à SAS = 7.631). Ceci est conforme au fait que l'adrénaline est un précurseur de son dérivé N-Boc.

Figure 4. Structures chimiques pour le cas d'utilisation de l'adrénaline.

Flux de données utilisateur

SYNTHIA™ SAS est un service hébergé dans le cloud, disponible pour chaque client via l'API RESTful. Il est évolutif horizontalement et offre un débit élevé via un point d'entrée API unique pour tous les clients. L'utilisateur final doit fournir une liste de molécules au format SMILES et SYNTHIA™ SAS renvoie un score pour chacune d'entre elles (Fig. 5). Le service est sans état et conçu pour évoluer en fonction de la demande.

Figure 5. Représentation schématique du flux de données du service SYNTHIA™ SAS.

Bibliographie

  1.  Joshua Meyers, Benedek Fabian, Nathan Brown, Conception moléculaire de novo et modèles génératifs, Découverte de médicaments aujourd'hui262021, 2707-2715. DOI
  2. Logiciel de rétrosynthèse SYNTHIA™
  3. Tomasz Klucznik, et al., des synthèses efficaces de cibles diverses et pertinentes sur le plan médical, planifiées par ordinateur et exécutées en laboratoire, Chem4,  2018, 522-532. DOI
  4. Mikulak-Klucznik, B., et al. Planification informatique de la synthèse de produits naturels complexes, Nature, 588202083-88. DOI
  5. Daylight Chemical Information Systems, Inc. 
  6. Yang, K., et al. Analyser les représentations moléculaires apprises pour la prédiction de propriété, Journal d'information chimique et de modélisation592019, 3370-3388. DOI
  7. Projet open source Chemprop
  8. Base de données ChEMBL
  9. Base de données GDB