API-Zugriff

API-Zugriff (Application Programming Interface) ist für Organisationen verfügbar, die andere Cheminformatik-Tools mit SYNTHIA™ für ein individuelles Erlebnis verbinden möchten.

Vorteile:

  • Greifen Sie auf die vollständige Retrosynthese oder die SAS-API (Synthetic Accessibility Score) zu
  • Zeigen Sie Daten nebeneinander an, um die Einblicke in die Molekülauswahl zu verbessern
  • Erstellen Sie robuste Visualisierungen mit mehreren Datenquellen
  • Informieren Sie die Molekülauswahl vor dem Syntheseschritt
  • Analysieren Sie Tausende von Pfaden in Minuten mit der SAS-API

Kontaktieren Sie uns, um mehr zu erfahren

Gehen Sie mit der SYNTHIA API über die Literatur hinaus

Nutzen Sie die Leistungsfähigkeit des Synthetic Accessibility Score (SAS)

Die Fähigkeit, zwischen „einfach herzustellenden“ und „schwierig herzustellenden“ Molekülen zu unterscheiden, ist eine schwierige, aber sehr nützliche Aufgabe, z. B. für die Priorisierung von Verbindungen in virtuellen Screening-Pipelines. Durch die Kombination des modernen Deep-Learning-Modells und der mit unserer renommierten retrosynthetischen Planungssoftware gesammelten Daten liefern wir SYNTHIA™ Synthetic Accessibility Score (SAS) service, ein Tool für den Hochdurchsatz in-silico Verarbeitung von Verbindungen.

Gegenwärtig werden kombinatorische Chemie und generative Modellierung zur Erstellung gigantischer Datensätze von Verbindungen verwendet [1]. Die eigentliche Synthese vieler mit solchen Methoden erhaltener Moleküle kann jedoch eine Herausforderung darstellen. Um dieses Problem anzugehen, werden Maßnahmen zur synthetischen Zugänglichkeit verwendet, um die Machbarkeit von Molekülen so früh wie möglich in der Wirkstoffforschungspipeline zu bestimmen.

Der SYNTHIA™ SAS API-Dienst liefert die Vorhersagen für eine solche „molekulare Komplexität“ in Bezug auf die Anzahl der Syntheseschritte aus kleinen, im Handel erhältlichen Bausteinen. Das maschinelle Lernmodell, das SAS zugrunde liegt, wurde mit synthetischen Szenarien vortrainiert, die mit Algorithmen aus dem SYNTHIA™ Retrosynthetic Planning Tool [2], [3], [4] erhalten wurden. Schließlich bietet unser in der Cloud gehostetes und ISO-27001-zertifiziertes Produkt die Möglichkeit, Millionen von Molekülen täglich und bis zu tausend Moleküle in einer einzigen Abfrage problemlos zu verarbeiten, wodurch die SYNTHIA™ SAS-Dienstvorhersage häufiger im Arzneimittelentwicklungsprozess verwendet werden kann.

Eingang/Ausgang für SAS-Modell

Eingabemoleküle müssen im weit verbreiteten SMILES-Textformat [5] bereitgestellt werden, und der API-Endpunkt unterstützt Batch-Anfragen. Die eingegebenen SMILES bestehen aus einem einzelnen Fragmentmolekül.

Das zurückgegebene Maß, hier definiert als Synthetic Accessibility Score (SAS), ist eine einzelne Float-Zahl aus dem Bereich 0–10, die jedem entsprechenden Eingabemolekül zugewiesen wird. Die zurückgegebene Punktzahl gibt ungefähr an, wie viele Schritte erforderlich sind, um das Molekül mit handelsüblichen Bausteinen zu synthetisieren. Die niedrigsten Zahlen (Werte nahe 0) werden auf Chemikalien zurückgeführt, von denen angenommen wird, dass sie leicht herzustellen sind (oder sogar im Handel erhältlich sein können). Die höheren Zahlen werden zurückgegeben, wenn das Modell mehr Syntheseschritte prognostiziert, um die angeforderte Verbindung zu erhalten. Für Werte nahe dem Maximalwert (10) wird die Synthese entweder als extrem komplex (viele Reaktionsschritte) oder sogar als nicht durchführbar vorhergesagt, z. B. aufgrund exotischer Strukturmotive im Molekül. Im Allgemeinen gilt: Je niedriger die Punktzahl, desto einfacher sollte es sein, das Molekül zu synthetisieren.

Falls einige der angefragten Moleküle ungültig sind (z. B. hypervalente, unvollständige Ringe, unsachgemäße Protonierung von aromatischen Atomen, Multifragmentierung), wird die Anfrage dennoch bearbeitet. Die Punktzahlen für solche Einträge sind null und entsprechende Kommentare werden neben der Antwortstruktur zurückgegeben.

Prädiktive Modelleigenschaften

SYNTHIA™ SAS v1.0 basiert auf einem Regressor, der Graph Convolutional Neural Network (GCNN) enthält. Eine solche Architektur ermöglicht das Erlernen einer internen Darstellung jedes Moleküls, indem auf seiner Graphenstruktur statt auf vorberechneten molekularen Deskriptoren gearbeitet wird [6]. Insbesondere besteht das Modell aus einem neuralen Netzwerk mit gerichteter Nachrichtenweiterleitung (D-MPNN) auf Bindungsebene, gefolgt von einem neuronalen Feedforward-Netzwerk (FNN). Die Implementierung wurde vom Open-Source-Projekt Chemprop übernommen [7].

Das maschinelle Lernmodell wurde unter Verwendung der Ergebnisse des automatischen SYNTHIA™-Retrosynthesemoduls als Zielwert trainiert. Der spezialisierte und normalisierte SYNTHIA™-Score wurde verwendet, um die Anzahl der Schritte widerzuspiegeln, z. B. keine Bestrafung nichtselektiver Reaktionen, implizite Schutzstrategie, minimaler Preisbeitrag zum Score, und nur kleine Bausteine ​​wurden als SYNTHIA™-Sucheinstellungen verwendet. Zusätzlich wurde eine Glättungsfunktion angewendet, um den Gradienten für hohe Punktzahlen besser aufzubauen, was auf eine bessere Auflösung von schwer zu synthetisierenden Molekülen abzielt (siehe auch Abb. 1).

Glättungsfunktion, die auf Synthia-SAS-Scores angewendet wird

Figure 1. Darstellung der auf Partituren angewendeten Glättungsfunktion. Beachten Sie, dass sich der synthetische Zugänglichkeitswert (y-Achse) bei kleinen und mittleren Werten (x-Achse) nahezu linear verhält. Mit anderen Worten, die zurückgegebene Punktzahl entspricht der vom Modell vorhergesagten Anzahl von Syntheseschritten. Für eine höhere Anzahl von vorhergesagten Syntheseschritten (ungefähr 10 oder mehr) wird die zugehörige Punktzahl so geglättet, dass der zurückgegebene Wert immer noch nahe bei (und nicht größer als) 10 liegt. Dies ermöglicht die Neuskalierung aller berücksichtigten Fälle auf [0, 10] Intervall.

Die für das Training von Modellen für maschinelles Lernen verwendeten Daten umfassen insgesamt 33306 Moleküle. Es setzt sich aus bekannten Molekülen (ChEMBL-Datenbank) [8] und kombinatorisch generierten kleinen Molekülen (GDB) [9] zusammen. Die Zusammensetzung der Daten vor dem Zug/Test-Split:

  • GDB-Teilmenge: 16081, einschließlich:
    • Verbindungen mit 1-7 Schweratomen (C, N, O, Cl, S): 7198
    • Verbindungen mit 8-9 Schweratomen (C, N, O): 8883
  • ChEMBL-Untergruppe: 17225, einschließlich:
    • zufällig ausgewählte synthetische kleine Verbindungen: 15449
    • Zufällig ausgewählte, von Naturstoffen abgeleitete Verbindungen: 1776

Das Training und die Bewertung des maschinellen Lernmodells erforderten die Aufteilung der Daten in Trainings- und Testsätze (es wurde eine übliche 80/20-Zug/Test-Aufteilung verwendet). Außerdem wurde der interne Validierungssatz im Verhältnis 9:1 aus dem Trainingssatz extrahiert und zur Optimierung der Netzwerkparameter verwendet.

Der vorhergesagte Score (SYNTHIA™ SAS-Modell) korreliert mit dem Zielwert basierend auf den SYNTHIA™-Scores mit R2 = 0.726 und MAE = 1.1497. Streudiagramm mit Anpassungslinie und Boxplot, die die Dichte/Verteilung der Datenpunkte zeigen, sind in Abb. 2 dargestellt.

Scatter- und Boxplots, die Korrelationen von Synthia vs. Modell zeigen

Abbildung 2. Scatter- und Box-Plot, die die Korrelation zwischen den mit SYNTHIA™ berechneten SA-Scores und den vom Modell erlernten Scores zeigen.

Die mit SYNTHIA™ SAS vorhergesagten Ergebnisse basieren auf Beziehungen, die aus Datensätzen abgerufen werden (möglicherweise ziemlich komplex und nicht einfach zu erfassen). Dies sollte berücksichtigt werden, wenn neuartige Moleküle über die SYNTHIA™ SAS-API abgefragt werden. Werte für Moleküle, die sich nicht auf den Testsatz beziehen, können nämlich aus dem sogenannten Anwendbarkeitsbereich herausfallen, daher sind entsprechende Ergebnisse möglicherweise nicht aussagekräftig. Dies ist eine typische Einschränkung für datengesteuerte Modelle, dennoch ist es immer gut, sich an eine solche Einschränkung zu erinnern, um eine Fehlinterpretation der erhaltenen Werte zu vermeiden.

Fallstudien

Fall 1

Das N-Acetyl-Derivat von Sulfamethoxazol (Abb. 3, links) ist ein direkter Vorläufer dieses Arzneimittels (Abb. 3, rechts). Trotz der komplexeren chemischen Struktur wird das Derivat als einfacher zu synthetisieren erkannt (SAS = 1.038 ist viel kleiner als SAS = 4.051).

Abbildung 3. Chemische Strukturen von Molekülen für den Anwendungsfall Sulfamethoxazol.

Fall 2

Andererseits ist N-Boc-Derivat von Adrenalin (Abb. 4, links) kein direkter Vorläufer von Adrenalin (Abb. 4, rechts). Bei einem typischen Verfahren besteht keine Notwendigkeit, die Aminogruppe während des gesamten Syntheseweges zu schützen. Das N-Boc-Derivat wird korrekterweise als komplexer im Hinblick auf die synthetische Zugänglichkeit erkannt (SAS = 8.399 ist größer als SAS = 7.631). Dies steht im Einklang mit der Tatsache, dass Adrenalin ein Vorläufer seines N-Boc-Derivats ist.

Abbildung 4. Chemische Strukturen für den Anwendungsfall Adrenalin.

Benutzerdatenfluss

SYNTHIA™ SAS ist ein in der Cloud gehosteter Service, der jedem Kunden über die RESTful-API zur Verfügung steht. Es ist horizontal skalierbar und bietet einen hohen Durchsatz über einen einzigen API-Einstiegspunkt für alle Kunden. Der Endbenutzer muss eine Liste von Molekülen im SMILES-Format bereitstellen und SYNTHIA™ SAS gibt für jedes von ihnen eine Punktzahl zurück (Abb. 5). Der Dienst ist zustandslos und so konzipiert, dass er je nach Bedarf skaliert werden kann.

Abbildung 5. Schematische Darstellung des SYNTHIA™ SAS-Dienstdatenflusses.

Bibliographie

  1.  Joshua Meyers, Benedek Fabian, Nathan Brown, Molekulares De-novo-Design und generative Modelle, Arzneimittelforschung heute262021, 2707-2715. DOI
  2. SYNTHIA™ Retrosynthese-Software
  3. Tomasz Klucznik, et al., Effiziente Synthesen vielfältiger, medizinisch relevanter Targets, am Computer geplant und im Labor durchgeführt, Chem.4,  2018, 522-532. DOI
  4. Mikulak-Klucznik, B., et al. Computergestützte Planung der Synthese komplexer Naturstoffe, Natur, 588202083-88. DOI
  5. Daylight Chemical Information Systems, Inc. 
  6. Yang, K., et al. Analysieren erlernter molekularer Darstellungen für die Vorhersage von Eigenschaften, Zeitschrift für chemische Informationen und Modellierung592019, 3370-3388. DOI
  7. Open-Source-Projekt Chemprop
  8. ChEMBL-Datenbank
  9. GDB-Datenbank