White Paper:

Synergie zwischen Experten- und Machine-Learning-Ansätzen ermöglicht eine verbesserte retrosynthetische Planung

Angepasst von
T. Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew. Chem. Int. Ed. 2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083
Veröffentlicht mit freundlicher Genehmigung von Wiley.

Grzybowski und Kollegen zeigen, dass eine höhere Synthesegenauigkeit in computergestützten mehrstufigen Syntheseplänen erreicht werden kann, wenn Software mit Künstlicher Intelligenz (KI) sowohl Expertenwissen als auch maschinell gewonnene Informationen aus großen Beständen von Reaktionstypen kombiniert.

Einleitung

Plattformen mit Künstlicher Intelligenz (KI) für computergestützte Synthesepläne suchen nach kommerziell erhältlichen Vorläufermaterialien, bewerten einzelne Syntheseschritte und evaluieren die umfangreichen Synthesemöglichkeiten anhand ihrer Ressourcen und Trainingsmaterialien. Integraler Bestandteil der KI sind Bewertungsfunktionen (SF), die die Entwicklung der Pläne leiten. KI hat in der Vergangenheit chemische Synthesepläne auf der Grundlage von Expertenwissen über die Synthese oder auf der Grundlage von Synthesewegen entwickelt, die in der Literatur, z. B. in chemischen Repositories, beschrieben sind. Jeder Datensatz hat jedoch Vorteile und Einschränkungen.

Obwohl heuristisches, synthetisches Expertenwissen in der Regel die erfolgreichen chemischen Pläne der Intuition von Chemikern widerspiegelt, umfassen die Präferenzen von Chemikern zentrale Trennungen, eine reduzierte Anzahl von Ringen und Stereozentren und oft mehrere Schritte zur Maskierung und Demaskierung relevanter reaktiver Gruppen.

Im Vergleich dazu konzentrieren sich maschinelle Lernfunktionen, die auf der Literatur basieren, auf populäre Reaktionstypen mit ausreichenden Referenzen, und KI verwendet Algorithmen für neuronale Netze (NN), um einen oder mehrere Synthesepläne zu identifizieren. Die SFs der NNs stellen Informationen über Reaktionen und Endprodukte aus einer spezifischen Datenbank wie dem USPTO (US Patent Trademark Office) zusammen. Der Output der SFs liefert die Wahrscheinlichkeit bestimmter Reaktionen (Identifikatoren, IDs), kann aber mit populären Reaktionen überfrachtet sein und effizientere, den Chemikern bekannte Reaktionen übersehen.

Merkmale von KI-Trainingsmaterial für die Kombination von maschinellem Lernen von Experten und NN

Das NN wird auf analogen Produkt- und Substratdaten aus beiden Quellen trainiert: Reaktionen aus der Literatur und hochwertige Reaktionsregeln von Experten. Für alle Analysen wurden ca. 1,6 Millionen Reaktionen verwendet, die zur Synthese von ca. 1,4 Millionen einzigartigen Produkten (einfache Chemikalien bis hin zu komplexen Naturprodukten) gemeldet wurden. Schutz- und Entschützungsreaktionen aus beiden Quellen wurden nicht berücksichtigt, um ihre übermäßige Verwendung in den Syntheseplänen zu vermeiden. Grzybowski und Kollegen verlangten, dass jede in der Literatur enthaltene Reaktion mit der/den Reaktionsregel(n) eines Experten aus mindestens einer der 75000 Prozeduren von Chematica übereinstimmt. Die SF-basierte Ausgabe kann einen Syntheseplan mit alternativen Reaktionsregeln von Chematica enthalten, die jetzt SynthiaTM heißen und im Handel erhältlich sind.

Die Analysen lieferten durchschnittlich ca. 60 konfliktfreie, produktangepasste Re-Aktionen für ein Produkt. Insgesamt berücksichtigten Grzybowski und Kollegen bei der Entwicklung von Syntheseplänen für 1,4 Millionen Produkte ca. 85 Millionen Reaktionen, die von hoher chemischer Qualität und konfliktfrei waren. Der Produktsatz wurde nach dem Zufallsprinzip in 70 % für das Training, 10 % für die Validierung und 20 % für das Testen aufgeteilt.

Das Programm der Autoren (ICHO) verfügt über eine NN-basierte Bewertungsfunktion, die vier Schichten enthält: drei verborgene Schichten, die mögliche Reaktionen für die Herstellung von Produkt 1 (P1), P2 und P3 liefern, und eine Ausgabeschicht (Abb. 1, linkes Feld). Das erweiterte Programm (ICHO+) ergänzte die NN ICHO-Architektur mit folgendem Expertenwissen über chemisch intuitive Reaktionen: Anzahl der erzeugten oder zerstörten Ringe, Anzahl der eingebauten oder entfernten Stereozentren, Selektivität der Reaktion, Größe der Abbauprodukte (ähnlich oder sehr unterschiedlich) und mehr. Das Programm ICHO+ gleicht somit die Häufigkeit bestimmter Reaktionen für ein bestimmtes Produkt in der Literatur mit ihrer Häufigkeit in den Syntheseplänen der Experten ab. Während des Trainings von ICHO und ICHO+ weist das Programm den spezifischen Reaktionen, die sowohl in der Literatur als auch in den synthetischen Plänen der Experten vorkommen, größere Wahrscheinlichkeiten zu. Im Gegensatz dazu passt das Programm die Wahrscheinlichkeit für eine sehr populäre Chemieregel, die selten für die Synthese eines bestimmten Produkts verwendet wird, niedriger an, was darauf hindeutet, dass die Reaktion möglicherweise schwierig, schwierig auszuführen oder ineffizient ist.

Leistung von KI-Plattformen

Ein direkter Vergleich der NN-Architektur zwischen ICHO/ICHO+ und dem NN-basierten Programm von Segler und Walker, das als SW bezeichnet wird, ist in Abbildung 1 [1,2] dargestellt. Die KI-Plattform von SW und andere NN-basierte synthetische KI-Plattformen, die 2019 veröffentlicht wurden, lernen nur von den Reaktionen in der vorangegangenen Literatur. Die meisten KI-Programme, einschließlich ICHO und SW, verwenden eine beliebte Aktivierungsfunktion für maschinelles Lernen, die exponentielle lineare Einheit (ELU). ELU beschleunigt das Training und erhöht die Leistung des Programms. Die Effizienz des kombinierten ICHO+-Programms wurde auch mit einem aktualisierten heuristischen Bewertungsschema verglichen, das ursprünglich SMILES hieß und die Einfachheit des Syntheseplans bewertet. Das aktualisierte Programm mit dem Namen SMALLER fördert zentrale Trennungen, die die Intuition und Praxis von Chemikern in der organischen Synthese simulieren. Ein Vorteil von SMALLER ist, dass die Häufigkeit von Reaktionen in der Literatur nur einen minimalen Einfluss auf den letztendlich vorgeschlagenen Weg hat.

Bei den ICHO- und SW-Programmen verbesserte die Einbeziehung des Lernens aus den chemischen Regeln der Heuristik-Experten (ICHO+, SW+) die Effizienz der Synthesepläne nur geringfügig. Die Beschränkung der SW-Programme auf produktanpassende Reaktionen (SW2, SW2+) verbesserte ihre Leistung. ICHO+ blieb jedoch der am besten bewertete Syntheseweg, was wahrscheinlich auf das zusätzliche Wissen über die Substrate zurückzuführen ist.

Die Leistung der drei Programmtypen wurde anhand der Entwicklung von Synthesewegen bewertet, die sowohl experimentell etablierte Reaktionen als auch relativ fortgeschrittene Synthesewege umfassen. Die Synthesepläne für vier komplexe Produkte, die von den Programmen ICHO+, SW2+ und SMALLER entwickelt wurden, werden in Abbildung 2 verglichen. ICHO+ belegte den ersten Platz bei den Syntheseplänen für die vier Produkte: den BRD 7/9-Inhibitor, den Serotonin-Norepinephrin-Wiederaufnahme-Inhibitor (+)-Synosutin, das Naturprodukt Seimatopolide A und das Prostaglandin-Analogon Bimatoprost.

Zusammenfassung

Grzybowski und Kollegen verglichen ihre NN-basierten ICHO+ Scoring-Funktionen, die chemische KI mit Expertenwissen einschließlich Reaktionsregeln kombinieren, mit anderen NN-basierten Scoring-KI-Programmen zur Entwicklung von Syntheseplänen für komplexe Moleküle. Ihre Beispiele zeigen einen großen Vorteil der Kombination von chemischer KI mit Expertenwissen: die Fähigkeit des Programms, synthetisch mächtige Reaktionen vorzuschlagen, die in der Literatur nur spärlich aufgeführt sind. Chematica wurde aktualisiert und heißt jetzt SynthiaTM. Es bietet eine KI-Retrosynthese-Software, die zusätzlich zu mehreren öffentlich zugänglichen Datenbanken auch ein benutzerdefiniertes Inventar oder eine benutzerdefinierte Datenbank (z. B. eine firmeninterne Datenbank mit vertraulichen Reaktionen) nutzen kann.

Referenzen

[1] Segler, M.H.S. et al. (2018). Planningchemical syntheses with deep neuralnetworks and symbolic AI. Nature. DOI:10.1038/nature25978.

[2] Segler, M.H.S. and Waller, M.P. (2017).Neural-Symbolic Machine Learning forRetrosynthesis and Reaction Prediction.Chemistry - A European Journal. DOI:10.1002/chem.201605499.