Biała księga:
Synergia między podejściem eksperckim a uczeniem maszynowym pozwala na lepsze planowanie retro-syntetyczne

Zaadaptowano z
T.Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew. Chem. Int. Ed. 2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083
Opublikowano dzięki uprzejmości Wiley.
Grzybowski i współpracownicy pokazują, że wyższą dokładność syntezy można osiągnąć w projektowanych komputerowo wieloetapowych planach syntetycznych, gdy oprogramowanie sztucznej inteligencji (AI) łączy zarówno wiedzę ekspercką, jak i informacje uzyskane maszynowo z dużych repozytoriów typów reakcji.
Wprowadzenie
Platformy sztucznej inteligencji (AI) dla komputerowo projektowanych planów syntetycznych wyszukują komercyjnie dostępne materiały prekursorowe, oceniają poszczególne etapy syntezy i oceniają szerokie możliwości syntetyczne na podstawie ich zasobów i materiałów szkoleniowych. Integralnymi elementami sztucznej inteligencji są funkcje punktacji (SF), które kierują rozwojem planów. W przeszłości sztuczna inteligencja opracowywała plany syntezy chemicznej w oparciu o wiedzę ekspertów w dziedzinie syntezy lub na podstawie ścieżek syntezy opisanych w literaturze, takich jak repozytoria chemiczne. Jednak każdy zbiór danych ma swoje zalety i ograniczenia.
Chociaż heurystyczna, ekspercka wiedza syntetyczna zwykle odzwierciedla udane plany chemiczne intuicji chemików, preferencje chemików obejmują centralne rozłączenia, zmniejszoną liczbę pierścieni i stereocentrów oraz często wieloetapowe maskowanie i demaskowanie odpowiednich grup reaktywnych.
Dla porównania, funkcje uczenia maszynowego oparte na literaturze koncentrują się na popularnych typach reakcji z wystarczającą liczbą odniesień, a sztuczna inteligencja wykorzystuje algorytmy sieci neuronowych (NN) do identyfikacji jednego lub więcej planów syntetycznych. SF NN kompilują informacje o reakcjach i produktach końcowych z określonej bazy danych, takiej jak USPTO (US Patent Trademark Office). Dane wyjściowe SF zapewniają prawdopodobieństwo określonych reakcji (identyfikatory, ID), ale mogą być nadmiernie obciążone popularnymi reakcjami i pomijać bardziej wydajne reakcje znane chemikom.
Charakterystyka materiałów szkoleniowych AI do łączenia uczenia maszynowego od ekspertów i NN
NN jest szkolona na analogicznych danych produktów i substratów z obu źródeł: reakcji z literatury i wysokiej jakości reguł reakcji od ekspertów. We wszystkich analizach wykorzystano ok. 1,6 miliona reakcji zgłoszonych do syntezy ok. 1,4 miliona unikalnych produktów (od prostych związków chemicznych do złożonych produktów naturalnych). Reakcje ochrony i deprotekcji z obu źródeł nie zostały uwzględnione, aby uniknąć ich nadużywania w planach syntetycznych. Grzybowski i współpracownicy wymagali, aby każda reakcja uwzględniona w literaturze była zgodna z regułą (regułami) reakcji eksperta z co najmniej jednej z 75000 procedur z Chematica Dane wyjściowe oparte na SF mogą obejmować plan syntetyczny obejmujący alternatywne reguły reakcji z Chematica, obecnie nazywany SynthiaTM i jest dostępny komercyjnie.
Analizy dostarczyły średnio ok. 60 bezkonfliktowych, pasujących do produktu reakcji. W sumie Grzybowski i współpracownicy wzięli pod uwagę około 85 milionów reakcji o wysokiej jakości chemicznej i bezkonfliktowych w opracowywaniu planów syntetycznych dla 1,4 miliona produktów. Zestaw produktów został losowo podzielony na 70% do szkolenia, 10% do walidacji i 20% do testowania.
Program autorów (ICHO) ma funkcję punktacji opartą na NN, która zawiera cztery warstwy: trzy warstwy ukryte, które zapewniają możliwe reakcje dla produktu 1 (P1), P2 i P3 oraz warstwę wyjściową (rys. 1 lewy panel). Ulepszony program (ICHO+) rozszerzył architekturę NN ICHO o następującą wiedzę ekspercką na temat chemicznie intuicyjnych reakcji: liczba utworzonych lub zniszczonych pierścieni, liczba zainstalowanych lub usuniętych stereocentrów, selektywność reakcji, rozmiary produktów rozpadu (podobne lub bardzo różne) i inne. W ten sposób program ICHO+ dostosowuje częstotliwość określonych reakcji dla danego produktu w literaturze do ich częstotliwości w eksperckich planach syntetycznych. Podczas szkolenia ICHO i ICHO+ program przypisuje większe prawdopodobieństwa dla określonych reakcji uzyskanych zarówno w literaturze, jak i w eksperckich planach syntetycznych. W przeciwieństwie do tego, program dostosowuje również niższe prawdopodobieństwo dla bardzo popularnej reguły chemicznej, która jest rzadko używana do syntezy określonego produktu, co sugeruje, że reakcja może być trudna, trudna do wykonania lub nieefektywna.
Wydajność platform sztucznej inteligencji
Bezpośrednie porównanie architektury NN między ICHO/ICHO+ a programem opartym na NN autorstwa Seglera i Walkera, oznaczonym jako SW, przedstawiono na rysunku 1 [1,2]. Platforma SW AI i inne oparte na NN syntetyczne platformy AI opublikowane do 2019 r. uczą się tylko na podstawie reakcji w precedensach literaturowych. Większość programów sztucznej inteligencji, w tym ICHO i SW, wykorzystuje popularną funkcję aktywacji uczenia maszynowego zwaną wykładniczą jednostką liniową (ELU). ELU przyspiesza szkolenie i zwiększa wydajność programu. Wydajność połączonego programu ICHO+ została również porównana ze zaktualizowanym heurystycznym schematem punktacji o pierwotnej nazwie SMILES, który ocenia prostotę planu syntezy. Zaktualizowany program o nazwie SMALLER rozwija centralne rozłączenia, które symulują organiczną intuicję syntetyczną i praktykę chemików. Jedną z zalet SMALLER jest to, że częstotliwość reakcji w literaturze ma minimalny wpływ na ostateczną proponowaną trasę.

W programach ICHO i SW włączenie uczenia się z heurystycznych reguł chemicznych ekspertów (ICHO+, SW+) tylko nieznacznie poprawiło Wydajność planów syntetycznych. Ograniczenie programów SW do reakcji dopasowanych do produktów (SW2, SW2+) poprawiło ich wydajność. Jednak ICHO+ pozostało najwyżej ocenianą ścieżką, prawdopodobnie ze względu na dodatkową wiedzę o substratach.
Wydajność trzech typów programów została oceniona pod kątem opracowywania ścieżek syntezy obejmujących zarówno eksperymentalnie ustalone reakcje, jak i stosunkowo zaawansowane ścieżki syntezy. Plany syntetyczne dla czterech złożonych produktów opracowanych przez programy ICHO+, SW2+ i SMALLER zostały porównane na rysunku 2. Program ICHO+ zajął najwyższe miejsce w rankingu planów syntetycznych dla czterech produktów: inhibitora BRD 7/9, inhibitora wychwytu zwrotnego serotoniny i noradrenaliny (+)-synosutyny, produktu naturalnego seimatopolidu A oraz analogu prostaglandyny - bimatoprostu.

Podsumowanie
Grzybowski i współpracownicy porównali swoje oparte na NN funkcje punktacji ICHO+, które łączą chemiczną sztuczną inteligencję z wiedzą ekspercką, w tym regułami reakcji, z innymi opartymi na NN programami punktacji AI do opracowywania syntetycznych planów złożonych cząsteczek. Ich przykłady pokazują główną zaletę połączenia chemicznej sztucznej inteligencji z wiedzą ekspercką: zdolność programu do proponowania silnych syntetycznie reakcji, które są wymienione w literaturze tylko w niewielkim stopniu. Chematica została zaktualizowana i nosi teraz nazwę SynthiaTM. Zapewnia oprogramowanie do retrosyntezy AI, które może również wykorzystywać niestandardowy spis lub bazę danych (np. wewnętrzną bazę poufnych reakcji) oprócz kilku publicznie dostępnych baz danych.
Referencje
[1] Segler, M.H.S. et al. (2018). Planowanie syntez chemicznych za pomocą głębokich sieci neuronowych i symbolicznej sztucznej inteligencji. Nature. DOI:10.1038/nature25978.
[2] Segler, M.H.S. i Waller, M.P. (2017).Neural-Symbolic Machine Learning forRetrosynthesis and Reaction Prediction.Chemistry - A European Journal. DOI:10.1002/chem.201605499.