White Paper:

La sinergia tra approcci esperti e di apprendimento automatico consente di migliorare la pianificazione retro-sintetica

Adattato da
T.Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew. Chem. Int. Ed. 2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083
Pubblicato per gentile concessione di Wiley.

Grzybowski e colleghi dimostrano che è possibile ottenere una maggiore accuratezza sintetica nei piani sintetici multistep progettati al computer quando il software di intelligenza artificiale (IA) combina sia le conoscenze degli esperti sia le informazioni estratte dalla macchina da grandi archivi di tipi di reazioni.

Introduzione

Le piattaforme di intelligenza artificiale (IA) per piani sintetici progettati al computer cercano materiali precursori disponibili in commercio, valutano i singoli passaggi sintetici e valutano le vaste possibilità sintetiche a partire dalle loro risorse e dai materiali di formazione. Componenti integrali dell'IA sono le funzioni di punteggio (SF) che guidano lo sviluppo dei piani. Storicamente, l'IA ha sviluppato piani di sintesi chimica basati sulle conoscenze di sintesi degli esperti o su percorsi sintetici riportati in letteratura, come ad esempio nei repository chimici. Tuttavia, ogni serie di dati presenta vantaggi e limiti.

Sebbene le conoscenze euristiche di sintesi degli esperti riflettano di solito i piani chimici di successo dell'intuizione dei chimici, le preferenze di questi ultimi includono disconnessioni centrali, un numero ridotto di anelli e stereocentri e spesso passaggi multipli di mascheramento e smascheramento dei gruppi reattivi pertinenti.

In confronto, le funzioni di apprendimento automatico basate sulla letteratura si concentrano su tipi di reazione popolari con riferimenti sufficienti e l'IA utilizza algoritmi di reti neurali (NN) per identificare uno o più piani sintetici. Le SF delle NN raccolgono informazioni sulle reazioni e sui prodotti finali da un database specifico come l'USPTO (US Patent Trademark Office). L'output degli SF fornisce la probabilità di reazioni specifiche (identificatori, ID), ma può essere eccessivamente gravato da reazioni popolari e perdere reazioni più efficienti conosciute dai chimici.

Caratteristiche dei materiali di addestramento dell'IA per la combinazione di apprendimento automatico da esperti e NN

L'NN è addestrato su dati analoghi di prodotti e substrati provenienti da entrambe le fonti: reazioni dalla letteratura e regole di reazione di alta qualità dagli esperti. Tutte le analisi hanno utilizzato circa 1,6 milioni di reazioni riportate per sintetizzare circa 1,4 milioni di prodotti unici (da sostanze chimiche semplici a prodotti naturali complessi). Le reazioni di protezione e deprotezione non sono state incluse per evitare un uso eccessivo nei piani di sintesi. Grzybowski e colleghi hanno richiesto che ogni reazione inclusa dalla letteratura concordasse con le regole di reazione di un esperto di almeno una delle 75000 procedure di Chematica. L'output basato su SF può includere un piano di sintesi che coinvolge regole di reazione alternative di Chematica, ora chiamato SynthiaTM e disponibile in commercio.

Le analisi hanno fornito una media di circa 60 reazioni prive di conflitti e adatte al prodotto. In totale, Grzybowski e colleghi hanno considerato circa 85 milioni di reazioni di alta qualità chimica e prive di conflitti nello sviluppo di piani di sintesi per 1,4 milioni di prodotti. Il set di prodotti è stato suddiviso casualmente in 70% per l'addestramento, 10% per la convalida e 20% per il test.

Il programma degli autori (ICHO) ha una funzione di punteggio basata su NN che contiene quattro strati: tre strati nascosti che forniscono le possibili reazioni per la produzione del prodotto 1 (P1), P2 e P3, e uno strato di uscita (Fig. 1 pannello sinistro). Il programma potenziato (ICHO+) ha aumentato l'architettura NN ICHO con le seguenti conoscenze esperte di reazioni chimicamente intuitive: numero di anelli creati o distrutti, numero di stereocentri installati o rimossi, selettività della reazione, dimensioni dei prodotti di degradazione (simili o molto diversi) e altro ancora. Il programma ICHO+ adatta quindi la frequenza di reazioni specifiche per un determinato prodotto in letteratura con la loro frequenza nei piani sintetici degli esperti. Durante l'addestramento di ICHO e ICHO+, il programma assegna probabilità maggiori per le reazioni specifiche ottenute sia in letteratura che nei piani sintetici degli esperti. Al contrario, il programma abbassa la probabilità per una regola chimica molto popolare, ma raramente utilizzata per la sintesi di un particolare prodotto, suggerendo che la reazione potrebbe essere complicata, difficile da eseguire o inefficiente.

Prestazioni delle piattaforme di intelligenza artificiale

Il confronto diretto dell'architettura NN tra ICHO/ICHO+ e il programma basato su NN di Segler e Walker, indicato come SW, è illustrato nella Figura 1 [1,2]. La piattaforma di IA SW e le altre piattaforme sintetiche di IA basate su NN pubblicate nel 2019 apprendono solo dalle reazioni nei precedenti della letteratura. La maggior parte dei programmi di IA, compresi ICHO e SW, utilizza una popolare funzione di attivazione dell'apprendimento automatico chiamata unità lineare esponenziale (ELU). L'ELU accelera l'addestramento e aumenta le prestazioni del programma. L'efficienza del programma combinato ICHO+ è stata confrontata anche con uno schema di punteggio euristico aggiornato, originariamente chiamato SMILES, che valuta la semplicità del piano di sintesi. Il programma aggiornato, chiamato SMALLER, prevede disconnessioni centrali che simulano l'intuizione e la pratica dei chimici nella sintesi organica. Un vantaggio di SMALLER è che la frequenza delle reazioni in letteratura ha un'influenza minima sul percorso finale proposto.

Nei programmi ICHO e SW, l'inclusione dell'apprendimento delle regole chimiche degli esperti euristici (ICHO+, SW+) ha migliorato solo marginalmente l'efficienza dei piani di sintesi. La limitazione dei programmi SW alle reazioni di adattamento ai prodotti (SW2, SW2+) ha migliorato le loro prestazioni. Tuttavia, ICHO+ è rimasto il percorso più classificato, probabilmente grazie alla conoscenza aggiuntiva dei substrati.

Le prestazioni dei tre tipi di programmi sono state valutate nello sviluppo di vie sintetiche che coinvolgono sia reazioni stabilite sperimentalmente sia vie sintetiche relativamente avanzate. I piani di sintesi per quattro prodotti complessi sviluppati dai programmi ICHO+, SW2+ e SMALLER sono confrontati nella Figura 2. ICHO+ si è classificato al primo posto per le reazioni sperimentali e per quelle relativamente avanzate. ICHO+ si è classificato al primo posto per i piani sintetici dei quattro prodotti: l'inibitore BRD 7/9, l'inibitore della ricaptazione della serotonina-norepinefrina (+)-sinosutina, il prodotto naturale seimatopolide A e l'analogo della prostaglandina bimatoprost.

Sintesi

Grzybowski e colleghi hanno confrontato le loro funzioni di punteggio ICHO+ basate su NN che combinano l'IA chimica con la conoscenza di esperti, comprese le regole di reazione, con altri programmi di IA basati su NN per lo sviluppo di piani sintetici di molecole complesse. I loro esempi dimostrano un importante vantaggio della combinazione dell'IA chimica con la conoscenza degli esperti: la capacità del programma di proporre reazioni sinteticamente potenti che sono elencate solo in modo limitato nella letteratura. Chematica è stato aggiornato e ora si chiama SynthiaTM. Si tratta di un software di retrosintesi AI che può anche utilizzare un inventario o un database personalizzato (ad esempio, un database interno di reazioni riservate) oltre a diversi database disponibili pubblicamente.

Referenze

[1] Segler, M.H.S. et al. (2018). Pianificazione di sintesi chimiche con reti neurali profonde e IA simbolica. Nature. DOI:10.1038/nature25978.

[2] Segler, M.H.S. e Waller, M.P. (2017).Neural-Symbolic Machine Learning forRetrosynthesis and Reaction Prediction.Chemistry - A European Journal. DOI:10.1002/chem.201605499.