Accesso API
L'accesso API (Application Programming Interface) è disponibile per le organizzazioni che desiderano interconnettere altri strumenti Cheminformatics con SYNTHIA™ per un'esperienza personalizzata.
I vantaggi includono:
- Accedi alla retrosintesi completa o all'API SAS (Sintetic Accessibility Score).
- Visualizza i dati fianco a fianco per migliorare le informazioni sulla selezione delle molecole
- Crea visualizzazioni solide utilizzando più origini dati
- Informare la selezione della molecola a monte della fase di sintesi
- Analizza migliaia di percorsi in pochi minuti con l'API SAS
Sfrutta la potenza del punteggio sintetico di accessibilità (SAS)
La capacità di distinguere tra molecole "facili da realizzare" e "difficili da realizzare" è un compito difficile, ma ampiamente utile, ad esempio per stabilire la priorità dei composti nelle pipeline di screening virtuali. Combinando il moderno modello di deep learning e i dati raccolti con il nostro rinomato software di pianificazione retrosintetica, forniamo SYNTHIA™ Punteggio sintetico di accessibilità (SAS) service, uno strumento applicabile al throughput elevato in silicone lavorazione dei composti.
Attualmente, la chimica combinatoria e la modellazione generativa sono utilizzate per costruire giganteschi set di dati di composti [1]. Tuttavia, l'effettiva sintesi di molte molecole ottenute con tali metodi può essere impegnativa. Per affrontare questo problema, vengono utilizzate misure di accessibilità sintetiche per determinare la fattibilità della molecola il prima possibile nella pipeline di scoperta di farmaci.
Il servizio API SYNTHIA™ SAS fornisce le previsioni per tale "complessità molecolare" in termini di numero di passaggi sintetici da piccoli blocchi di costruzione disponibili in commercio. Il modello di machine learning alla base di SAS è stato preaddestrato su scenari sintetici ottenuti con algoritmi da SYNTHIA™ Retrosynthetic Planning Tool [2], [3], [4]. Infine, il nostro prodotto ospitato nel cloud e certificato ISO-27001 offre la possibilità di elaborare facilmente milioni di molecole al giorno e fino a mille molecole in una singola query, consentendo di utilizzare più comunemente la previsione del servizio SYNTHIA™ SAS nel processo di progettazione di farmaci.
Ingresso/uscita per modello SAS
Le molecole di input devono essere fornite nel formato di testo SMILES ampiamente utilizzato [5] e l'endpoint API supporta le richieste batch. L'input SMILES è costituito da un singolo frammento di molecola.
La misura restituita, qui definita come Synthetic Accessibility Score (SAS), è un singolo numero float compreso nell'intervallo 0-10, assegnato per ogni corrispondente molecola di input. Il punteggio restituito approssima il numero di passaggi necessari per sintetizzare la molecola utilizzando blocchi di costruzione disponibili in commercio. I numeri più bassi (valori vicini a 0) vengono restituiti a sostanze chimiche che si prevede siano facili da produrre (o addirittura disponibili in commercio). I numeri più alti vengono restituiti quando il modello prevede passaggi più sintetici per ottenere il composto richiesto. Per punteggi vicini al valore massimo (10), si prevede che la sintesi sia estremamente complessa (molte fasi di reazione) o addirittura irrealizzabile, ad esempio a causa di motivi strutturali esotici nella molecola. In generale, più basso è il punteggio, più facile dovrebbe essere sintetizzare la molecola.
Nel caso in cui alcune delle molecole richieste non siano valide (es. ipervalenti, anelli incompleti, protonazione impropria di atomi aromatici, multiframmento) la richiesta verrà comunque evasa. I punteggi per tali voci saranno nulli e i commenti appropriati verranno restituiti insieme alla struttura della risposta.
Caratteristiche del modello predittivo
SYNTHIA™ SAS v1.0 si basa su un regressore che include una rete neurale convoluzionale a grafo (GCNN). Tale architettura consente di apprendere una rappresentazione interna di ciascuna molecola operando sulla sua struttura a grafo piuttosto che su descrittori molecolari precalcolati [6]. In particolare, il modello è costituito da una rete neurale che passa messaggi diretti a livello di legame (D-MPNN) seguita da una rete neurale feedforward (FNN). L'implementazione è stata adattata dal progetto open source Chemprop [7].
Il modello di apprendimento automatico è stato addestrato utilizzando i risultati del modulo di retrosintesi automatica SYNTHIA™ come valore target. Il punteggio SYNTHIA™ specializzato e normalizzato è stato utilizzato per riflettere il numero di passaggi, ad esempio reazioni non selettive non penalizzanti, strategia di protezione implicita, contributo di prezzo minimo al punteggio e sono stati utilizzati solo piccoli elementi costitutivi come impostazioni di ricerca SYNTHIA™. Inoltre, è stata applicata una funzione di livellamento per migliorare il gradiente di costruzione per i punteggi più alti, finalizzato a una migliore risoluzione delle molecole difficili da sintetizzare (vedi anche Fig. 1).
Figure 1 . Rappresentazione della funzione di smoothing applicata alle partiture. Si noti che su valori piccoli e moderati (asse x), il punteggio di accessibilità sintetico (asse y) si comporta in modo quasi lineare. In altre parole, il punteggio restituito corrisponde al numero di passaggi sintetici previsti dal modello. Per un numero maggiore di passaggi di sintesi previsti (intorno a 10 o superiore), il relativo punteggio viene livellato in modo tale che il valore restituito sia ancora vicino a (e non maggiore di) 10. Ciò consente di ridimensionare tutti i casi considerati a [0, 10] intervallo.
I dati utilizzati per l'addestramento dei modelli di machine learning hanno un totale di 33306 molecole. È composto da molecole note (database ChEMBL) [8] e piccole molecole generate in modo combinatorio (GDB) [9]. La composizione dei dati prima della suddivisione treno/test:
- Sottoinsieme GDB: 16081, inclusi:
- composti con 1-7 atomi pesanti (C, N, O, Cl, S): 7198
- composti con 8-9 atomi pesanti (C, N, O): 8883
- Sottoinsieme ChEMBL: 17225, tra cui:
- piccoli composti sintetici selezionati casualmente: 15449
- composti derivati da prodotti naturali selezionati casualmente: 1776
L'addestramento e la valutazione del modello di apprendimento automatico richiedevano la suddivisione dei dati in insiemi di addestramento e test (è stata utilizzata la comune suddivisione treno/test 80/20). Inoltre, il set di convalida interno è stato estratto utilizzando un rapporto 9:1 dal set di addestramento ed è stato utilizzato per l'ottimizzazione dei parametri di rete.
Il punteggio previsto (modello SYNTHIA™ SAS) è correlato al valore target basato sui punteggi SYNTHIA™ con R2 = 0.726 e MAE = 1.1497. Il grafico a dispersione con linea adattata e grafico a scatola che mostra la densità/distribuzione dei punti dati, sono presentati in Fig. 2.
I risultati previsti con SYNTHIA™ SAS si basano su relazioni recuperate da set di dati (possibilmente piuttosto complessi e non semplici da acquisire). Questo dovrebbe essere preso in considerazione quando si interrogano nuove molecole tramite SYNTHIA™ SAS-API. Vale a dire, i punteggi per le molecole che non sono correlate al set di test potrebbero non rientrare nel cosiddetto dominio di applicabilità, quindi i risultati corrispondenti potrebbero non essere significativi. Questa è una limitazione tipica per i modelli basati sui dati, tuttavia è sempre bene ricordare tale limitazione per evitare interpretazioni errate dei punteggi ottenuti.
Casi di studio
Caso 1
L'N-acetil derivato del sulfametossazolo (Fig. 3, a sinistra) è un diretto precursore di questo farmaco (Fig. 3, a destra). Nonostante la struttura chimica più complessa, il derivato è riconosciuto come più facile da sintetizzare (SAS=1.038 è molto più piccolo di SAS=4.051).
Caso 2
D'altra parte il derivato N-Boc dell'adrenalina (Fig. 4, a sinistra) non è un diretto precursore dell'adrenalina (Fig. 4, a destra). Nella procedura tipica non è necessario proteggere il gruppo amminico lungo tutto il percorso di sintesi. La derivata N-Boc è correttamente riconosciuta come più complessa in termini di accessibilità sintetica (SAS=8.399 è maggiore di SAS=7.631). Ciò è in linea con il fatto che l'adrenalina è un precursore del suo derivato N-Boc.
Flusso dati utente
SYNTHIA™ SAS è un servizio ospitato nel cloud, disponibile per ogni cliente tramite API RESTful. È scalabile orizzontalmente e fornisce un throughput elevato tramite un singolo punto di ingresso API per tutti i clienti. L'utente finale deve fornire un elenco di molecole in formato SMILES e SYNTHIA™ SAS restituisce un punteggio per ciascuna di esse (Fig. 5). Il servizio è senza stato e progettato per essere ridimensionato in base alla domanda.
Testimonianze
- Joshua Meyers, Benedek Fabian, Nathan Brown, Design molecolare de novo e modelli generativi, Drug Discovery oggi, 26, 2021, 2707-2715. DOI
- Software di retrosintesi SYNTHIA™
- Tomasz Klucznik, et al., Sintesi efficienti di obiettivi diversi e rilevanti dal punto di vista medico pianificati dal computer ed eseguiti in laboratorio, Chem, 4, 2018, 522-532. DOI
- Mikulak-Klucznik, B., et al. Pianificazione computazionale della sintesi di prodotti naturali complessi, Natura, 588, 202083-88. DOI
- Daylight Chemical Information Systems, Inc.
- Yang, K., et al. Analisi delle rappresentazioni molecolari apprese per la previsione delle proprietà, Giornale di informazioni chimiche e modellazione, 59, 2019, 3370-3388. DOI
- Progetto open source Chemprop
- Banca dati ChEMBL
- banca dati GDB