Dokumen Teknis:

Analisis Komputasi Perencanaan Sintetis: Masa Lalu dan Masa Depan

Diadaptasi dari
Wang, Z., Zhang, W. dan Liu, B. (2021), Analisis Komputasi Perencanaan Sintetis: Masa Lalu dan Masa Depan. Chin. J. Chem., 39: 3127-3143. https://doi.org/10.1002/cjoc.202100273
Diterbitkan dengan izin dari Wiley.

Perencanaan Sintesis Berbantuan Komputer (CASP) dapat memainkan peran penting dalam mengatur dan memanfaatkan banjirnya reaksi kimia baru dan aturan reaksi ahli untuk merencanakan sintesis baru dan sangat efisien dari produk alami dan kandidat obat. Ulasan ini menjelaskan kemajuan dalam analisis komputasi perencanaan sintetis dari tahap awal yang berfokus pada program berbasis aturan hingga pembelajaran mesin dan kemampuan gabungannya.

Pendahuluan

Ahli kimia menggunakan analisis retrosintesis untuk merancang strategi sintetis untuk senyawa target. Secara singkat, mereka menggunakan pengalaman mereka dalam memutus ikatan kimia pada senyawa target dan prekursor berikutnya secara berulang.

Berbagai alat standar (misalnya, CML, SMILES, SMARTS, InChl, dan ECFP) menerjemahkan reaksi kimia dan molekul menjadi informasi yang dapat dibaca oleh mesin. Algoritme yang lebih canggih (misalnya, jaringan saraf, pembelajaran penguatan) memperluas pemrosesan data reaksi kimia.

Ulasan ini mencakup tiga kategori CASP. Dua kategori menggunakan deduksi logis dari intuisi dan pengalaman ahli kimia: Algoritma CASP berdasarkan aturan yang dikodekan dengan tangan atau aturan yang diekstraksi secara otomatis. Kategori CASP ketiga menggunakan basis data reaksi kimia untuk pelatihan algoritma machine learning (ML).

Struktur Umum Sistem CASP

Sistem CASP pada umumnya memiliki empat modul. Basis data template reaksi menyimpan reaksi-reaksi yang telah diketahui dengan aturan pemutusan ikatan. Modul retrosintesis menyelaraskan reaksi yang diketahui dalam basis data templat dengan struktur molekul masukan dan memberikan kecocokan terdekat dengan prekursor yang tersedia secara komersial dengan cara yang berulang. Panduan pohon dan modul evaluasi menilai kecocokan kandidat prekursor dengan rute sintetis. Basis data senyawa yang tersedia secara komersial bertindak sebagai pemberhentian untuk modul retrosintesis.

Aturan yang Dikodekan dengan Tangan Dikombinasikan dengan Algoritma Logis

Sistem CASP yang representatif termasuk LHASA, SECS, IGOR, CHIRON, dan Chematica/ SynthiaTM. Sistem CASP LHASA dan SECS menyertakan modul komunikasi: papan tulis yang terhubung sehingga ahli kimia dapat mengevaluasi dan memilih rute terbaik dari pohon sintetis.

IGOR (Intermediate Generation of Organic Reactions) tidak membatasi analisis retrosintesis pada aturan heuristik yang diturunkan secara empiris. IGOR mencakup semua molekul yang berpartisipasi dalam suatu reaksi, membutuhkan perhitungan yang ekstensif dan hanya dapat mensimulasikan transformasi retrosintetik sederhana.

CHIRON dapat memecahkan kode stereokimia dan fungsionalitas kompleks yang dapat dikorelasikan dengan prekursor yang diperkaya stereokimia yang tersedia secara komersial. CHIRON mencari prekursor dengan kerangka, stereosentra, dan gugus fungsi yang terkait erat dengan molekul target.

Chematica (sekarang disebut SynthiaTM) telah memperluas Network of Organic Chemistry (NOC) menjadi sekitar 10 juta senyawa dan secara manual menambahkan kompatibilitas dan informasi konteks (misalnya, kondisi kanonik, intoleransi gugus fungsi, regio dan stereoselektivitas reaksi tertentu) menggunakan metode pengkodean SMILES / SMART. Aturan reaksi yang dikodekan dengan tangan meningkat menjadi> 100.000 pada tahun 2021. Chematica/SynthiaTM menyematkan fungsi pencarian cerdas dan fungsi penilaian kimia yang memungkinkan hasil yang optimal secara global (misalnya, prekursor kiral untuk sintesis asimetris.)

Chematica/SynthiaTM menyajikan pohon sintetis dengan cara dendritik: setiap simpul menunjukkan transformasi retrosintetik dan kumpulan substrat terkait (Gbr. 1a). Chematica/SynthiaTM mempercepat proses analitik dengan antrian prioritas untuk simpul-simpul dengan nilai terendah dalam algoritma pencarian (Gbr. 1b).

Chematica/SynthiaTM mencakup berbagai metode mekanika kuantum dan pembelajaran mesin (ML) untuk mengoptimalkan algoritma pencarian, fungsi penilaian, dan transformasi stereoselektif. Chematica/SynthiaTM merancang rute sintetis untuk delapan molekul terkait obat dan beberapa Produk Alami yang Kompleks. Sintesis mereka dilakukan secara eksperimental. Program SynthiaTM merancang rute sintetis yang lebih efisien untuk OICR-9429 (Gbr. 2). Literatur melaporkan hasil 1% dari OICR-9429; tetapi rute SynthiaTM menghasilkan 60%. Lebih lanjut, rute sintetis yang dirancang SynthiaTM menyederhanakan pemurniannya dari empat prosedur kromatografi menjadi satu rekristalisasi. Dengan demikian, Grzybowski dan rekan-rekannya dengan jelas menunjukkan bahwa Chematica/SynthiaTM dapat memecahkan masalah yang kompleks dalam kimia sintetis.

Ekstraksi manual templat reaksi dapat memperluas informasi konteks reaksi kimia dan meningkatkan analisis retrosintetik. Pilihan antara ekstraksi otomatis dan manual bergantung pada deskripsi variabel yang konsisten dan aplikasi yang diinginkan.

Aturan yang Diekstrak Secara Otomatis Dikombinasikan dengan Algoritma Logis

Ekstraksi otomatis reaksi kimia dan templat baru setiap hari dapat secara efisien memelihara basis data, tetapi mungkin melewatkan gugus fungsi dan atom yang berdekatan.

SYNCHEM2 memungkinkan transformasi sintetis mundur dan maju dengan pengkodean alternatif. RETROSYN mengabstraksikan Pusat Reaksi dan membangun korelasi atomik antara Produk dan Reaktan dengan algoritme perbedaan grafik khusus. RETROSYN mencari dan mengurutkan tingkat kecocokan dengan prioritas tinggi ke rendah tetapi mengabaikan stereokimia.

KOSP (Sistem Berorientasi Basis Pengetahuan untuk Perencanaan Sintesis) secara otomatis mengekstrak templat reaksi termasuk gugus pengaktif/atom dalam tiga jarak ikatan untuk mengisi Basis Pengetahuan Reaksi. Versi KOSP yang baru memungkinkan analisis retrosintesis regio dan stereoselektif dan pembaruan telah memperluas konten reaksi hingga 10 kali lipat.

ChemPlanner, penerus ARChem, memiliki kerja sama eksklusif dengan American Chemical Abstracts Service dan Wiley untuk SciFinder, sebuah basis data yang sangat mudah diakses untuk konten reaksi yang dikuratori oleh para ilmuwan. Versi ChemPlanner yang baru memungkinkan analisis retrosintesis regio dan stereoselektif.

ICSYNTH merepresentasikan basis data pengetahuan reaksinya dalam bentuk berbasis grafik. Pengguna dapat memasukkan aturan kimia internal dari basis data reaksi rahasianya dan mengadaptasi ICSYNTH untuk berbagai skenario aplikasi dengan memilih dan mengedit aturan kimia.

ASKCOS menghitung kemiripan Produk reaksi dengan molekul target untuk mengembangkan rencana retrosintesis secara bertahap. Modul ASKCOS meliputi Retrosintesis Satu Langkah, Perencanaan Jalur Interaktif, Pembuat Pohon, dan Rekomendasi Konteks.

Aturan yang Diekstrak Secara Otomatis Dikombinasikan dengan Algoritma Pembelajaran Mesin

Algoritme ML dilatih dengan basis data reaksi kimia termasuk reaktan. Algoritme pembelajaran penguatan secara terus menerus berinteraksi dengan lingkungan yang mengajarkan mereka strategi optimal melalui pendekatan hukuman-hadiah.

Program Bishop menggabungkan analisis retrosintetik berbasis aturan dan pembelajaran penguatan. Jaringan Reaksi Kimia mengumpulkan zat antara, menghubungkan reaktan dan produk, dan memiliki modul pembelajaran penguatan untuk memetakan jalur reaksi optimal yang ditentukan secara fleksibel dengan penyaring potensial untuk biaya, efisiensi keseluruhan, dan / atau dampak lingkungan.

3N-MCTS (algoritma Monte Carlo Tree Search) menggunakan jaringan saraf tiruan yang dilatih dengan urutan digital Produk dan Prekursor yang relevan dari literatur. Sistem CASP berbasis ANN mengatur ulang aturan reaksi spesifik yang telah dipelajari yang menyederhanakan proses perhitungan. Setiap putaran MCTS terdiri dari Seleksi, Perluasan, Peluncuran, dan Pembaruan. Perbaikan diperlukan untuk memprediksi stereoselektivitas.

Model Seq2Seq dengan terjemahan Simplified Molecular Input Line-Entry System (SMILES)

dapat memproses dataset yang sangat besar dan mensimulasikan reaksi dengan output optimal global. AutoSynRoute mengevaluasi jalur sintetis dengan menerapkan algoritma MCTS dengan fungsi penilaian heuristik yang terinspirasi dari Chematica/SynthiaTM. RXN menggunakan dua model ML retrosintetik yang dilatih oleh dua basis data. RXN dapat memprediksi kondisi reaksi yang sesuai untuk rute sintetis yang diusulkan.

Kesimpulan

Beberapa program CASP menerapkan aturan reaksi heuristik dan aturan reaksi dari literatur dalam algoritmanya untuk kimia retrosintetik dengan atau tanpa fungsi penilaian dan ML (misalnya, Chematica / SynthiaTM) Program CASP lainnya mengandalkan ML atau kombinasi ML dengan aturan reaksi heuristik dan / atau aturan kimia berbasis literatur. Algoritme- algoritme ini telah memberikan rute sintetis baru yang meningkatkan hasil untuk molekul-molekul yang rumit. Peningkatan lebih lanjut dapat memberikan rute sintetis baru untuk senyawa kompleks dengan kendala tambahan seperti biaya yang lebih rendah, jejak lingkungan yang lebih rendah, dan lebih sedikit reagen atau pelarut berbahaya.