Dokumen Teknis:

Sinergi Antara Pendekatan Pakar dan Pembelajaran Mesin Memungkinkan Perencanaan Retrosintetik yang Lebih Baik

Diadaptasi dari
T.Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew. Chem. Int. Ed. 2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083
Diterbitkan dengan izin dari Wiley.

Grzybowski dan koleganya menunjukkan bahwa akurasi sintetis yang lebih tinggi dapat dicapai dalam rencana sintetis multilangkah yang dirancang oleh komputer ketika perangkat lunak Kecerdasan Buatan (AI) yang menggabungkan pengetahuan ahli dan informasi yang diekstraksi mesin dari repositori besarjenis reaksi.

Pendahuluan

Platform Kecerdasan Buatan (AI) untuk rencana sintetis yang dirancang komputer mencari bahan prekursor yang tersedia secara komersial, menilai langkah-langkah sintetis individual, dan mengevaluasi kemungkinan sintetis yang luas dari sumber dan materi pelatihan mereka. Komponen integral dari AI adalah fungsi penilaian (scoring function/SF) yang memandu pengembangan rencana. AI secara historis telah mengembangkan rencana sintetis kimia berdasarkan pengetahuan sintesis ahli atau pada jalur sintetis yang dilaporkan dalam literatur seperti repositori kimia. Namun, setiap kumpulan data memiliki kelebihan dan keterbatasan.

Meskipun heuristik, pengetahuan sintetis ahli biasanya mencerminkan rencana kimia yang berhasil dari intuisi ahli kimia, preferensi ahli kimia termasuk pemutusan pusat, pengurangan jumlah cincin dan stereosenter, dan sering kali beberapa langkah menutupi dan membuka kedok kelompok reaktif terkait.

Sebagai perbandingan, fungsi pembelajaran mesin berdasarkan literatur berfokus pada jenis reaksi populer dengan referensi yang memadai, dan AI menggunakan algoritma jaringan saraf (NN) untuk mengidentifikasi satu atau lebih rencana sintetis. SF dari NN mengumpulkan informasi tentang reaksi dan produk akhir dari basis data tertentu seperti USPTO (Kantor Merek Dagang Paten AS). Keluaran SFs memberikan probabilitas reaksi tertentu (pengidentifikasi, ID) tetapi mungkin terlalu terbebani dengan reaksi populer dan melewatkan reaksi yang lebih efisien yang diketahui oleh ahli kimia.

Karakteristik materi pelatihan AI untuk menggabungkan pembelajaran mesin dari para ahli dan NN

NN dilatih dengan data produk dan substrat analog dari kedua sumber: reaksi dari literatur dan aturan reaksi berkualitas tinggi dari para ahli. Semua analisis menggunakan sekitar 1,6 juta reaksi yang dilaporkan untuk mensintesis sekitar 1,4 juta produk unik (bahan kimia sederhana hingga produk alami yang kompleks). Reaksi proteksi dan deproteksi dari kedua sumber tersebut tidak disertakan untuk menghindari penggunaan yang berlebihan dalam rencana sintetis. Grzybowski dan rekan-rekannya mensyaratkan bahwa setiap reaksi yang disertakan dari literatur harus sesuai dengan aturan reaksi ahli dari setidaknya satu dari 75.000 prosedur dari Chematica. Keluaran berbasis SF dapat mencakup rencana sintetis yang melibatkan aturan reaksi alternatif dari Chematica, yang kini disebut SynthiaTM dan tersedia secara komersial.

Analisis ini memberikan rata-rata sekitar 60 tindakan ulang yang bebas konflik dan sesuai dengan produk untuk sebuah produk. Secara keseluruhan, Grzybowski dan rekan-rekannya mempertimbangkan sekitar 85 juta reaksi yang memiliki kualitas kimiawi tinggi dan bebas konflik dalam pengembangan rencana sintetis untuk 1,4 juta Produk. Kumpulan Produk dibagi secara acak menjadi 70% untuk pelatihan, 10% untuk validasi, dan 20% untuk pengujian.

Program penulis (ICHO) memiliki fungsi penilaian berbasis NN yang berisi empat lapisan: tiga lapisan tersembunyi yang memberikan kemungkinan reaksi untuk menghasilkan Produk 1 (P1), P2, dan P3, serta lapisan keluaran (Gbr. 1 panel kiri). Program yang disempurnakan (ICHO+) menambah arsitektur NN ICHO dengan pengetahuan ahli tentang reaksi intuitif secara kimiawi: jumlah cincin yang dibuat atau dihancurkan, jumlah stereosentra yang dipasang atau dihilangkan, selektivitas reaksi, ukuran produk yang terurai (serupa vs sangat berbeda), dan banyak lagi. Dengan demikian, program ICHO+ menyesuaikan frekuensi reaksi spesifik untuk Produk tertentu dalam literatur dengan frekuensinya dalam rencana sintetis ahli. Selama pelatihan pelatihan ICHO dan ICHO+, program ini memberikan probabilitas yang lebih besar untuk reaksi spesifik yang diperoleh dari literatur dan rencana sintetis ahli. Sebaliknya, program ini juga menyesuaikan probabilitas yang lebih rendah untuk aturan kimia yang sangat populer yang jarang digunakan untuk sintesis Produk tertentu, yang menunjukkan bahwa reaksi tersebut mungkin rumit, menantang untuk dijalankan, atau tidak efisien.

Kinerja platform AI

Perbandingan langsung arsitektur NN antara ICHO/ICHO+ dan program berbasis NN oleh Segler dan Walker, yang dilambangkan sebagai SW, diilustrasikan pada Gambar 1 [1,2]. Platform AI SW dan platform sintetis AI berbasis NN lainnya yang diterbitkan pada tahun 2019 hanya belajar dari reaksi dalam preseden literatur. Sebagian besar program AI termasuk ICHO dan SW menggunakan fungsi aktivasi pembelajaran mesin yang populer yang disebut exponential linear unit (ELU). ELU mempercepat pelatihan dan meningkatkan kinerja program. Efisiensi program gabungan ICHO+ juga dibandingkan dengan skema penilaian heuristik yang telah diperbarui, yang awalnya disebut SMILES, yang menilai kesederhanaan rencana sintesis. Program yang diperbarui yang disebut SMALLER memajukan pemutusan pusat yang mensimulasikan intuisi sintetis organik dan praktik ahli kimia. Salah satu keuntungan dari SMALLER adalah frekuensi reaksi dalam literatur memiliki pengaruh yang minimal terhadap rute akhir yang diusulkan.

Dalam program ICHO dan SW, penyertaan pembelajaran dari aturan kimia ahli heuristik (ICHO +, SW +) hanya sedikit meningkatkan efisiensi rencana sintetis. Membatasi program SW pada reaksi yang sesuai dengan produk (SW2, SW2+) meningkatkan kinerjanya. Namun, ICHO+ tetap menjadi jalur dengan peringkat tertinggi, kemungkinan besar karena pengetahuan tambahan tentang substrat.

Kinerja ketiga jenis program tersebut dievaluasi pada pengembangan jalur sintetis yang melibatkan reaksi yang telah ditetapkan secara eksperimental dan jalur sintetis yang relatif lebih maju. Rencana sintetis untuk empat Produk kompleks yang dikembangkan oleh program ICHO+, SW2+, dan SMALLER dibandingkan pada Gambar 2. ICHO+ menduduki peringkat tertinggi untuk rencana sintetis untuk empat Produk: inhibitor BRD 7/9, serotonin-norepinefrin reuptake inhibitor (+) - synosutine, produk alami seimatopolide A, dan bimatoprost analog prostaglandin.

Ringkasan

Grzybowski dan rekan-rekannya membandingkan fungsi penilaian ICHO+ berbasis NN mereka yang menggabungkan AI kimia dengan pengetahuan ahli termasuk aturan reaksi dengan program AI penilaian berbasis NN lainnya untuk pengembangan rencana sintetis molekul kompleks. Contoh-contoh mereka menunjukkan keuntungan utama dari penggabungan AI kimia dengan pengetahuan ahli: kemampuan program untuk mengusulkan reaksi sintetis yang sangat kuat yang hanya sedikit disebutkan dalam literatur. Chematica telah diperbarui dan sekarang disebut SynthiaTM. Retrosynthesis Software AI yang juga dapat menggunakan Inventaris yang Disesuaikan atau Basis Data (misalnya, basis data internal untuk reaksi rahasia) sebagai tambahan dari beberapa basis data yang tersedia untuk umum.

Referensi

[1] Segler, M.H.S. dkk. (2018). Merencanakan sintesis kimia dengan jaringan syaraf tiruan dalam dan AI simbolik. Nature. DOI:10.1038/nature25978.

[2] Segler, MHS dan Waller, MP (2017). Pembelajaran Mesin Neural-Simbolik untuk Retrosintesis dan Prediksi Reaksi. Kimia - Jurnal Eropa. DOI:10.1002/chem.201605499.