白書

合成プランニングの計算分析:過去と未来


Wang, Z., Zhang, W. and Liu, B. (2021), Computational Analysis of Synthetic Planning:過去と未来。Chin.J. Chem., 39: 3127-3143. https://doi.org/10.1002/cjoc.202100273


計算機支援合成計画(CASP)は、天然物や医薬品候補化合物の新規かつ高効率な合成を計画するために、氾濫する新規化学反応や専門家の反応規則を整理し、活用する上で重要な役割を果たすことができる本総説では、ルールベースのプログラムに焦点を当てた初期段階から、機械学習とそれらを組み合わせた能力まで、合成計画の計算解析の進歩について述べる。

はじめに

化学者は、標的化合物の合成戦略を設計するために逆合成分析を用いる。簡単に言えば、ターゲット化合物とそれに続く前駆体の化学結合を切断した経験を反復的に利用するのである。

様々な標準化されたツール(CML、SMILES、SMARTS、InChl、ECFPなど)は、化学反応や分子を機械可読情報に変換する。より高度なアルゴリズム(例:ニューラルネットワーク、強化学習)は、化学反応のデータ処理を拡張する。

このレビューでは、CASPの3つのカテゴリーを取り上げる。2つのカテゴリーでは、化学者の直感や経験から論理的な推論を行う:CASPアルゴリズムは、手作業でコード化されたルール、あるいは自動的に抽出されたルールに基づく。三つ目の CASP は、機械学習(ML)アルゴリズ ムの学習に化学反応データベースを用いる。

CASP システムの一般的な構造

典型的な CASP システムには 4 つのモジュールがある。反応テンプレートデータベースは既知の反応と結合切断のルールを格納する。retrosyntheticモジュールはテンプレートデータベースの既知の反応と入力分子の構造を整合させ、反復的に市販の前駆体に最も近いものを提供する。ツリーガイドと評価モジュールは、 合成経路に対する候補前駆体の適合性を評価する。市販化合物データベースは、逆合成モジュールのストップとして機能する。

論理的アルゴリズムと組み合わせたハンドコードルール

代表的なCASPシステムには、LHASA、SECS、IGOR、CHIRON、Chematica/ SynthiaTMがある。LHASAとSECSのCASPシステムには、化学者が合成ツリーから最適な経路を評価・選択できるように、筆記用具と連動した通信モジュールが含まれています。

IGOR(Intermediate Generation of Organic Reactions)は、逆合成分析を経験的に導き出された発見的規則に限定しなかった。IGORは反応に関与するすべての分子を含み、大規模な計算を必要とし、単純な逆合成変換しかシミュレートできない。

CHIRONは、複雑な立体化学と機能性を解読し、市販されている立体化学に富む前駆体と関連付けることができる。CHIRONは、ターゲット分子と密接に関連した骨格、立体中心、官能基を持つ前駆体を検索します。

Chematica (現在は SynthiaTM と呼ばれる) は、Network of Organic Chemistry (NOC) を約1,000万化合物まで拡張し、SMILES/SMART コーディング法を使用して、互換性とコンテキスト情報 (例えば、カノニカル条件、官能基の不寛容性、特定の反応の位置選択性と立体選択性) を手作業で追加した。手作業でコード化された反応規則は、2021年には100,000以上に増加した。Chematica/SynthiaTM には、インテリジェントな検索機能と化学的スコアリング機能が組み込まれており、グローバルに最適な結果を得ることができます(例えば、不斉合成のためのキラルプリカーサーなど)。

Chematica/SynthiaTM は合成ツリーを樹枝状に表示します:各ノードは逆合成変換とそれに関連する基質セットを示します(図 1a)。Chematica/SynthiaTM は、検索アルゴリズムで最もスコアの低いノードのための優先キューにより、分析プロセスを加速します(図 1b)。

Chematica/SynthiaTM には、検索アルゴリズム、スコアリング関数、立体選択的変換を最適化するための、さまざまな量子力学および機械学習(ML)手法が含まれています。Chematica/SynthiaTM は、8 種類の薬物関連分子と数種類の複雑な天然製品の合成経路を設計しました。それらの合成は実験的に達成されました。SynthiaTMプログラムは、OICR-9429のより効率的な合成経路を設計しました(図2)。文献によると、OICR-9429 の収率は 1%であったが、SynthiaTM では 60%の収率を示した。さらに、SynthiaTM が設計した合成経路は、精製を 4 回のクロマトグラフィーから 1 回の再結晶に簡略化した。このように,Grzybowski 氏らは Chematica/SynthiaTM が合成化学の複雑な問題を解決できることを明確に示しています.

反応テンプレートの手動抽出は、化学反応の文脈情報を広げ、逆合成分析を強化することができます。自動抽出と手動抽出のどちらを選択するかは、変数の一貫した記述と希望する用途によって決まります。

論理的アルゴリズムと組み合わせた自動抽出ルール

新しい化学反応やテンプレートを毎日自動抽出することで、データベースを効率的に管理できますが、隣接する官能基や原子を見逃す可能性があります。

SYNCHEM2では、交互コーディングにより、後方合成と前方合成の両方の変換が可能です。RETROSYNは反応中心を抽象化し、特殊なグラフ差分アルゴリズムで製品と反応物の原子相関を構築します。RETROSYNは一致度を検索し、優先順位の高いものから低いものまでソートするが、立体化学は無視する。

KOSP (Kowledge-base-Oriented System for Synthesis Planning) は、3つの結合距離内の活性化基/原子を含む反応テンプレートを自動的に抽出し、反応知識ベースに入力します。新しいKOSPバージョンは、位置・立体選択的な逆合成分析が可能で、アップデートにより反応内容が10倍に拡張された。

ARChemの後継であるChemPlannerは、American Chemical Abstracts ServiceおよびWileyと独占的な協力関係を結んでおり、SciFinderは科学者がキュレーションした反応コンテンツの非常にアクセスしやすいデータベースである。ChemPlanner の新バージョンは、位置選択的および立体選択的な逆合成分析を可能にした。

ICSYNTHは反応知識データベースをグラフベースで表現します。ICSYNTHは、反応知識データベースをグラフ化したものであり、ユーザは、社内の反応データベースから化学的ルールを追加し、化学的ルールを選択・編集することで、様々なアプリケーションシナリオに対応させることができます。

ASKCOSは、反応生成物と標的分子との類似性を計算し、段階的に逆合成計画を作成します。ASKCOSのモジュールには、ワンステップ・レトロシンセシス、インタラクティブ・パス・プランニング、ツリー・ビルダー、およびコンテキスト・レコメンデーションが含まれます。

機械学習アルゴリズムと組み合わせた自動抽出ルール

MLアルゴリズムは反応物質を含む化学反応データベースで学習される。強化学習アルゴリズムは継続的に環境と相互作用し、ペナルティと報酬のアプローチによって最適な戦略を学習する。

Bishopプログラムは、ルールベースの逆合成分析と強化学習を組み合わせたものである。化学反応ネットワークは、中間体をコンパイルし、反応物と生成物を接続し、コスト、全体的な効率、および/または環境への影響に関する潜在的なフィルターを使用して、柔軟に定義された最適な反応経路をマッピングするための強化学習モジュールを備えています。

3N-MCTS (Monte Carlo Tree Search algorithm)は、文献から得られた製品と関連する前駆体のデジタルシーケンスによって学習された人工ニューラルネットワークを使用します。ANN ベースの CASP システムは、学習された特定の反応ルールを再編成し、計算プロセスを簡素化します。各 MCTS ラウンドは Selection、Expansion、Rollout、Update から構成される。立体選択性の予測には改良が必要である。

Simplified Molecular Input Line-Entry System (SMILES)翻訳を用いたSeq2Seqモデル

は、膨大なデータセットを処理し、全体最適な出力で反応をシミュレートすることができます。AutoSynRoute は、Chematica/SynthiaTM にインスパイアされたヒューリスティックなスコアリング関数と MCTS アルゴリズムを適用して合成経路を評価します。RXN は2つのデータベースで学習した2つの逆合成MLモデルを使用します。RXN は提案された合成経路に適した反応条件を予測することができます。

結論

いくつかの CASP プログラムは、スコアリング関数や ML(Chematica/SynthiaTM など)を使用する、あるいは使用しない逆合成化学のアルゴリズムに、ヒューリスティック反応規則や文献からの反応規則を適用している。これらのアルゴリズムは、複雑な分子の収率を向上させる新規合成経路を既に提供している。さらなる改良により、低コスト、環境フットプリントの低減、危険な試薬や溶媒の低減などの制約を追加した複雑な化合物の新規合成経路を提供することができます。