ホワイトペーパー

専門家と機械学習アプローチの相乗効果で遡及合成プランニングを改善


より引用。Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew.Chem.Int.Ed.2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083


Grzybowskiらは、人工知能(AI)ソフトウェアが専門家の知識と大規模な反応タイプのリポジトリから機械的に抽出した情報の両方を組み合わせることで、コンピューター設計の多段階合成計画においてより高い合成精度が達成できることを実証した

はじめに

人工知能(AI)プラットフォームは、市販の前駆物質を探索し、個々の合成ステップを評価し、膨大な合成の可能性をリソースとトレーニング教材から評価する。AIに不可欠なのは、合成計画の開発を導くスコアリング機能(SF)である。AIはこれまで、専門家の合成知識や、化学物質リポジトリなどの文献に報告されている合成経路に基づいて、化学合成計画を開発してきた。しかし、それぞれのデータセットには利点と限界がある。

発見的で専門的な合成知識は、通常、化学者の直感による成功した化学計画を反映しているが、化学者の好みには、中心的な切断、環や立体中心の数の減少、多くの場合、適切な反応性基の多段階マスクとマスク解除などがある。

これに比べ、文献参照に基づく機械学習機能は、十分な文献参照がある一般的な反応タイプに焦点を当て、AIはニューラルネットワーク(NN)アルゴリズムを使用して1つ以上の合成計画を特定する。NNのSFはUSPTO(米国特許商標庁)のような特定のデータベースから反応と最終製品に関する情報をコンパイルする。SFsの出力は特定の反応の確率(識別子、ID)を提供するが、一般的な反応に負担がかかりすぎ、化学者が知っているより効率的な反応を見逃している可能性がある。

専門家による機械学習とNNを組み合わせたAI学習教材の特徴

NNは、文献からの反応と専門家からの高品質な反応ルールの両方から、類似製品と基質のデータで学習される。すべての解析は、約140万個のユニークな製品(単純な化学物質から複雑な天然物まで)を合成するために報告された約160万個の反応を利用した。いずれの情報源からも、合成計画における過剰使用を避けるため、保護および脱保護反応は含まれていない。Grzybowski たちは、文献に含まれる各反応が、Chematica の 75000 の手順のうち少なくとも 1 つに含まれる専門家の反応規則と一致することを要求した。

分析アクションは、製品に対して平均約60の競合のない、製品に適合した再アクションを提供した。Grzybowski たちは、140 万製品の合成計画を作成するために、化学的品質が高く、コンフリクトのない約 8,500 万の反応を検討した。製品セットは、70%をトレーニング用、10%を検証用、20%をテスト用にランダムに分割された。

著者らのプログラム(ICHO)は、製品1(P1)、P2、P3を製造するための可能な反応を提供する3つの隠れ層と、出力層という4つの層を含む、NNベースのスコアリング機能を持つ(図1左パネル)。強化されたプログラム(ICHO+)は、NN ICHOアーキテクチャーを、化学的に直感的な反応に関する次のような専門的知識で補強した:生成または破壊された環の数、設置または除去された立体中心の数、反応の選択性、分解生成物の大きさ(似ているか非常に異なっているか)など。ICHO+ プログラムはこのように、文献にある特定の製品の特定の反応の頻度と、専門家の合成計画における頻度を調整します。ICHOとICHO+のトレーニング中、プログラムは文献と専門家の合成計画の両方で得られた特定の反応に対して、より大きな確率を割り当てる。対照的に、このプログラムは、特定の生成物の合成にほとんど使用されていない、非常に一般的な化学者のルールについても確率を低く調整します。これは、その反応が厄介であるか、実行が困難であるか、非効率的である可能性を示唆しています。

AIプラットフォームの性能

ICHO/ICHO+とSeglerとWalkerによるNNベースのプログラム(SWと表記)のNNアーキテクチャの直接比較を図1に示す[1,2]。SWのAIプラットフォームと2019年に発表された他のNNベースのAI合成プラットフォームは、文献先行例の反応からしか学習しない。ICHOやSWを含むほとんどのAIプログラムは、指数線形ユニット(ELU)と呼ばれる一般的な機械学習活性化関数を使用している。ELUは学習を加速し、プログラムの性能を向上させる。ICHO+プログラムの効率は、元々SMILESと呼ばれる合成計画の単純さを評価するヒューリスティックスコアリングスキームの更新版とも比較された。SMALLERと呼ばれる更新されたプログラムは、化学者の有機合成の直感と実践をシミュレートする中心的切断を進める。SMALLERの利点の一つは、文献にある反応の頻度が最終的な提案ルートに最小限の影響しか与えないことである。

ICHO プログラムと SW プログラムの中で、ヒューリスティックスの専門家による化学ルールの学習(ICHO+、SW+)を組み込んでも、合成計画の効率はわずかにしか向上しなかった。SWプログラムを製品に適合する反応に限定した場合(SW2、SW2+)、その性能は向上した。しかし、ICHO+は依然として最高ランクの経路であり、これは基質に関する知識が追加されたためと思われる。

実験的に確立された反応と比較的高度な合成経路の両方を含む合成経路の開発について、3種類のプログラムの性能を評価した。ICHO+、SW2+、およびSMALLERプログラムによって開発された4つの複雑な製品の合成計画を2で比較した。ICHO+は、BRD 7/9阻害剤、セロトニン・ノルエピネフリン再取り込み阻害剤(+)-シノスチン、天然物セイマトポライドA、プロスタグランジンアナログのビマトプロストの4製品の合成計画で最も高い順位を示した。

概要

Grzybowskiたちは、化学AIと反応規則を含む専門知識を組み合わせたNNベースのICHO+スコアリング関数を、複雑な分子の合成計画開発のための他のNNベースのスコアリングAIプログラムと比較した。彼らの例は、化学的AIと専門家の知識を組み合わせることの大きな利点、すなわち、文献にわずかしか載っていない合成的に強力な反応を提案するプログラムの能力を示しています。Chematica は更新され、現在は SynthiaTM と呼ばれています。SynthiaTMはAI逆合成解析ソフトウェアを提供し、公開されているいくつかのデータベースに加え、カスタムインベントリやデータベース(社内の機密反応データベースなど)を利用することもできる。

参考文献

[1] Segler, M.H.S.(2018).Planningchemical syntheses with deep neuralnetworks and symbolic AI.Nature.DOI:10.1038/nature25978.

[2] Segler, M.H.S. and Waller, M.P. (2017).Neural-Symbolic Machine Learning forRetrosynthesis and Reaction Prediction.Chemistry - A European Journal.DOI:10.1002/chem.201605499.