API連携

API アクセス (アプリケーション プログラミング インターフェース) は、他のケモインフォマティクス ツールを SYNTHIA™ と相互接続したいお客様に、便利にご利用いただくことができます。

特徴

  • 逆合成または合成アクセシビリティスコア (SAS) API への総合アクセスが可能
  • データを並べて表示することで、より質の高い分子選択ができる
  • 複数のデータソースを使用して視覚化できる
  • 合成ステップの上流に分子選択を通知する
  • SAS API を使用して数分で数千もの経路を分析可能

詳細を問い合わせる

SYNTHIA API で文学を超えて

合成アクセシビリティ スコア (SAS) の力を利用する

「作成しやすい」分子と「作成しにくい」分子を区別する能力は困難ですが、仮想スクリーニング パイプラインで化合物の優先順位を付けるなど、広く役立つタスクです。 最新の深層学習モデルと、有名な逆合成計画ソフトウェアで収集されたデータを組み合わせることで、 SYNTHIA™ 合成アクセシビリティ スコア (SAS) サービス、高スループットに適用可能なツール インシリコ コンパウンド処理。

現在、コンビナトリアル ケミストリーとジェネレーティブ モデリングは、巨大な化合物データセットの構築に使用されています [1]。 しかし、このような方法で得られた多くの分子の実際の合成は困難な場合があります。 この問題に対処するために、合成アクセシビリティ手段を使用して、創薬パイプラインのできるだけ早い段階で分子の実現可能性を判断します。

SYNTHIA™ SAS API サービスは、このような「分子の複雑さ」を、市販の小さなビルディング ブロックからの合成ステップ数で予測します。 SAS を支える機械学習モデルは、SYNTHIA™ Retrosynthetic Planning Tool [2]、[3]、[4] のアルゴリズムを使用して取得した合成シナリオで事前トレーニングされています。 最後に、クラウドでホストされ、ISO-27001 認定を受けた当社の製品は、毎日数百万の分子を、XNUMX 回のクエリで最大 XNUMX の分子を簡単に処理する機能を提供し、SYNTHIA™ SAS サービス予測を医薬品設計プロセスでより一般的に使用できるようにします。

SAS モデルの入出力

入力分子は、広く使用されている SMILES テキスト形式 [5] で提供する必要があり、API エンドポイントはバッチ要求をサポートしています。 入力 SMILES は、単一のフラグメント分子で構成されます。

ここでは合成アクセシビリティ スコア (SAS) として定義されている返される測定値は、対応する入力分子ごとに割り当てられた 0 ~ 10 の範囲の単一の浮動小数点数です。 返されたスコアは、市販のビルディング ブロックを使用して分子を合成するのに必要なステップ数を概算します。 最も低い数値 (0 に近い値) は、製造が容易であると予測される (または市販される可能性さえある) 化学物質に返されます。 モデルが、要求された化合物を取得するためにより多くの合成ステップを予測すると、より高い数値が返されます。 最大値 (10) に近いスコアの場合、合成は非常に複雑 (多くの反応ステップ) であるか、分子内のエキゾチックな構造モチーフなどのために実行不可能でさえあると予測されます。 一般に、スコアが低いほど、分子の合成が容易になります。

要求された分子の一部が無効な場合 (例: 超原子価、不完全な環、芳香族原子の不適切なプロトン化、マルチフラグメント)、要求は処理されます。 そのようなエントリのスコアは null になり、適切なコメントが応答構造で返されます。

予測モデルの特徴

SYNTHIA™ SAS v1.0 は、グラフ畳み込みニューラル ネットワーク (GCNN) を含むリグレッサーに基づいています。 このようなアーキテクチャにより、事前に計算された分子記述子ではなく、グラフ構造を操作することで、各分子の内部表現を学習できます [6]。 特に、このモデルは結合レベルの有向メッセージ パッシング ニューラル ネットワーク (D-MPNN) とそれに続くフィードフォワード ニューラル ネットワーク (FNN) で構成されています。この実装は、Chemprop オープンソース プロジェクト [7] から採用されました。

機械学習モデルは、SYNTHIA™ 自動逆合成モジュールの結果を目標値として使用してトレーニングされました。 特殊化および正規化された SYNTHIA™ スコアは、ステップ数を反映するために使用されました。たとえば、非選択的反応にペナルティを課さないこと、暗黙の保護戦略、スコアへの最小限の価格寄与、SYNTHIA™ 検索設定として小さなビルディング ブロックのみが使用されました。 さらに、スムージング機能を適用して、高スコアの勾配をより適切に構築し、合成が困難な分子の解像度を向上させることを目的としました (図 1 も参照)。

synthia sas スコアに適用される平滑化関数

図1. スコアに適用される平滑化関数の描写。 小さい値と中程度の値 (x 軸) では、合成アクセシビリティ スコア (y 軸) は線形に近くなることに注意してください。 つまり、返されるスコアは、モデルによって予測された合成ステップの数に対応します。 予測された合成ステップの数が多い場合 (約 10 以上)、関連するスコアが平滑化され、返される値が 10 に近い (かつそれ以下) になります。これにより、考慮されるすべてのケースを [0, 10]間隔。

機械学習モデルのトレーニングに使用されるデータには、合計で 33306 の分子があります。 これは、既知の分子 (ChEMBL データベース) [8] と組み合わせて生成された低分子 (GDB) [9] で構成されています。 トレーニング/テスト分割前のデータの構成:

  • GDB サブセット: 16081、以下を含む:
    • 重原子 (C、N、O、Cl、S) が 1 ~ 7 個の化合物: 7198
    • 重原子 (C、N、O) が 8 ~ 9 個の化合物: 8883
  • ChEMBL サブセット: 17225、以下を含む:
    • ランダムに選択された合成低分子化合物: 15449
    • ランダムに選択された天然物由来の化合物: 1776

機械学習モデルのトレーニングと評価では、データをトレーニング セットとテスト セットに分割する必要がありました (共通の 80/20 トレーニング/テスト分割が使用されました)。 さらに、内部検証セットは、トレーニング セットから 9:1 の比率を使用して抽出され、ネットワーク パラメーターの最適化に使用されました。

予測スコア (SYNTHIA™ SAS モデル) は、R を含む SYNTHIA™ スコアに基づく目標値と相関します2 = 0.726 および MAE = 1.1497。 データポイントの密度/分布を示す適合線とボックスプロットを含む散布図を図2に示します。

シンシアとモデルの相関関係を示す散布図と箱ひげ図

図 2. SYNTHIA™ で計算された SA スコアとモデルによって学習されたスコアとの相関関係を示す散布図と箱ひげ図。

SYNTHIA™ SAS で予測された結果は、データセットから取得された関係に基づいています (おそらく、非常に複雑で、キャプチャするのは簡単ではありません)。 これは、新規分子が SYNTHIA™ SAS-API を介して照会される場合に考慮に入れる必要があります。 つまり、テスト セットに関連しない分子のスコアは、いわゆる適用範囲外になる可能性があるため、対応する結果が意味を持たない可能性があります。 これはデータ駆動型モデルの典型的な制限ですが、取得したスコアの誤解を避けるために、このような制限を覚えておくことは常に良いことです。

ケーススタディ

ケース1

スルファメトキサゾールの N-アセチル誘導体 (図 3、左) は、この薬物の直接の前駆体です (図 3、右)。 より複雑な化学構造にもかかわらず、誘導体は合成が容易であると認識されています (SAS=1.038 は SAS=4.051 よりもはるかに小さい)。

図 3. スルファメトキサゾールのユースケースの分子の化学構造。

ケース2

一方、アドレナリンの N-Boc 誘導体 (図 4、左) は、アドレナリンの直接の前駆体ではありません (図 4、右)。 通常の手順では、合成経路全体でアミノ基を保護する必要はありません。 N-Boc 誘導体は、合成アクセシビリティに関してより複雑であると正しく認識されます (SAS=8.399 は SAS = 7.631 よりも大きい)。 これは、アドレナリンがその N-Boc 誘導体の前駆体であるという事実と一致しています。

図 4. アドレナリンの使用例の化学構造。

ユーザーデータフロー

SYNTHIA™ SAS は、RESTful API を介して各顧客が利用できるクラウド ホスト型サービスです。 水平方向にスケーラブルで、単一の API エントリ ポイントを介してすべての顧客に高いスループットを提供します。 エンドユーザーは分子のリストを SMILES 形式で提供する必要があり、SYNTHIA™ SAS はそれぞれのスコアを返します (図 5)。 このサービスはステートレスであり、需要に応じてスケーリングするように設計されています。

図 5. SYNTHIA™ SAS サービス データ フローの概略図。

参考文献

  1.  Joshua Meyers、Benedek Fabian、Nathan Brown、De novo 分子設計および生成モデル、 今日の創薬262021、2707-2715。 DOI
  2. 逆合成解析ソフトウェアSYNTHIA™
  3. トマシュ・クルチュニク 、コンピューターによって計画され、実験室で実行される、多様で医学的に関連するターゲットの効率的な合成、 CHEM4,  2018、522-532。 DOI
  4. ミクラク・クルチニク、B.、  複雑な天然物の合成の計算計画、 自然、 588202083-88。 DOI
  5. デイライト・ケミカル・インフォメーション・システムズ株式会社 
  6. ヤン、K.、  特性予測のための学習した分子表現の分析、 Journal of Chemical Information and Modeling592019、3370-3388。 DOI
  7. Chemprop オープンソース プロジェクト
  8. ChEMBL データベース
  9. GDB データベース