API访问

API 访问(应用程序编程接口)适用于希望将其他化学信息学工具与 SYNTHIA™ 互连以获得定制体验的组织。

优点包括:

  • 访问完整的逆合成或综合可访问性评分 (SAS) API
  • 并排查看数据以提高对分子选择的洞察力
  • 使用多个数据源创建强大的可视化
  • 告知合成步骤上游的分子选择
  • 使用 SAS API 在几分钟内分析数千条通路

联系我们以了解更多信息

使用 SYNTHIA API 超越文献

利用综合可访问性分数 (SAS) 的力量

区分“易于制造”和“难以制造”分子的能力是一项艰巨但广泛有用的任务,例如,用于在虚拟筛选管道中对化合物进行优先排序。 通过结合现代深度学习模型和我们著名的逆合成规划软件收集的数据,我们提供 SYNTHIA™ 综合可访问性评分 (SAS) 服务,适用于高通量的工具 硅片 化合物处理。

目前,组合化学和生成模型被用于构建巨大的化合物数据集 [1]。 然而,用这种方法获得的许多分子的实际合成可能具有挑战性。 为了解决这个问题,合成可访问性措施用于在药物发现管道中尽早确定分子可行性。

SYNTHIA™ SAS API 服务根据小型商用构建模块的合成步骤数量,提供对此类“分子复杂性”的预测。 支持 SAS 的机器学习模型已经在使用 SYNTHIA™ Retrosynthetic Planning Tool [2]、[3]、[4] 算法获得的合成场景上进行了预训练。 最后,我们的云托管和 ISO-27001 认证产品提供了每天轻松处理数百万个分子和在一次查询中处理多达一千个分子的能力,使 SYNTHIA™ SAS 服务预测能够更常用于药物设计过程。

SAS 模型的输入/输出

输入分子需要以广泛使用的 SMILES 文本格式 [5] 提供,并且 API 端点支持批处理请求。 输入 SMILES 由单个片段分子组成。

返回的度量,此处定义为合成可访问性分数 (SAS),是范围为 0-10 的单个浮点数,分配给每个相应的输入分子。 返回的分数近似于使用市售构建块合成分子所需的步骤数。 最低的数字(接近 0 的值)返回到预计易于制造(甚至可以在市场上买到)的化学品。 当模型预测获得所需化合物的合成步骤更多时,返回的数字越大。 对于接近最大值 (10) 的分数,预计合成要么极其复杂(许多反应步骤),要么甚至不可行,例如,由于分子中的奇异结构基序。 一般来说,分数越低,合成分子就越容易。

如果请求中的某些分子无效(例如,高价、不完整的环、芳香原子的不正确质子化、多片段),请求仍将得到处理。 此类条目的分数将为空,并且将在响应结构中返回适当的评论。

预测模型特征

SYNTHIA™ SAS v1.0 基于包含图形卷积神经网络 (GCNN) 的回归器。 这种架构允许通过操作其图结构而不是预先计算的分子描述符来学习每个分子的内部表示 [6]。 特别是,该模型由键级定向消息传递神经网络 (D-MPNN) 和前馈神经网络 (FNN) 组成。该实现改编自 Chemprop 开源项目 [7]。

使用 SYNTHIA™ 自动逆合成模块结果作为目标值训练机器学习模型。 专业化和标准化的 SYNTHIA™ 分数用于反映步骤数,例如,不惩罚非选择性反应、隐式保护策略、对分数的最小价格贡献,并且仅使用小构建块作为 SYNTHIA™ 搜索设置。 此外,应用平滑函数以更好地构建高分梯度,旨在更好地解决难以合成的分子(另请参见图 1)。

应用于 synthia sas 分数的平滑函数

图1. 应用于分数的平滑函数的描述。 请注意,在小值和中等值(x 轴)上,综合可访问性分数(y 轴)表现接近线性。 换句话说,返回的分数对应于模型预测的合成步骤数。 对于更多的预测合成步骤(大约 10 或以上),相关分数被平滑,使得返回值仍然接近(但不大于)10。这允许将所有考虑的案例重新缩放到 [0, 10] 间隔。

用于训练机器学习模型的数据共有 33306 个分子。 它由已知分子(ChEMBL 数据库)[8] 和组合生成的小分子 (GDB) [9] 组成。 训练/测试拆分前的数据组成:

  • GDB 子集:16081,包括:
    • 具有 1-7 个重原子(C、N、O、Cl、S)的化合物:7198
    • 具有 8-9 个重原子(C、N、O)的化合物:8883
  • ChEMBL 子集:17225,包括:
    • 随机选择的合成小分子化合物:15449
    • 随机选择的天然产物衍生化合物:1776

机器学习模型的训练和评估需要将数据分成训练集和测试集(使用常见的 80/20 训练/测试分割)。 此外,使用 9:1 的比例从训练集中提取内部验证集,并用于网络参数优化。

预测分数(SYNTHIA™ SAS 模型)与基于 SYNTHIA™ 分数和 R 的目标值相关2 = 0.726 和 MAE = 1.1497。 图 2 显示了带有拟合线的散点图和显示数据点密度/分布的箱线图。

显示 synthia 与模型相关性的散点图和箱线图

图 2. 散点图和箱线图显示了使用 SYNTHIA™ 计算的 SA 分数与模型学习的分数之间的相关性。

使用 SYNTHIA™ SAS 预测的结果基于从数据集中检索到的关系(可能非常复杂且难以直接捕获)。 当通过 SYNTHIA™ SAS-API 查询新分子时,应考虑到这一点。 也就是说,与测试集无关的分子的分数可能会超出所谓的适用范围,因此相应的结果可能没有意义。 这是数据驱动模型的典型限制,但是记住这样的限制总是好的,以避免对获得的分数的误解。

案例研究

案例1

磺胺甲恶唑的 N-乙酰衍生物(图 3,左)是该药物的直接前体(图 3,右)。 尽管化学结构更复杂,但衍生物被认为更容易合成(SAS=1.038 比 SAS=4.051 小得多)。

图 3. 磺胺甲恶唑用例的分子化学结构。

案例2

另一方面,肾上腺素的 N-Boc 衍生物(图 4,左)不是肾上腺素的直接前体(图 4,右)。 在典型的程序中,不需要在整个合成途径中保护氨基。 N-Boc 导数在合成可访问性方面被正确识别为更复杂(SAS=8.399 大于 SAS = 7.631)。 这与肾上腺素是其 N-Boc 衍生物的前体这一事实相符。

图 4. 肾上腺素用例的化学结构。

用户数据流

SYNTHIA™ SAS 是一种云托管服务,每个客户都可以通过 RESTful API 使用。 它可横向扩展,并通过单一 API 入口点为所有客户提供高吞吐量。 最终用户需要以 SMILES 格式提供分子列表,SYNTHIA™ SAS 会为每个分子返回一个分数(图 5)。 该服务是无状态的,旨在根据需求进行扩展。

图 5. SYNTHIA™ SAS 服务数据流的示意图。

参考资料

  1.  Joshua Meyers、Benedek Fabian、Nathan Brown,De novo 分子设计和生成模型, 今日药物发现262021,2707-2715。 DOI
  2. SYNTHIA™ 逆合成软件
  3. 托马斯·克卢兹尼克, et al., 由计算机计划并在实验室执行的多种医学相关目标的有效合成, 化学4,  2018,522-532。 DOI
  4. 米库拉克-克卢兹尼克,B., et al. 复杂天然产物合成的计算规划, 自然, 5882020,83-88。 DOI
  5. 日光化学信息系统公司 
  6. 杨,K., et al. 分析学习到的分子表示以进行属性预测, 化学信息与建模杂志592019,3370-3388。 DOI
  7. Chemprop 开源项目
  8. ChEMBL数据库
  9. GDB数据库