白皮书:

专家与机器学习方法的协同作用可改进逆向合成规划

改编自
T.Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew.Chem.Int.Ed.2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083


Grzybowski 及其同事证明当人工智能 (AI) 软件将专家知识和机器从大型反应类型库中提取的信息结合在一起时,计算机设计的多步骤合成计划可以实现更高的合成精度。

引言

用于计算机设计合成计划的人工智能 (AI) 平台可从其资源和培训材料中寻找市售前体材料、评估各个合成步骤以及评估各种合成可能性。人工智能的组成部分是评分功能(SF),用于指导计划的制定。人工智能历来根据专家的合成知识或化学资料库等文献中报告的合成路线来制定化学合成计划。然而,每种数据集都有其优势和局限性。

虽然启发式的专家合成知识通常反映了化学家直觉中成功的化学计划,但化学家的偏好包括中心断开、减少环和立体中心的数量,以及通常对相关反应基团进行多步掩蔽和解除掩蔽。

相比之下,基于文献的机器学习功能侧重于有足够参考资料的流行反应类型,人工智能使用神经网络(NN)算法来确定一个或多个合成计划。NN 的 SFs 从特定数据库(如 USPTO(美国专利商标局))中编译关于反应和最终产品的信息。SFs 的输出提供了特定反应的概率(标识符,IDs),但可能会因热门反应而负担过重,错过化学家已知的更高效的反应。

结合专家和 NN 机器学习的人工智能培训材料的特点

NN 是在两种来源的类似产品和底物数据上进行训练的:文献中的反应和专家提供的高质量反应规则。所有分析都利用了约 160 万个反应报告,合成了约 140 万种独特产品(从简单化学品到复杂天然产品)。为了避免在合成计划中过度使用保护和去保护反应,这两种来源的反应均未包括在内。Grzybowski 及其同事要求文献中的每个反应都必须与 Chematica 75000 个程序中至少一个程序的专家反应规则一致。

这些分析平均为一种产品提供了约 60 个无冲突、与产品相匹配的重新操作。在为 140 万种产品制定合成计划的过程中,Grzybowski 及其同事总共考虑了约 8500 万个化学质量高且无冲突的反应。产品集被随机分为 70% 用于训练,10% 用于验证,20% 用于测试。

作者的程序(ICHO)具有基于 NN 的评分功能,包含四层:三个隐层,分别提供生产产品 1 (P1)、P2 和 P3 的可能反应,以及一个输出层(图 1 左侧面板)。增强型程序(ICHO+)利用以下化学直观反应的专家知识增强了 NN ICHO 架构:生成或破坏的环的数量、安装或移除的立体中心的数量、反应的选择性、分解产品的大小(相似与非常悬殊)等等。因此,ICHO+ 程序会根据专家合成计划中特定产品在文献中发生特定反应的频率进行调整。在 ICHO 和 ICHO+ 训练过程中,程序会为文献和专家合成计划中获得的特定反应分配较大的概率。与此相反,程序也会将非常流行的化学家规则的概率调低,而这种规则很少用于特定产品的合成,这表明该反应可能比较棘手、执行起来具有挑战性或效率低下。

人工智能平台的性能

图 1 [1,2]直接比较了 ICHO/ICHO+ 与 Segler 和 Walker 基于 NN 的程序(简称 SW)之间的 NN 架构。SW 人工智能平台和 2019 年发表的其他基于 NN 的人工智能合成平台只学习文献先例中的反应。包括 ICHO 和 SW 在内的大多数人工智能程序都使用一种流行的机器学习激活函数,即指数线性单元(ELU)。ELU 可加速训练并提高程序性能。综合 ICHO+ 程序的效率还与一个更新的启发式评分方案进行了比较,该方案最初称为 SMILES,用于评估合成设计的简易性。名为 SMALLER 的更新程序推进了中心断开,模拟了化学家的有机合成直觉和实践。SMALLER 的一个优点是,文献中的反应频率对最终建议路线的影响微乎其微。

在 ICHO 和 SW 程序中,从启发式专家化学规则中学习(ICHO+、SW+)只能略微提高合成计划的效率。将 SW 程序限制为产品匹配反应(SW2、SW2+)则提高了它们的性能。不过,ICHO+ 仍然是排名最高的途径,这可能是由于它对底物有更多的了解。

在开发涉及实验确定反应和相对先进合成路线的合成路线时,对三类程序的性能进行了评估。图 2 比较了 ICHO+、SW2+ 和 SMALLER 程序开发的四种复杂产品的合成计划。ICHO+ 在以下四种产品的合成计划中排名最高:BRD 7/9 抑制剂、5-羟色胺-去甲肾上腺素再摄取抑制剂 (+)-synosutine 、天然产品 seimatopolide A 和前列腺素类似物比马前列素。

摘要

Grzybowski 及其同事将他们基于 NN 的 ICHO+ 评分功能与其他基于 NN 的评分 AI 程序进行了比较,后者将化学 AI 与包括反应规则在内的专家知识相结合,用于制定复杂分子的合成计划。他们的例子证明了将化学人工智能与专家知识相结合的一大优势:该程序能够提出文献中很少列出的具有强大合成能力的反应。Chematica 已更新,现称为 SynthiaTM。它提供的人工智能逆合成软件除了可以利用几个公开的数据库外,还可以利用自定义化合物库或数据库(如内部保密反应数据库)。

参考文献

[1] Segler, M.H.S.et al. (2018).利用深度神经网络和符号 AI 规划化学合成。Nature.DOI:10.1038/nature25978.

[2] Segler, M.H.S. and Waller, M.P. (2017).Neural-Symbolic Machine Learning forRetrosynthesis and Reaction Prediction.Chemistry - A European Journal.DOI:10.1002/chem.201605499.