白皮书:
综合规划的计算分析:过去与未来

改编自
Wang, Z., Zhang, W. 和 Liu, B. (2021),《合成规划的计算分析》:过去与未来。Chin.J. Chem., 39: 3127-3143. https://doi.org/10.1002/cjoc.202100273
计算机辅助合成设计(CASP)在组织和利用大量新型化学反应和专家反应规则规划天然产品和候选药物的新型高效合成方面可以发挥重要作用。本综述介绍了合成规划计算分析从早期基于规则的程序到机器学习的进展及其综合能力。
导言
化学家利用逆合成分析来设计目标化合物的合成策略。简而言之,他们利用在目标化合物和后续前体中断裂化学键的经验进行迭代。
各种标准化工具(如 CML、SMILES、SMARTS、InChl 和 ECFP)将化学反应和分子转化为机器可读信息。更先进的算法(如神经网络、强化学习)扩展了化学反应的数据处理。
本综述涵盖三类 CASP。其中两类利用化学家的直觉和经验进行逻辑推导:CASP 算法基于手工编码的规则或自动提取的规则。第三类 CASP 使用化学反应数据库来训练机器学习 (ML) 算法。
。
CASP 系统的一般结构
典型的 CASP 系统有四个模块。反应模板数据库存储带有断键规则的已知反应。逆合成模块将模板数据库中的已知反应与输入分子的结构进行比对,并以迭代方式提供与市售前体最匹配的反应。树状指南和评估模块评估候选前体与合成路线的匹配程度。市售化合物数据库是逆向合成模块的终点站。
手编规则与逻辑算法相结合
具有代表性的 CASP 系统包括 LHASA、SECS、IGOR、CHIRON 和 Chematica/SynthiaTM。LHASA 和 SECS CASP 系统都包括一个通信模块:与写字板连接,以便化学家从合成树中评估和选择最佳路线。
IGOR(有机反应中间体生成)并不局限于根据经验得出的启发式规则进行逆合成分析。IGOR 包括参与反应的所有分子,需要大量计算,只能模拟简单的逆合成转化。
CHIRON 可以解码复杂的立体化学和功能,并将其与市面上立体化学丰富的前体相关联。它可以搜索与目标分子的骨架、立体中心和官能团密切相关的前体。
Chematica (现称 SynthiaTM)已将有机化学网络(NOC)扩展到约 1,000 万个化合物,并使用 SMILES/SMART 编码方法手工添加了兼容性和上下文信息(如规范条件、官能团的不容忍性、特定反应的区域和立体选择性)。其手工编码的反应规则在 2021 年增加到超过 100,000 条。Chematica/SynthiaTM 内置智能搜索功能和化学合成评分功能,可实现全局最优结果(如不对称合成的手性前体)。
Chematica/SynthiaTM 以树枝状方式呈现合成树:每个节点表示逆合成转化及其相关底物集(图 1a)。Chematica/SynthiaTM 为搜索算法中得分最低的节点设置了优先队列,从而加快了分析过程(图 1b)。
Chematica/SynthiaTM 包括各种量子力学和机器学习 (ML) 方法,用于优化搜索算法、评分函数和立体选择性转化。Chematica/SynthiaTM 为 8 种药物相关分子和几种复杂的天然产品设计了合成路线。它们的合成都是通过实验完成的。SynthiaTM 程序为 OICR-9429 设计了一条效率更高的合成路线(图 2)。据文献报道,OICR-9429 的收率仅为 1%,而 SynthiaTM 路线的收率高达 60%。此外,SynthiaTM 设计的合成路线简化了其纯化过程,从四道色谱程序简化为一道重结晶程序。因此,Grzybowski 及其同事清楚地证明了 Chematica/SynthiaTM 能够解决合成化学中的复杂问题。
手动提取反应模板可以拓宽化学反应的背景信息,增强回溯合成分析。自动提取和手动提取之间的选择取决于变量描述的一致性和所需的应用。

自动提取规则与逻辑算法相结合
每天自动提取新的化学反应和模板可以高效地维护数据库,但可能会遗漏相邻的官能团和原子。
SYNCHEM2 允许通过交替编码进行后向和前向合成转化。RETROSYN 对反应中心进行抽象,并通过一种特殊的图差算法在产品和反应物之间建立原子关联。RETROSYN 按从高到低的优先级对匹配程度进行搜索和排序,但忽略立体化学。
KOSP(以知识库为导向的合成设计系统)可自动提取反应模板,包括三个键距离内的活化基团/原子,以填充反应知识库。新版 KOSP 可进行区域和立体选择性逆合成分析,更新后的反应内容扩大了 10 倍。
ChemPlanner 是 ARChem 的后继版本,与美国化学文摘社和 Wiley 独家合作开发 SciFinder,这是一个由科学家编辑的反应内容数据库,具有很高的可访问性。新版 ChemPlanner 可进行区域和立体选择性逆合成分析。

ICSYNTH 以图形形式表示其反应知识数据库。用户可以从其保密的反应数据库中加入内部化学规则,并通过选择和编辑化学规则使 ICSYNTH 适应各种应用场景。
ASKCOS 可计算反应产物与目标分子的相似性,从而逐步制定逆合成计划。ASKCOS 的模块包括一步逆合成、交互式路径规划、树形生成器和上下文推荐。
。
自动提取的规则与机器学习算法相结合
ML 算法通过包括反应物在内的化学反应数据库进行训练。强化学习算法不断与环境互动,环境通过惩罚-奖励方法向算法传授最佳策略。
Bishop 程序将基于规则的逆向合成分析与强化学习相结合。化学反应网络编译中间体,连接反应物和产品,并有一个强化学习模块来绘制一个(多个)灵活定义的最优反应路径,并对成本、总体效率和/或环境影响进行潜在筛选。
3N-MCTS (蒙特卡洛树搜索算法)使用由文献中的产品和相关前体的数字序列训练而成的人工神经网络。基于人工神经网络的 CASP 系统重组了特定的已学反应规则,从而简化了计算过程。每轮 MCTS 包括选择、扩展、推出和更新。预测立体选择性需要改进。
Seq2Seq 模型与简化分子输入线-输入系统(SMILES)翻译
可以处理海量数据集,并以全局最优输出模拟反应。AutoSynRoute 通过应用 MCTS 算法和 Chematica/SynthiaTM 启发的启发式评分功能来评估合成路线。RXN 使用由两个数据库训练的两个逆合成 ML 模型。RXN 可以为拟议的合成路线预测合适的反应条件。
。
结论
一些 CASP 程序将启发式反应规则和文献中的反应规则应用于其带有或不带评分函数和 ML 的逆合成化学算法中(如 Chematica/SynthiaTM)。 其他 CASP 程序依赖于 ML 或将 ML 与启发式反应规则和/或基于文献的化学规则相结合。这些算法已经提供了新的合成路线,提高了复杂分子的产量。进一步的改进可以为复杂化合物提供新颖的合成路线,并提供更多的限制条件,如更低的成本、更小的环境足迹、更少的有害试剂或溶剂等。