Folha em branco:

Análise computacional do planeamento sintético: Passado e Futuro

Adaptado de
Wang, Z., Zhang, W. e Liu, B. (2021), Computational Analysis of Synthetic Planning: Passado e Futuro. Chin. J. Chem., 39: 3127-3143. https://doi.org/10.1002/cjoc.202100273
Publicado com a cortesia de Wiley.

O planejamento de síntese auxiliado por computador (CASP) pode desempenhar um papel significativo na organização e alavancagem da inundação de novas reações químicas e regras de reação especializadas para o planejamento de síntese nova e altamente eficiente de produtos naturais e candidatos a medicamentos. Esta revisão descreve o progresso na análise computacional do planeamento sintético desde a fase inicial centrada em programas baseados em regras até à aprendizagem automática e à sua capacidade combinada.

Introdução

Os químicos utilizam a análise retrosintética para conceber uma estratégia sintética para um composto alvo. Resumidamente, utilizam as suas experiências na quebra de ligações químicas no composto alvo e nos precursores subsequentes de uma forma iterativa.

Várias ferramentas normalizadas (por exemplo, CML, SMILES, SMARTS, InChl e ECFP) traduzem reacções químicas e moléculas em informação legível por máquina. Algoritmos mais avançados (por exemplo, redes neuronais, aprendizagem por reforço) expandem o processamento de dados de reacções químicas.

Esta análise abrange três categorias de CASP. Duas categorias utilizam a dedução lógica das intuições e experiências dos químicos: Algoritmos CASP baseados em regras codificadas à mão ou em regras extraídas automaticamente. A terceira categoria de CASP utiliza Bancos de dados de reações químicas para treinamento de algoritmo(s) de aprendizado de máquina (ML).

Estrutura geral do sistema CASP

Um sistema CASP típico tem quatro módulos. A base de dados de modelos de reações armazena reações conhecidas com regras de quebra de ligações. O módulo retrosintético alinha as reacções conhecidas na base de dados de modelos com as estruturas das moléculas de entrada e fornece a correspondência mais próxima com os precursores comercialmente disponíveis de forma iterativa. O guia de árvores e o módulo de avaliação avaliam a adequação dos precursores candidatos às Rotas sintéticas. A base de dados de compostos disponíveis no mercado funciona como um ponto de paragem para o módulo retrosintético.

Regras codificadas à mão combinadas com um algoritmo lógico

Os sistemas CASP representativos incluem LHASA, SECS, IGOR, CHIRON e Chematica/ SynthiaTM. Os sistemas CASP LHASA e SECS incluíam um módulo de comunicação: um bloco de escrita com interface para que os químicos pudessem avaliar e selecionar a melhor rota da árvore sintética.

O IGOR (Geração Intermédia de Reacções Orgânicas) não restringiu a análise retrosintética a regras heurísticas derivadas empiricamente. O IGOR inclui todas as moléculas que participam numa reação, requer cálculos exaustivos e só pode simular transformações retrosintéticas simples.

O CHIRON pode descodificar estereoquímica e funcionalidade complexas, que pode correlacionar com precursores comercialmente disponíveis enriquecidos em estereoquímica. Procura precursores com esqueletos, estereocentros e grupos funcionais estreitamente relacionados com a molécula alvo.

O Chematica (agora denominado SynthiaTM) expandiu a Rede de Química Orgânica (NOC) para cerca de 10 milhões de compostos e adicionou manualmente informações de compatibilidade e contexto (por exemplo, condições canónicas, intolerância de grupos funcionais, regio e estereosselectividade de reacções específicas) utilizando o método de codificação SMILES/SMART. As suas regras de reação codificadas manualmente aumentaram para mais de 100 000 em 2021. O Chematica/SynthiaTM incorporou uma função de pesquisa inteligente e funções de pontuação química que permitem obter resultados globalmente óptimos (por exemplo, precursor quiral para síntese assimétrica).

O Chematica/SynthiaTM apresenta a árvore sintética de uma forma dendrítica: cada nó denota a transformação retrossintética e o seu conjunto de substratos associado (Fig. 1a). O Chematica/SynthiaTM acelera o processo analítico com uma fila de prioridades para os nós com pontuação mais baixa no algoritmo de pesquisa (Fig. 1b).

O Chematica/SynthiaTM inclui vários métodos de mecânica quântica e de aprendizagem automática (ML) para otimizar o algoritmo de pesquisa, as funções de pontuação e as transformações estereosselectivas. O Chematica/SynthiaTM concebeu rotas sintéticas para oito moléculas relacionadas com medicamentos e vários produtos naturais complexos. As suas sínteses foram realizadas experimentalmente. O programa SynthiaTM concebeu uma rota sintética mais eficiente para o OICR-9429 (Fig. 2). A literatura refere um rendimento de 1% do OICR-9429, mas a via SynthiaTM produziu 60%. Além disso, a via sintética concebida pelo SynthiaTM simplificou a sua purificação de quatro procedimentos cromatográficos para uma recristalização. Assim, Grzybowski e colaboradores demonstram claramente que o Chematica/SynthiaTM pode resolver problemas complexos em química sintética.

A extração manual de modelos de reação pode alargar a informação de contexto das reacções químicas e melhorar as análises retrosintéticas. A escolha entre a extração automática e manual depende da descrição consistente das variáveis e das aplicações pretendidas.

Regras Extraídas Automaticamente Combinadas com Algoritmo Lógico

A extração automática de novas reações químicas e modelos diariamente pode manter bases de dados com eficiência, mas pode perder grupos funcionais e átomos adjacentes.

SYNCHEM2 permite transformações sintéticas para trás e para a frente com codificação alternativa. O RETROSYN abstrai o centro de reação e constrói a correlação atómica entre Produtos e Reagentes com um algoritmo especial de diferença de gráficos. O RETROSYN procura e ordena o grau de correspondência com uma prioridade alta a baixa, mas ignora a estereoquímica.

KOSP (Kowledge-Base-Oriented System for Planejamento de síntese) extrai automaticamente modelos de reação incluindo grupos/átomos activadores dentro de três distâncias de ligação para preencher a Reaction Knowledge Base. A nova versão do KOSP permite a análise de retrosíntese regio- e estereosselectiva e as actualizações expandiram o conteúdo da reação em 10 vezes.

O ChemPlanner, sucessor do ARChem, tem uma cooperação exclusiva com o American Chemical Abstracts Service e a Wiley para o SciFinder, uma base de dados altamente acessível de conteúdos de reacções com curadoria científica. A nova versão do ChemPlanner permite a análise de retrosíntese regio- e estereoselectiva.

O ICSYNTH representa a sua base de dados de conhecimentos sobre reacções sob a forma de gráficos. Os utilizadores podem incluir regras químicas internas da sua base de dados confidencial de reações e adaptar o ICSYNTH a vários cenários de aplicação, selecionando e editando regras químicas.

ASKCOS calcula a similaridade dos produtos de reação com a molécula alvo para desenvolver um plano retrosintético de forma gradual. Os módulos do ASKCOS incluem a Retrossíntese em Uma Etapa, o Planeamento Interativo de Caminhos, o Construtor de Árvores e a Recomendação de Contexto.

Regras Extraídas Automaticamente Combinadas com Algoritmo de Aprendizagem Automática

Os algoritmos de ML são treinados com Bancos de dados de reações químicas, incluindo reagentes. Os algoritmos de aprendizagem por reforço interagem continuamente com o ambiente que lhes ensina a estratégia óptima através de uma abordagem de penalização-recompensa.

O programa Bishop combina a análise retrosintética baseada em regras e a aprendizagem por reforço. A Rede de Reacções Químicas compila os intermediários, liga reagentes e produtos, e tem um módulo de aprendizagem por reforço para mapear uma via(s) de reação óptima(s) definida(s) de forma flexível com filtros potenciais para custos, Eficiência global, e/ou impactos ambientais.

O 3N-MCTS (algoritmo Monte Carlo Tree Search) utiliza as redes neurais artificiais treinadas por sequências digitais de Produtos e precursores relevantes da literatura. O sistema CASP baseado em RNA reorganiza as regras de reação específicas aprendidas, o que simplifica o processo de cálculo. Cada ronda MCTS consiste em Seleção, Expansão, Lançamento e Atualização. São necessários melhoramentos para prever as estereosselectividades.

O modelo Seq2Seq com a tradução Simplified Molecular Input Line-Entry System (SMILES)

pode processar um conjunto de dados maciço e simular uma reação com um resultado global ótimo. O AutoSynRoute avalia as Vias sintéticas aplicando o algoritmo MCTS com funções de pontuação heurística inspiradas no Chematica/SynthiaTM. O RXN utiliza dois modelos ML retrosintéticos treinados por duas bases de dados. O RXN pode prever as condições de reação adequadas para a rota sintética proposta.

Conclusões

Vários programas CASP aplicam regras de reação heurísticas e regras de reação da literatura nos seus algoritmos para química retrosintética com ou sem funções de pontuação e ML (por exemplo, Chematica/SynthiaTM). Outros programas CASP baseiam-se em ML ou na combinação de ML com regras de reação heurísticas e/ou regras químicas baseadas na literatura. Estes algoritmos já forneceram Rotas sintéticas novas que melhoraram o rendimento de moléculas complicadas. Outras melhorias podem fornecer novas rotas sintéticas para compostos complexos com restrições adicionais, tais como menor custo, menor pegada ambiental e menos reagentes ou solventes perigosos.