Folha em branco:

A sinergia entre as abordagens de peritos e de aprendizagem automática permite um melhor planeamento retrospetivo

Adaptado de
T. Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew. Chem. Int. Ed. 2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083
Publicado com a cortesia de Wiley.

Grzybowski e colegas demonstram que é possível obter uma maior precisão sintética em planos sintéticos de várias etapas concebidos por computador quando o software de Inteligência artificial (IA) combina conhecimentos especializados e informações extraídas por máquina de grandes repositórios de tipos de reacções.

Introdução

As plataformas de inteligência artificial (IA) para planos sintéticos concebidos por computador procuram materiais precursores disponíveis comercialmente, avaliam etapas sintéticas individuais e avaliam as vastas possibilidades sintéticas a partir dos seus recursos e materiais de formação. Os componentes integrais da IA são as funções de pontuação (SF) que orientam o desenvolvimento dos planos. Historicamente, a IA tem desenvolvido planos de síntese química com base em conhecimentos de síntese de especialistas ou em Vias sintéticas registadas na literatura, como repositórios de produtos químicos. No entanto, cada conjunto de dados tem vantagens e limitações.

Embora o conhecimento sintético heurístico e especializado reflicta geralmente os planos químicos bem sucedidos da intuição dos químicos, as preferências dos químicos incluem desconexões centrais, números reduzidos de anéis e estereocentros e, muitas vezes, várias etapas de mascaramento e desmascaramento de grupos reactivos pertinentes.

Em comparação, as funções de aprendizagem automática baseadas na literatura centram-se em tipos de reação populares com referências suficientes, e a IA utiliza algoritmos de redes neuronais (NN) para identificar um ou mais planos sintéticos. Os SFs das NNs compilam informações sobre reacções e produtos finais a partir de uma base de dados específica, como o USPTO (US Patent Trademark Office). O resultado dos SFs fornece a probabilidade de reacções específicas (identificadores, IDs), mas pode ser excessivamente sobrecarregado com reacções populares e deixar passar reacções mais eficientes conhecidas pelos químicos.

Caraterísticas dos materiais de formação de IA para combinar a aprendizagem automática de peritos e NN

A NN é treinada com dados análogos de produtos e substratos de ambas as fontes: reacções da literatura e regras de reação de alta qualidade de especialistas. Todas as análises utilizaram cerca de 1,6 milhões de reações relatadas para sintetizar cerca de 1,4 milhões de Produtos únicos (químicos simples a produtos naturais complexos). As reacções de proteção e desproteção de qualquer das fontes não foram incluídas para evitar a sua utilização excessiva nos planos sintéticos. Grzybowski e colegas exigiram que cada reação incluída na literatura estivesse de acordo com a(s) regra(s) de reação de um perito de, pelo menos, um dos 75000 procedimentos da Chematica. O resultado baseado em SF pode incluir um plano sintético que envolva regras de reação alternativas da Chematica, agora designada SynthiaTM e disponível comercialmente.

As acções de análise forneceram uma média de aproximadamente 60 reacções livres de conflitos e adequadas a um produto. No total, Grzybowski e colegas consideraram cerca de 85 milhões de reacções de elevada qualidade química e sem conflitos no desenvolvimento de planos sintéticos para 1,4 milhões de Produtos. O conjunto de produtos foi dividido aleatoriamente em 70% para treino, 10% para validação e 20% para teste.

O programa dos autores (ICHO) tem uma função de pontuação baseada em NN que contém quatro camadas: três camadas ocultas que fornecem possíveis reacções para produzir o produto 1 (P1), P2 e P3, e uma camada de saída (Fig. 1 painel esquerdo). O programa melhorado (ICHO+) aumentou a arquitetura do NN ICHO com os seguintes conhecimentos especializados de reacções quimicamente intuitivas: número de anéis criados ou destruídos, número de estereocentros instalados ou removidos, Seletividade da reação, tamanhos dos produtos de decomposição (semelhantes vs muito díspares), e muito mais. O programa ICHO+ ajusta assim a frequência de reacções específicas para um determinado Produto na literatura com as suas frequências em planos sintéticos especializados. Durante a formação do ICHO e do ICHO+, o programa atribui maiores probabilidades a reacções específicas obtidas tanto na literatura como nos planos sintéticos de peritos. Em contrapartida, o programa também ajusta a probabilidade mais baixa para uma regra química muito popular que raramente é utilizada para a síntese de um determinado Produto, sugerindo que a reação pode ser complicada, difícil de executar ou ineficiente.

Desempenho das plataformas de IA

A comparação direta da arquitetura NN entre o ICHO/ICHO+ e o programa baseado em NN de Segler e Walker, designado por SW, é ilustrada na Figura 1 [1,2]. A plataforma de IA SW e outras plataformas sintéticas de IA baseadas em NN publicadas em 2019 aprendem apenas com reacções em precedentes da literatura. A maioria dos programas de IA, incluindo o ICHO e o SW, utiliza uma função de ativação popular de aprendizagem automática denominada unidade linear exponencial (ELU). A ELU acelera a formação e aumenta o desempenho do programa. A Eficiência do programa combinado ICHO+ foi também comparada com um esquema de pontuação heurística atualizado, originalmente chamado SMILES, que avalia a simplicidade do plano de síntese. O programa atualizado, denominado SMALLER, avança com desconexões centrais que simulam a intuição sintética orgânica e a prática dos químicos. Uma vantagem do SMALLER é que a frequência das reacções na literatura tem uma influência mínima na rota final proposta.

Nos programas ICHO e SW, a inclusão da aprendizagem a partir das regras químicas dos peritos heurísticos (ICHO+, SW+) apenas melhorou marginalmente a Eficiência dos planos sintéticos. A limitação dos programas SW às reacções de ajuste de produtos (SW2, SW2+) melhorou o seu desempenho. No entanto, o ICHO+ continuou a ser a via mais bem classificada, provavelmente devido ao seu conhecimento adicional dos substratos.

O desempenho dos três tipos de programas foi avaliado no desenvolvimento de vias sintéticas envolvendo tanto reacções estabelecidas experimentalmente como Vias sintéticas relativamente avançadas. Os planos sintéticos para quatro Produtos complexos desenvolvidos pelos programas ICHO+, SW2+ e SMALLER são comparados na Figura 2. O ICHO+ obteve a classificação mais elevada para os planos sintéticos dos quatro produtos: o inibidor da BRD 7/9, o inibidor da recaptação da serotonina-norepinefrina (+)-sinosutina, o produto natural seimatopolida A e o análogo da prostaglandina bimatoprost.

Resumo

Grzybowski e colegas compararam as suas funções de pontuação ICHO+ baseadas em NN que combinam IA química com conhecimentos especializados, incluindo regras de reação, com outros programas de IA de pontuação baseados em NN para o desenvolvimento de planos sintéticos de moléculas complexas. Os seus exemplos demonstram uma grande vantagem da combinação da IA química com o conhecimento especializado: a capacidade do programa para propor reacções sinteticamente poderosas que estão listadas apenas de forma esparsa na literatura. O Chematica foi atualizado e chama-se agora SynthiaTM. Fornece software de retrosíntese SYNTHIA® que também pode utilizar um inventário ou uma base de dados personalizada (por exemplo, uma base de dados interna de reacções confidenciais), para além de várias bases de dados publicamente disponíveis.

Referências

[1] Segler, M.H.S. et al. (2018). Planejamento de sínteses químicas com redes neurais profundas e IA simbólica. Nature. DOI:10.1038/nature25978.

[2] Segler, M.H.S. e Waller, M.P. (2017).Aprendizado de máquina neural-simbólica para re-síntese e previsão de reação.Chemistry - A European Journal. DOI:10.1002/chem.201605499.