Folha em branco:
Synergy Between Expert and Machine-Learning Approaches Allows for Improved Retrosynthetic Planning (Sinergia entre abordagens de especialistas e de aprendizado de máquina permite um melhor planejamento retrosintético)

Adaptado de
T. Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew. Chem. Int. Ed. 2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083
Publicado com a cortesia da Wiley.
Grzybowski e colegas demonstram que é possível obter maior precisão sintética em planos sintéticos de várias etapas projetados por computador quando o software de Inteligência artificial (IA) combina conhecimento especializado e informações extraídas por máquina de grandes repositórios de tipos de reações.
Introdução
As plataformas de inteligência artificial (IA) para planos sintéticos projetados por computador buscam materiais precursores disponíveis comercialmente, avaliam etapas sintéticas individuais e avaliam as vastas possibilidades sintéticas a partir de seus recursos e materiais de treinamento. Os componentes integrais da IA são as funções de pontuação (SFs) que orientam o desenvolvimento dos planos. Historicamente, a IA desenvolveu planos de Síntese química com base no conhecimento de síntese de especialistas ou em Vias sintéticas relatadas na literatura, como repositórios químicos. No entanto, cada conjunto de dados tem vantagens e limitações.
Embora o conhecimento sintético heurístico e especializado geralmente reflita os planos químicos bem-sucedidos da intuição dos químicos, as preferências dos químicos incluem desconexões centrais, números reduzidos de anéis e estereocentros e, muitas vezes, várias etapas de mascaramento e desmascaramento de grupos reativos pertinentes.
Em comparação, as funções de aprendizado de máquina baseadas na literatura se concentram em tipos de reações populares com referências suficientes, e a IA usa algoritmos de rede neural (NN) para identificar um ou mais planos sintéticos. Os SFs das NNs compilam informações sobre reações e produtos finais de um banco de dados específico, como o USPTO (US Patent Trademark Office). O resultado dos SFs fornece a probabilidade de reações específicas (identificadores, IDs), mas pode ser sobrecarregado com reações populares e deixar passar reações mais eficientes conhecidas pelos químicos.
Características dos materiais de treinamento de IA para combinar aprendizado de máquina de especialistas e NN
A NN é treinada em dados análogos de produtos e substratos de ambas as fontes: reações da literatura e regras de reação de alta qualidade de especialistas. Todas as análises utilizaram aproximadamente 1,6 milhão de reações relatadas para sintetizar aproximadamente 1,4 milhão de Produtos exclusivos (de produtos químicos simples a produtos naturais complexos). As reações de proteção e desproteção de ambas as fontes não foram incluídas para evitar seu uso excessivo nos planos sintéticos. Grzybowski e seus colegas exigiram que cada reação incluída da literatura estivesse de acordo com as regras de reação de um especialista de pelo menos um dos 75.000 procedimentos da Chematica. O resultado baseado em SF pode incluir um plano sintético que envolva regras de reação alternativas da Chematica, agora chamada SynthiaTM e disponível comercialmente.
As análises forneceram uma média de aproximadamente 60 reações livres de conflitos e adequadas a um produto. No total, Grzybowski e seus colegas consideraram aproximadamente 85 milhões de reações de alta qualidade química e sem conflitos no desenvolvimento de planos sintéticos para 1,4 milhão de Produtos. O conjunto de produtos foi dividido aleatoriamente em 70% para treinamento, 10% para validação e 20% para teste.
O programa dos autores (ICHO) tem uma função de pontuação baseada em NN que contém quatro camadas: três camadas ocultas que fornecem possíveis reações para produzir o produto 1 (P1), P2 e P3, e uma camada de saída (Fig. 1 painel esquerdo). O programa aprimorado (ICHO+) aumentou a arquitetura do NN ICHO com o seguinte conhecimento especializado de reações quimicamente intuitivas: número de anéis criados ou destruídos, número de estereocentros instalados ou removidos, Seletividade da reação, tamanhos dos produtos de decomposição (semelhantes ou muito diferentes) e muito mais. Assim, o programa ICHO+ ajusta a frequência de reações específicas para um determinado Produto na literatura com suas frequências em planos sintéticos especializados. Durante o treinamento do ICHO e do ICHO+, o programa atribui probabilidades maiores para reações específicas obtidas tanto na literatura quanto nos planos sintéticos de especialistas. Em contrapartida, o programa também ajusta a probabilidade mais baixa para uma regra química muito popular que raramente é usada para a síntese de um determinado Produto, sugerindo que a reação pode ser complicada, difícil de executar ou ineficiente.
Desempenho das plataformas de IA
A comparação direta da arquitetura NN entre o ICHO/ICHO+ e o programa baseado em NN de Segler e Walker, denominado SW, é ilustrada na Figura 1 [1,2]. A plataforma de IA SW e outras plataformas sintéticas de IA baseadas em NN publicadas em 2019 aprendem apenas com reações em precedentes da literatura. A maioria dos programas de IA, incluindo ICHO e SW, usa uma função de ativação de aprendizado de máquina popular chamada unidade linear exponencial (ELU). A ELU acelera o treinamento e aumenta o desempenho do programa. A Eficiência do programa ICHO+ combinado também foi comparada a um esquema de pontuação heurística atualizado, originalmente chamado SMILES, que avalia a simplicidade do plano de síntese. O programa atualizado, chamado SMALLER, avança as desconexões centrais que simulam a intuição sintética orgânica e a prática dos químicos. Uma vantagem do SMALLER é que a frequência das reações na literatura tem influência mínima sobre a rota final proposta.

Nos programas ICHO e SW, a inclusão do aprendizado das regras químicas de especialistas em heurística (ICHO+, SW+) melhorou apenas marginalmente a Eficiência dos planos sintéticos. Limitar os programas SW às reações de ajuste de produto (SW2, SW2+) melhorou seu desempenho. No entanto, o ICHO+ continuou sendo o caminho mais bem classificado, provavelmente devido ao seu conhecimento adicional de substratos.
O desempenho dos três tipos de programas foi avaliado no desenvolvimento de Vias sintéticas envolvendo tanto reações estabelecidas experimentalmente quanto Vias sintéticas relativamente avançadas. Os planos sintéticos para quatro Produtos complexos desenvolvidos pelos programas ICHO+, SW2+ e SMALLER são comparados na Figura 2. O ICHO+ obteve a melhor classificação para os planos sintéticos dos quatro produtos: o inibidor de BRD 7/9, o inibidor de recaptação de serotonina-norepinefrina (+)-sinosutina, o produto natural seimatopolida A e o análogo de prostaglandina bimatoprost.

Resumo
Grzybowski e seus colegas compararam suas funções de pontuação ICHO+ baseadas em NN que combinam IA química com conhecimento especializado, incluindo regras de reação, com outros programas de IA de pontuação baseados em NN para o desenvolvimento de planos sintéticos de moléculas complexas. Seus exemplos demonstram uma grande vantagem da combinação de IA química com conhecimento especializado: a capacidade do programa de propor reações sinteticamente poderosas que são listadas apenas de forma esparsa na literatura. O Chematica foi atualizado e agora se chama SynthiaTM. Ele fornece um software de retrosíntese SYNTHIA® que também pode utilizar um inventário ou banco de dados personalizado (por exemplo, um banco de dados interno de reações confidenciais), além de vários bancos de dados disponíveis publicamente.
Referências
[1] Segler, M.H.S. et al. (2018). Planejamento de sínteses químicas com redes neurais profundas e IA simbólica. Nature. DOI:10.1038/nature25978.
[2] Segler, M.H.S. and Waller, M.P. (2017).Neural-Symbolic Machine Learning forRetrosynthesis and Reaction Prediction.Chemistry - A European Journal. DOI:10.1002/chem.201605499.