Acesso API

API Access (Application Programming Interface) está disponível para organizações que gostariam de interconectar outras ferramentas Cheminformatics com SYNTHIA™ para uma experiência personalizada.

Os benefícios incluem:

  • Acesse a retrossíntese completa ou a API Synthetic Accessibility Score (SAS)
  • Visualize os dados lado a lado para melhorar os insights sobre a seleção de moléculas
  • Crie visualizações robustas usando várias fontes de dados
  • Informar a seleção de moléculas a montante da etapa de síntese
  • Analise milhares de caminhos em minutos com a API SAS

Contacte-nos para saber mais

Vá além da literatura com a API SYNTHIA

Aproveite o poder do Synthetic Accessibility Score (SAS)

A capacidade de diferenciar entre moléculas 'fáceis de fazer' e 'difíceis de fazer' é uma tarefa difícil, mas amplamente útil, por exemplo, para priorizar compostos em pipelines de triagem virtual. Ao combinar o moderno modelo de aprendizado profundo e os dados coletados com nosso renomado software de planejamento retrossintético, oferecemos Pontuação de acessibilidade sintética SYNTHIA™ (SAS) serviço, uma ferramenta aplicável a alto rendimento em sílico processamento de compostos.

Atualmente, química combinatória e modelagem generativa são usadas para construir conjuntos de dados de compostos gigantescos [1]. No entanto, a síntese real de muitas moléculas obtidas com tais métodos pode ser desafiadora. Para resolver esse problema, medidas de acessibilidade sintética são usadas para determinar a viabilidade da molécula o mais cedo possível no pipeline de descoberta de medicamentos.

O serviço SYNTHIA™ SAS API fornece as previsões para essa 'complexidade molecular' em termos de número de etapas sintéticas a partir de pequenos blocos de construção disponíveis comercialmente. O modelo de aprendizado de máquina que sustenta o SAS foi pré-treinado em cenários sintéticos obtidos com algoritmos da SYNTHIA™ Retrosynthetic Planning Tool [2], [3], [4]. Por fim, nosso produto hospedado na nuvem e com certificação ISO-27001 oferece a capacidade de processar facilmente milhões de moléculas diariamente e até mil moléculas em uma única consulta, permitindo que a previsão do serviço SYNTHIA™ SAS seja mais comumente usada no processo de design de medicamentos.

Entrada/saída para modelo SAS

Moléculas de entrada precisam ser fornecidas no formato de texto SMILES amplamente usado [5] e o endpoint da API suporta solicitações em lote. Os SMILES de entrada consistem em uma única molécula de fragmento.

A medida retornada, aqui definida como Pontuação de Acessibilidade Sintética (SAS), é um único número flutuante no intervalo de 0 a 10, atribuído a cada molécula de entrada correspondente. A pontuação retornada aproxima quantos passos são necessários para sintetizar a molécula usando blocos de construção disponíveis comercialmente. Os números mais baixos (valores próximos a 0) são retornados a produtos químicos que são considerados fáceis de fabricar (ou mesmo podem estar disponíveis comercialmente). Os números mais altos são retornados quando o modelo prevê mais etapas sintéticas para obter o composto solicitado. Para pontuações próximas do valor máximo (10), prevê-se que a síntese seja extremamente complexa (muitas etapas de reação) ou mesmo inviável, por exemplo, devido a motivos estruturais exóticos na molécula. Em geral, quanto menor a pontuação, mais fácil deve ser sintetizar a molécula.

No caso de algumas das moléculas solicitadas serem inválidas (por exemplo, hipervalentes, anéis incompletos, protonação imprópria de átomos aromáticos, multifragmento), a solicitação ainda será processada. As pontuações para essas entradas serão nulas e os comentários apropriados serão retornados ao lado da estrutura de resposta.

Características do modelo preditivo

O SYNTHIA™ SAS v1.0 é baseado em um regressor que inclui rede neural convolutiva gráfica (GCNN). Essa arquitetura permite aprender uma representação interna de cada molécula operando em sua estrutura gráfica em vez de descritores moleculares pré-computados [6]. Em particular, o modelo consiste em uma rede neural de passagem de mensagem dirigida em nível de vínculo (D-MPNN) seguida por uma rede neural feedforward (FNN). A implementação foi adaptada do projeto de código aberto Chemprop [7].

O modelo de aprendizado de máquina foi treinado usando os resultados do módulo de retrossíntese automática SYNTHIA™ como um valor alvo. A pontuação SYNTHIA™ especializada e normalizada foi usada para refletir o número de etapas, por exemplo, não penalizar reações não seletivas, estratégia de proteção implícita, contribuição mínima de preço para a pontuação e apenas pequenos blocos de construção foram usados ​​como configurações de pesquisa SYNTHIA™. Além disso, uma função de suavização foi aplicada para melhorar o gradiente de construção para altas pontuações, visando uma melhor resolução de moléculas difíceis de sintetizar (ver também a Fig. 1).

função de suavização aplicada a pontuações synthia sas

Figura 1. Representação da função de suavização aplicada às pontuações. Observe que, em valores pequenos e moderados (eixo x), a pontuação de acessibilidade sintética (eixo y) se comporta quase linear. Em outras palavras, a pontuação retornada corresponde ao número de passos sintéticos previstos pelo modelo. Para um número maior de etapas de síntese previstas (cerca de 10 ou acima), a pontuação relacionada é suavizada de forma que o valor retornado ainda esteja próximo de (e não maior que) 10. Isso permite redimensionar todos os casos considerados para [0, 10] intervalo.

Os dados usados ​​para treinamento de modelos de aprendizado de máquina possuem 33306 moléculas no total. É composto por moléculas conhecidas (banco de dados ChEMBL) [8] e pequenas moléculas geradas combinatoriamente (GDB) [9]. A composição dos dados antes da divisão treino/teste:

  • Subconjunto GDB: 16081, incluindo:
    • compostos com 1-7 átomos pesados ​​(C, N, O, Cl, S): 7198
    • compostos com 8-9 átomos pesados ​​(C, N, O): 8883
  • Subconjunto ChEMBL: 17225, incluindo:
    • compostos sintéticos pequenos selecionados aleatoriamente: 15449
    • compostos derivados de produtos naturais selecionados aleatoriamente: 1776

O treinamento e a avaliação do modelo de aprendizado de máquina exigiam a divisão dos dados em conjuntos de treinamento e teste (foi usada a divisão comum de treinamento/teste 80/20). Além disso, o conjunto de validação interna foi extraído usando a proporção de 9:1 do conjunto de treinamento e foi usado para otimização de parâmetros de rede.

A pontuação prevista (modelo SYNTHIA™ SAS) se correlaciona com o valor alvo com base nas pontuações SYNTHIA™ com R2 = 0.726 e MAE = 1.1497. O gráfico de dispersão com linha ajustada e gráfico de caixa mostrando densidade/distribuição de pontos de dados são apresentados na Fig. 2.

gráficos de dispersão e caixa mostrando correlações de synthia vs. modelo

Figura 2. Gráfico de dispersão e caixa mostrando a correlação entre os escores SA calculados com SYNTHIA™ versus os escores aprendidos pelo modelo.

Os resultados previstos com o SYNTHIA™ SAS são baseados em relacionamentos recuperados de conjuntos de dados (possivelmente, bastante complexos e não fáceis de capturar). Isso deve ser levado em consideração quando novas moléculas são consultadas via SYNTHIA™ SAS-API. Ou seja, pontuações para moléculas que não estão relacionadas ao conjunto de teste podem cair fora do chamado domínio de aplicabilidade, portanto, os resultados correspondentes podem não ser significativos. Esta é uma limitação típica de modelos orientados a dados, mas é sempre bom lembrar de tal limitação para evitar interpretações errôneas dos escores obtidos.

Estudos e Casos

Caso 1

O derivado N-acetil do sulfametoxazol (Fig. 3, à esquerda) é um precursor direto dessa droga (Fig. 3, à direita). Apesar da estrutura química mais complexa, o derivado é reconhecido como mais fácil de sintetizar (SAS=1.038 é bem menor que SAS=4.051).

Figura 3. Estruturas químicas de moléculas para o caso de uso do sulfametoxazol.

Caso 2

Por outro lado, o derivado N-Boc da adrenalina (Fig. 4, à esquerda) não é um precursor direto da adrenalina (Fig. 4, à direita). No procedimento típico, não há necessidade de proteger o grupo amino ao longo da via de síntese. O derivado N-Boc é corretamente reconhecido como mais complexo em termos de acessibilidade sintética (SAS=8.399 é maior que SAS=7.631). Isso está de acordo com o fato de que a adrenalina é um precursor de seu derivado N-Boc.

Figura 4. Estruturas químicas para o caso de uso de adrenalina.

Fluxo de dados do usuário

SYNTHIA™ SAS é um serviço hospedado na nuvem, disponível para cada cliente por meio da API RESTful. É escalável horizontalmente e fornece alto rendimento por meio de um único ponto de entrada de API para todos os clientes. O usuário final precisa fornecer uma lista de moléculas em formato SMILES e o SYNTHIA™ SAS retorna uma pontuação para cada uma delas (Fig. 5). O serviço é sem estado e projetado para escalar de acordo com a demanda.

Figura 5. Representação esquemática do fluxo de dados do serviço SYNTHIA™ SAS.

Referências

  1.  Joshua Meyers, Benedek Fabian, Nathan Brown, De novo design molecular e modelos generativos, Descoberta de drogas hoje262021, 2707-2715. DOI
  2. Software de retrossíntese SYNTHIA™
  3. Tomasz Klucznik, et ai., Síntese Eficiente de Diversos Alvos Relevantes Medicinalmente Planejados por Computador e Executados em Laboratório, Chem4,  2018, 522-532. DOI
  4. Mikulak-Klucznik, B., et ai. Planejamento computacional da síntese de produtos naturais complexos, Natureza, 588202083-88. DOI
  5. Luz do dia Chemical Information Systems, Inc. 
  6. Yang, K., et ai. Analisando Representações Moleculares Aprendidas para Predição de Propriedades, Jornal de informações químicas e modelagem592019, 3370-3388. DOI
  7. Projeto de código aberto Chemprop
  8. banco de dados ChEMBL
  9. banco de dados GDB