API 액세스

API 액세스(Application Programming Interface)는 맞춤형 경험을 위해 다른 Cheminformatics 도구를 SYNTHIA™와 상호 연결하려는 조직에서 사용할 수 있습니다.

장점은 다음과 같습니다 :

  • 전체 역합성 또는 SAS(Synthetic Accessibility Score) API에 액세스
  • 분자 선택에 대한 통찰력을 향상시키기 위해 데이터를 나란히 보기
  • 여러 데이터 소스를 사용하여 강력한 시각화 생성
  • 합성 단계 업스트림에서 분자 선택 정보 제공
  • SAS API로 몇 분 만에 수천 개의 경로 분석

자세히 알아보기

SYNTHIA API로 문헌을 뛰어넘다

SAS(Synthetic Accessibility Score)의 힘 활용

'만들기 쉬운' 분자와 '만들기 어려운' 분자를 구별하는 능력은 어렵지만 가상 스크리닝 파이프라인에서 화합물의 우선순위를 정하는 데 널리 유용한 작업입니다. 최신 딥 러닝 모델과 당사의 유명한 역합성 계획 소프트웨어로 수집된 데이터를 결합하여 다음을 제공합니다. SYNTHIA™ 합성 접근성 점수(SAS) 서비스, ​​높은 처리량에 적용 가능한 도구 인실리코 화합물 처리.

현재 조합 화학 및 생성 모델링은 거대한 화합물 데이터 세트를 구성하는 데 사용됩니다[1]. 그러나 이러한 방법으로 얻은 많은 분자의 실제 합성은 어려울 수 있습니다. 이 문제를 해결하기 위해 합성 접근성 측정을 사용하여 약물 발견 파이프라인에서 가능한 한 빨리 분자 실현 가능성을 결정합니다.

SYNTHIA™ SAS API 서비스는 상업적으로 이용 가능한 작은 빌딩 블록의 합성 단계 수 측면에서 이러한 '분자 복잡성'에 대한 예측을 제공합니다. SAS를 뒷받침하는 기계 학습 모델은 SYNTHIA™ Retrosynthetic Planning Tool [2], [3], [4]의 알고리즘으로 얻은 합성 시나리오에 대해 사전 훈련되었습니다. 마지막으로 당사의 클라우드 호스팅 및 ISO-27001 인증 제품은 단일 쿼리에서 매일 수백만 개의 분자와 최대 천 개의 분자를 쉽게 처리할 수 있는 기능을 제공하여 SYNTHIA™ SAS 서비스 예측이 약물 설계 프로세스에서 보다 일반적으로 사용될 수 있도록 합니다.

SAS 모델의 입력/출력

입력 분자는 널리 사용되는 SMILES 텍스트 형식[5]으로 제공되어야 하며 API 엔드포인트는 일괄 요청을 지원합니다. 입력 SMILES는 단일 단편 분자로 구성됩니다.

여기에서 SAS(Synthetic Accessibility Score)로 정의된 반환된 측정값은 각 해당 입력 분자에 할당된 0-10 범위의 단일 플로트 숫자입니다. 반환된 점수는 상업적으로 이용 가능한 빌딩 블록을 사용하여 분자를 합성하는 데 걸리는 대략적인 단계입니다. 가장 낮은 숫자(0에 가까운 값)는 만들기 쉬울 것으로 예측되는(또는 상업적으로 이용 가능할 수도 있는) 화학 물질로 반환됩니다. 모델이 요청된 화합물을 얻기 위해 더 많은 합성 단계를 예측할 때 더 높은 숫자가 반환됩니다. 최대값(10)에 가까운 점수의 경우 합성은 매우 복잡하거나(많은 반응 단계) 예를 들어 분자의 이국적인 구조 모티프로 인해 실행 불가능할 것으로 예상됩니다. 일반적으로 점수가 낮을수록 분자 합성이 쉬워집니다.

요청한 분자 중 일부가 유효하지 않은 경우(예: 초가, 불완전한 고리, 방향족 원자의 부적절한 양성자화, 다중 조각) 요청은 계속 처리됩니다. 이러한 항목에 대한 점수는 null이며 적절한 의견이 응답 구조와 함께 반환됩니다.

예측 모델 특성

SYNTHIA™ SAS v1.0은 그래프 합성곱 신경망(GCNN)을 포함하는 회귀자를 기반으로 합니다. 이러한 아키텍처는 미리 계산된 분자 설명자[6]가 아닌 그래프 구조에서 작동하여 각 분자의 내부 표현을 학습할 수 있습니다. 특히, 이 모델은 D-MPNN(bond-level Directed Message Passing Neural Network)과 FNN(Feedforward Neural Network)으로 구성됩니다. 구현은 Chemprop 오픈 소스 프로젝트[7]에서 채택되었습니다.

기계 학습 모델은 SYNTHIA™ 자동 역합성 모듈 결과를 목표 값으로 사용하여 훈련되었습니다. 전문화되고 정규화된 SYNTHIA™ 점수는 단계 수를 반영하기 위해 사용되었습니다. 예를 들어, 비선택적 반응에 패널티를 주지 않고, 암시적 보호 전략, 점수에 대한 최소 가격 기여, 작은 빌딩 블록만 SYNTHIA™ 검색 설정으로 사용되었습니다. 또한, 합성하기 어려운 분자의 더 나은 분해능을 목표로 높은 점수를 위한 더 나은 빌드 그래디언트를 위해 스무딩 기능이 적용되었습니다(그림 1 참조).

synthia sas 점수에 적용된 스무딩 기능

그림 1. 점수에 적용된 스무딩 기능의 묘사. 작거나 중간 값(x축)에서 합성 접근성 점수(y축)는 선형에 가깝게 작동합니다. 즉, 반환된 점수는 모델에서 예측한 합성 단계의 수에 해당합니다. 더 많은 수의 예측 합성 단계(약 10 이상)의 경우 반환된 값이 여전히 10에 가깝도록(그리고 더 크지 않도록) 관련 점수가 평활화됩니다. 이를 통해 고려된 모든 사례를 [0, 10] 간격.

기계 학습 모델 훈련에 사용되는 데이터에는 총 33306개의 분자가 있습니다. 알려진 분자(ChEMBL 데이터베이스)[8]와 조합적으로 생성된 소분자(GDB)[9]로 구성됩니다. 학습/테스트 분할 전 데이터 구성:

  • GDB 하위 집합: 16081, 포함:
    • 1-7개의 중원자를 갖는 화합물(C, N, O, Cl, S): 7198
    • 8-9개의 중원자를 갖는 화합물(C, N, O): 8883
  • ChEMBL 하위 집합: 17225, 포함:
    • 무작위로 선택된 합성 작은 화합물: 15449
    • 무작위로 선택된 천연물 유래 화합물: 1776

기계 학습 모델의 교육 및 평가에는 데이터를 교육 및 테스트 세트로 분할해야 했습니다(일반적인 80/20 교육/테스트 분할이 사용됨). 또한 내부 검증 세트는 훈련 세트에서 9:1 비율로 추출하여 네트워크 매개변수 최적화에 사용했습니다.

예측 점수(SYNTHIA™ SAS 모델)는 R을 사용한 SYNTHIA™ 점수를 기반으로 목표 값과 상관 관계가 있습니다.2 = 0.726 및 MAE = 1.1497. 적합선이 있는 산점도와 데이터 포인트의 밀도/분포를 보여주는 상자 그림이 그림 2에 나와 있습니다.

synthia 대 모델의 상관관계를 보여주는 산점도 및 박스 플롯

그림 2. SYNTHIA™로 계산한 SA 점수와 모델에서 학습한 점수 사이의 상관관계를 보여주는 산점도 및 상자 그림.

SYNTHIA™ SAS로 예측한 결과는 데이터 세트에서 검색한 관계를 기반으로 합니다(아마도 매우 복잡하고 캡처하기 쉽지 않음). SYNTHIA™ SAS-API를 통해 새로운 분자를 쿼리할 때 이 점을 고려해야 합니다. 즉, 테스트 세트와 관련이 없는 분자에 대한 점수는 소위 적용 가능성 영역에서 벗어날 수 있으므로 해당 결과가 의미가 없을 수 있습니다. 이는 데이터 기반 모델의 일반적인 제한 사항이지만 획득한 점수를 잘못 해석하지 않도록 항상 이러한 제한 사항을 기억하는 것이 좋습니다.

사례 연구

사례

설파메톡사졸의 N-아세틸 유도체(그림 3, 왼쪽)는 이 약물의 직접적인 전구체입니다(그림 3, 오른쪽). 보다 복잡한 화학 구조에도 불구하고 유도체는 합성하기 더 쉬운 것으로 인식됩니다(SAS=1.038은 SAS=4.051보다 훨씬 작음).

그림 3. sulfamethoxazole 사용 사례에 대한 분자의 화학 구조.

사례

한편 아드레날린의 N-Boc 파생물(그림 4, 왼쪽)은 아드레날린의 직접적인 전구체가 아닙니다(그림 4, 오른쪽). 일반적인 절차에서는 합성 경로 전체에서 아미노 그룹을 보호할 필요가 없습니다. N-Boc 파생물은 합성 접근성 측면에서 더 복잡한 것으로 올바르게 인식됩니다(SAS=8.399는 SAS = 7.631보다 큼). 이것은 아드레날린이 N-Boc 유도체의 전구체라는 사실과 일치합니다.

그림 4. 아드레날린 사용 사례의 화학 구조.

사용자 데이터 흐름

SYNTHIA™ SAS는 RESTful API를 통해 각 고객이 사용할 수 있는 클라우드 호스팅 서비스입니다. 수평 확장이 가능하며 모든 고객에게 단일 API 진입점을 통해 높은 처리량을 제공합니다. 최종 사용자는 SMILES 형식으로 분자 목록을 제공해야 하며 SYNTHIA™ SAS는 각 분자에 대한 점수를 반환합니다(그림 5). 서비스는 상태 비저장이며 수요에 따라 확장되도록 설계되었습니다.

그림 5. SYNTHIA™ SAS 서비스 데이터 흐름의 도식적 표현.

참고자료

  1.  Joshua Meyers, Benedek Fabian, Nathan Brown, De novo 분자 설계 및 생성 모델, 오늘의 약물 발견262021, 2707 - 2715. 간접 자원부
  2. SYNTHIA™ 역합성 소프트웨어
  3. 토마스 클루츠니크, et al., 컴퓨터에 의해 계획되고 실험실에서 실행되는 다양하고 의학적으로 관련된 표적의 효율적인 합성, 화학4,  2018, 522 - 532. 간접 자원부
  4. 미쿨락-클루츠니크, B., et al. 복잡한 천연물 합성의 전산 계획, 자연, 5882020, 83-88. 간접 자원부
  5. 일광 화학 정보 시스템, Inc. 
  6. 양케이, et al. 속성 예측을 위해 학습된 분자 표현 분석, 화학 정보 및 모델링 저널592019, 3370 - 3388. 간접 자원부
  7. Chemprop 오픈 소스 프로젝트
  8. ChEMBL 데이터베이스
  9. GDB 데이터베이스