API 액세스
API 액세스(Application Programming Interface)는 맞춤형 경험을 위해 다른 Cheminformatics 도구를 SYNTHIA™와 상호 연결하려는 조직에서 사용할 수 있습니다.
장점은 다음과 같습니다 :
- 전체 역합성 또는 SAS(Synthetic Accessibility Score) API에 액세스
- 분자 선택에 대한 통찰력을 향상시키기 위해 데이터를 나란히 보기
- 여러 데이터 소스를 사용하여 강력한 시각화 생성
- 합성 단계 업스트림에서 분자 선택 정보 제공
- SAS API로 몇 분 만에 수천 개의 경로 분석
SAS(Synthetic Accessibility Score)의 힘 활용
'만들기 쉬운' 분자와 '만들기 어려운' 분자를 구별하는 능력은 어렵지만 가상 스크리닝 파이프라인에서 화합물의 우선순위를 정하는 데 널리 유용한 작업입니다. 최신 딥 러닝 모델과 당사의 유명한 역합성 계획 소프트웨어로 수집된 데이터를 결합하여 다음을 제공합니다. SYNTHIA™ 합성 접근성 점수(SAS) 서비스, 높은 처리량에 적용 가능한 도구 인실리코 화합물 처리.
현재 조합 화학 및 생성 모델링은 거대한 화합물 데이터 세트를 구성하는 데 사용됩니다[1]. 그러나 이러한 방법으로 얻은 많은 분자의 실제 합성은 어려울 수 있습니다. 이 문제를 해결하기 위해 합성 접근성 측정을 사용하여 약물 발견 파이프라인에서 가능한 한 빨리 분자 실현 가능성을 결정합니다.
SYNTHIA™ SAS API 서비스는 상업적으로 이용 가능한 작은 빌딩 블록의 합성 단계 수 측면에서 이러한 '분자 복잡성'에 대한 예측을 제공합니다. SAS를 뒷받침하는 기계 학습 모델은 SYNTHIA™ Retrosynthetic Planning Tool [2], [3], [4]의 알고리즘으로 얻은 합성 시나리오에 대해 사전 훈련되었습니다. 마지막으로 당사의 클라우드 호스팅 및 ISO-27001 인증 제품은 단일 쿼리에서 매일 수백만 개의 분자와 최대 천 개의 분자를 쉽게 처리할 수 있는 기능을 제공하여 SYNTHIA™ SAS 서비스 예측이 약물 설계 프로세스에서 보다 일반적으로 사용될 수 있도록 합니다.
SAS 모델의 입력/출력
입력 분자는 널리 사용되는 SMILES 텍스트 형식[5]으로 제공되어야 하며 API 엔드포인트는 일괄 요청을 지원합니다. 입력 SMILES는 단일 단편 분자로 구성됩니다.
여기에서 SAS(Synthetic Accessibility Score)로 정의된 반환된 측정값은 각 해당 입력 분자에 할당된 0-10 범위의 단일 플로트 숫자입니다. 반환된 점수는 상업적으로 이용 가능한 빌딩 블록을 사용하여 분자를 합성하는 데 걸리는 대략적인 단계입니다. 가장 낮은 숫자(0에 가까운 값)는 만들기 쉬울 것으로 예측되는(또는 상업적으로 이용 가능할 수도 있는) 화학 물질로 반환됩니다. 모델이 요청된 화합물을 얻기 위해 더 많은 합성 단계를 예측할 때 더 높은 숫자가 반환됩니다. 최대값(10)에 가까운 점수의 경우 합성은 매우 복잡하거나(많은 반응 단계) 예를 들어 분자의 이국적인 구조 모티프로 인해 실행 불가능할 것으로 예상됩니다. 일반적으로 점수가 낮을수록 분자 합성이 쉬워집니다.
요청한 분자 중 일부가 유효하지 않은 경우(예: 초가, 불완전한 고리, 방향족 원자의 부적절한 양성자화, 다중 조각) 요청은 계속 처리됩니다. 이러한 항목에 대한 점수는 null이며 적절한 의견이 응답 구조와 함께 반환됩니다.
예측 모델 특성
SYNTHIA™ SAS v1.0은 그래프 합성곱 신경망(GCNN)을 포함하는 회귀자를 기반으로 합니다. 이러한 아키텍처는 미리 계산된 분자 설명자[6]가 아닌 그래프 구조에서 작동하여 각 분자의 내부 표현을 학습할 수 있습니다. 특히, 이 모델은 D-MPNN(bond-level Directed Message Passing Neural Network)과 FNN(Feedforward Neural Network)으로 구성됩니다. 구현은 Chemprop 오픈 소스 프로젝트[7]에서 채택되었습니다.
기계 학습 모델은 SYNTHIA™ 자동 역합성 모듈 결과를 목표 값으로 사용하여 훈련되었습니다. 전문화되고 정규화된 SYNTHIA™ 점수는 단계 수를 반영하기 위해 사용되었습니다. 예를 들어, 비선택적 반응에 패널티를 주지 않고, 암시적 보호 전략, 점수에 대한 최소 가격 기여, 작은 빌딩 블록만 SYNTHIA™ 검색 설정으로 사용되었습니다. 또한, 합성하기 어려운 분자의 더 나은 분해능을 목표로 높은 점수를 위한 더 나은 빌드 그래디언트를 위해 스무딩 기능이 적용되었습니다(그림 1 참조).
그림 1. 점수에 적용된 스무딩 기능의 묘사. 작거나 중간 값(x축)에서 합성 접근성 점수(y축)는 선형에 가깝게 작동합니다. 즉, 반환된 점수는 모델에서 예측한 합성 단계의 수에 해당합니다. 더 많은 수의 예측 합성 단계(약 10 이상)의 경우 반환된 값이 여전히 10에 가깝도록(그리고 더 크지 않도록) 관련 점수가 평활화됩니다. 이를 통해 고려된 모든 사례를 [0, 10] 간격.
기계 학습 모델 훈련에 사용되는 데이터에는 총 33306개의 분자가 있습니다. 알려진 분자(ChEMBL 데이터베이스)[8]와 조합적으로 생성된 소분자(GDB)[9]로 구성됩니다. 학습/테스트 분할 전 데이터 구성:
- GDB 하위 집합: 16081, 포함:
- 1-7개의 중원자를 갖는 화합물(C, N, O, Cl, S): 7198
- 8-9개의 중원자를 갖는 화합물(C, N, O): 8883
- ChEMBL 하위 집합: 17225, 포함:
- 무작위로 선택된 합성 작은 화합물: 15449
- 무작위로 선택된 천연물 유래 화합물: 1776
기계 학습 모델의 교육 및 평가에는 데이터를 교육 및 테스트 세트로 분할해야 했습니다(일반적인 80/20 교육/테스트 분할이 사용됨). 또한 내부 검증 세트는 훈련 세트에서 9:1 비율로 추출하여 네트워크 매개변수 최적화에 사용했습니다.
예측 점수(SYNTHIA™ SAS 모델)는 R을 사용한 SYNTHIA™ 점수를 기반으로 목표 값과 상관 관계가 있습니다.2 = 0.726 및 MAE = 1.1497. 적합선이 있는 산점도와 데이터 포인트의 밀도/분포를 보여주는 상자 그림이 그림 2에 나와 있습니다.
SYNTHIA™ SAS로 예측한 결과는 데이터 세트에서 검색한 관계를 기반으로 합니다(아마도 매우 복잡하고 캡처하기 쉽지 않음). SYNTHIA™ SAS-API를 통해 새로운 분자를 쿼리할 때 이 점을 고려해야 합니다. 즉, 테스트 세트와 관련이 없는 분자에 대한 점수는 소위 적용 가능성 영역에서 벗어날 수 있으므로 해당 결과가 의미가 없을 수 있습니다. 이는 데이터 기반 모델의 일반적인 제한 사항이지만 획득한 점수를 잘못 해석하지 않도록 항상 이러한 제한 사항을 기억하는 것이 좋습니다.
사례 연구
사례
설파메톡사졸의 N-아세틸 유도체(그림 3, 왼쪽)는 이 약물의 직접적인 전구체입니다(그림 3, 오른쪽). 보다 복잡한 화학 구조에도 불구하고 유도체는 합성하기 더 쉬운 것으로 인식됩니다(SAS=1.038은 SAS=4.051보다 훨씬 작음).
사례
한편 아드레날린의 N-Boc 파생물(그림 4, 왼쪽)은 아드레날린의 직접적인 전구체가 아닙니다(그림 4, 오른쪽). 일반적인 절차에서는 합성 경로 전체에서 아미노 그룹을 보호할 필요가 없습니다. N-Boc 파생물은 합성 접근성 측면에서 더 복잡한 것으로 올바르게 인식됩니다(SAS=8.399는 SAS = 7.631보다 큼). 이것은 아드레날린이 N-Boc 유도체의 전구체라는 사실과 일치합니다.
사용자 데이터 흐름
SYNTHIA™ SAS는 RESTful API를 통해 각 고객이 사용할 수 있는 클라우드 호스팅 서비스입니다. 수평 확장이 가능하며 모든 고객에게 단일 API 진입점을 통해 높은 처리량을 제공합니다. 최종 사용자는 SMILES 형식으로 분자 목록을 제공해야 하며 SYNTHIA™ SAS는 각 분자에 대한 점수를 반환합니다(그림 5). 서비스는 상태 비저장이며 수요에 따라 확장되도록 설계되었습니다.
참고자료
- Joshua Meyers, Benedek Fabian, Nathan Brown, De novo 분자 설계 및 생성 모델, 오늘의 약물 발견, 26, 2021, 2707 - 2715. 간접 자원부
- SYNTHIA™ 역합성 소프트웨어
- 토마스 클루츠니크, et al., 컴퓨터에 의해 계획되고 실험실에서 실행되는 다양하고 의학적으로 관련된 표적의 효율적인 합성, 화학, 4, 2018, 522 - 532. 간접 자원부
- 미쿨락-클루츠니크, B., et al. 복잡한 천연물 합성의 전산 계획, 자연, 588, 2020, 83-88. 간접 자원부
- 일광 화학 정보 시스템, Inc.
- 양케이, et al. 속성 예측을 위해 학습된 분자 표현 분석, 화학 정보 및 모델링 저널, 59, 2019, 3370 - 3388. 간접 자원부
- Chemprop 오픈 소스 프로젝트
- ChEMBL 데이터베이스
- GDB 데이터베이스