백서:
합성 계획의 전산 분석: 과거와 미래

에서 각색 왕, Z., 장, W. 및 류, B. (2021), 합성 계획의 전산 분석: 과거와 미래. Chin. J. Chem., 39: 3127-3143. https://doi.org/10.1002/cjoc.202100273
컴퓨터지원 합성 계획(CASP)은 천연물 및 신약 후보 물질의 새롭고 효율적인 합성을 계획하기 위해 새로운 화학 반응과 전문가 반응 규칙의 홍수를 조직하고 활용하는 데 중요한 역할을 할 수 있습니다. 이 리뷰에서는 규칙 기반 프로그램에 초점을 맞춘 초기 단계부터 머신 러닝과 그 결합 기능에 이르기까지 합성 계획의 전산 분석에 대한 진전을 설명합니다.
소개
화학자들은 목표 화합물에 대한 합성 전략을 설계하기 위해 재합성 분석을 사용합니다. 간단히 말해, 이들은 목표 화합물과 후속 전구체의 화학 결합을 끊는 경험을 반복적인 방식으로 활용합니다.
다양한 표준화된 도구(예: CML, SMILES, SMARTS, InChl 및 ECFP)는 화학 반응과 분자를 기계가 읽을 수 있는 정보로 변환합니다. 고급 알고리즘(예: 신경망, 강화 학습)은 화학 반응의 데이터 처리를 확장합니다.
이 리뷰에서는 CASP의 세 가지 범주를 다룹니다. 두 가지 범주는 화학자의 직관과 경험을 통한 논리적 추론을 사용합니다: 수작업으로 코딩된 규칙 또는 자동으로 추출된 규칙에 기반한 CASP 알고리즘입니다. 세 번째 CASP 범주는 기계 학습(ML) 알고리즘의 학습을 위해 화학 반응 데이터베이스를 사용합니다.
CASP 시스템의 일반 구조
일반적인 CASP 시스템에는 네 가지 모듈이 있습니다. 반응 템플릿 데이터베이스는 알려진 반응을 결합 파괴 규칙과 함께 저장합니다. 재합성 모듈은 템플릿 데이터베이스의 알려진 반응을 입력 분자의 구조와 정렬하고 반복적인 방식으로 상업적으로 이용 가능한 전구체와 가장 근접하게 일치하는 반응을 제공합니다. 트리 가이드 및 평가 모듈은 합성 경로에 대한 후보 전구체의 적합성을 평가합니다. 상업적으로 이용 가능한 화합물 데이터베이스는 역합성 모듈의 정지 역할을 합니다.
논리적 알고리즘과 결합된 수작업 코딩 규칙
대표적인 CASP 시스템으로는 LHASA, SECS, IGOR, CHIRON, Chematica/ SynthiaTM 등이 있습니다. LHASA와 SECS CASP 시스템에는 화학자들이 합성 트리에서 최적의 경로를 평가하고 선택할 수 있도록 통신 모듈인 인터페이스 쓰기 패드가 포함되어 있습니다.
IGOR(중간 생성 유기 반응)은 역합성 분석을 경험적으로 도출된 휴리스틱 규칙으로 제한하지 않았습니다. IGOR은 반응에 참여하는 모든 분자를 포함하고, 광범위한 계산이 필요하며, 간단한 역합성 변환만 시뮬레이션할 수 있습니다.
CHIRON은 복잡한 입체 화학 및 기능을 해독하여 상업적으로 이용 가능한 입체 화학이 풍부한 전구체와 연관시킬 수 있습니다. 목표 분자와 밀접하게 관련된 골격, 입체 중심 및 작용기를 가진 전구체를 검색합니다.
Chematica(현재 SynthiaTM라고 함)는 유기 화학 네트워크(NOC)를 약 천만 개의 화합물로 확장하고 SMILES/SMART 코딩 방법을 사용하여 호환성 및 맥락 정보(예: 표준 조건, 작용기의 불관용성, 특정 반응의 지역 및 입체 선택성)를 수동으로 추가했습니다. 수작업으로 코딩된 반응 규칙은 2021년에 100,000개 이상으로 증가했습니다. 지능형 검색 기능 및 화학적 스코어링 기능을 내장하여 전 세계적으로 최적의 결과를 얻을 수 있습니다(예: 비대칭 합성을 위한 키랄 전구체).
각 노드는 역합성 변환 및 관련 기질 세트를 나타내는 수지상 방식으로 합성 트리를 표시합니다(그림 1a). Chematica/SynthiaTM는 검색 알고리즘에서 가장 점수가 낮은 노드에 대한 우선순위 대기열을 통해 분석 프로세스를 가속화합니다(그림 1b).
검색 알고리즘, 점수 함수, 입체 선택 변환을 최적화하기 위한 다양한 양자 역학 및 머신 러닝(ML) 방법이 Chematica/SynthiaTM에 포함되어 있습니다. Chematica/SynthiaTM는 8가지 약물 관련 분자와 여러 가지 복잡한 천연 제품에 대한 합성 경로를 설계했습니다. 이들의 합성은 실험적으로 이루어졌습니다. SynthiaTM 프로그램은 OICR-9429에 대한 보다 효율적인 합성 경로를 설계했습니다(그림 2). 문헌에 따르면 OICR-9429의 수율은 1%였지만, SynthiaTM 경로에서는 60%의 수율을 기록했습니다. 또한 SynthiaTM 합성 경로는 네 번의 크로마토그래피 절차에서 한 번의 재결정으로 정제를 간소화했습니다. 그리즈보프스키와 동료들은 Chematica/SynthiaTM가 합성 화학의 복잡한 문제를 해결할 수 있음을 분명히 보여주었습니다.
반응 템플릿을 수동으로 추출하면 화학 반응의 맥락 정보를 넓히고 재합성 분석을 향상시킬 수 있습니다. 자동 추출과 수동 추출 중 어떤 것을 선택할지는 변수에 대한 일관된 설명과 원하는 애플리케이션에 따라 달라집니다.

논리 알고리즘과 결합된 자동 추출 규칙
매일 새로운 화학 반응과 템플릿을 자동 추출하면 데이터베이스를 효율적으로 유지할 수 있지만 인접한 작용기 및 원자를 놓칠 수 있습니다.
SYNCHEM2는 대체 코딩을 통해 역방향 및 정방향 합성 변환을 모두 허용합니다. RETROSYN은 반응 중심을 추상화하고 특수 그래프 차이 알고리즘으로 제품과 반응물 간의 원자 상관관계를 구축합니다. RETROSYN은 일치 정도를 높은 우선순위에서 낮은 우선순위로 검색하고 정렬하지만 입체 화학은 무시합니다.
KOSP(합성 계획을 위한 지식 기반 지향 시스템)는 세 개의 결합 거리 내에서 활성화 그룹/원자를 포함한 반응 템플릿을 자동으로 추출하여 반응 지식 기반을 채웁니다. 새로운 KOSP 버전에서는 지역 및 입체 선택적 역합성 분석이 가능하며, 업데이트를 통해 반응 콘텐츠가 10배 확장되었습니다.
ARChem의 후속 제품인 켐플래너는 미국 화학 초록 서비스 및 과학자가 선별한 반응 콘텐츠의 접근성이 높은 데이터베이스인 SciFinder를 위해 Wiley와 독점적으로 협력하고 있습니다. 새로운 ChemPlanner 버전에서는 지역 및 입체 선택적 역합성 분석이 가능합니다.

ICSYNTH는 반응 지식 데이터베이스를 그래프 기반 형식으로 표현합니다. 사용자는 기밀 반응 데이터베이스에서 사내 화학 규칙을 포함하고 화학 규칙을 선택 및 편집하여 다양한 응용 시나리오에 맞게 ICSYNTH를 조정할 수 있습니다.
ASKCOS는 반응 생성물과 목표 분자의 유사성을 계산하여 단계적으로 재합성 계획을 개발합니다. ASKCOS의 모듈에는 원스텝 역합성, 대화형 경로 계획, 트리 빌더 및 컨텍스트 추천이 포함됩니다.
머신러닝 알고리즘과 결합된 자동 추출 규칙
머신러닝 알고리즘은 반응물을 포함한 화학 반응 데이터베이스로 학습됩니다. 강화 학습 알고리즘은 환경과 지속적으로 상호 작용하여 페널티-보상 방식을 통해 최적의 전략을 학습합니다.
비숍 프로그램은 규칙 기반 역합성 분석과 강화 학습을 결합합니다. 화학 반응 네트워크는 중간체를 컴파일하고 반응물과 제품을 연결하며 강화 학습 모듈을 통해 비용, 전체 효율성 및/또는 환경에 미치는 영향에 대한 잠재적 필터를 사용하여 유연하게 정의된 최적의 반응 경로를 매핑합니다.
3N-MCTS(몬테카를로 트리 검색 알고리즘)는 제품의 디지털 서열과 문헌의 관련 전구체를 통해 학습된 인공 신경망을 사용합니다. ANN 기반 CASP 시스템은 학습된 특정 반응 규칙을 재구성하여 계산 프로세스를 간소화합니다. 각 MCTS 라운드는 선택, 확장, 롤아웃 및 업데이트로 구성됩니다. 입체 선택성을 예측하려면 개선이 필요합니다.
단순화된 분자 입력 라인 입력 시스템(SMILES) 번역(
)이 포함된 Seq2Seq 모델은 방대한 데이터 세트를 처리하고 글로벌 최적 출력으로 반응을 시뮬레이션할 수 있습니다. AutoSynRoute는 Chematica/SynthiaTM에서 영감을 얻은 휴리스틱 스코어링 기능과 함께 MCTS 알고리즘을 적용하여 합성 경로를 평가합니다. RXN은 두 개의 데이터베이스로 학습된 두 개의 역합성 ML 모델을 사용합니다. RXN은 제안된 합성 경로에 적합한 반응 조건을 예측할 수 있습니다.
.
결론
몇몇 CASP 프로그램은 채점 함수 및 ML을 포함하거나 포함하지 않는 역합성 화학 알고리즘에 휴리스틱 반응 규칙과 문헌의 반응 규칙을 적용합니다(예: Chematica/SynthiaTM) 다른 CASP 프로그램은 ML 또는 ML과 휴리스틱 반응 규칙 또는 문헌 기반 화학 규칙의 조합에 의존합니다. 이러한 알고리즘은 이미 복잡한 분자의 수율을 개선하는 신규 합성 경로를 제공했습니다. 더 개선하면 비용 절감, 환경 영향 감소, 유해 시약이나 용매 사용 감소와 같은 추가적인 제약 조건이 있는 복잡한 화합물에 대한 새로운 합성 경로를 제공할 수 있습니다.