백서:

전문가와 머신러닝 접근 방식 간의 시너지 효과로 향상된 역합성 계획 수립 가능


T. Badowski, E. P. Gajewska, K. Molga, B. A. Grzybowski, Angew. Chem. Int. Ed. 2020, 59, 725. https://onlinelibrary.wiley.com/doi/10.1002/anie.201912083
Wiley의 제공으로 출판.

Grzybowski와 동료들은 반응 유형의 대규모 저장소에서 전문 지식과 기계 추출 정보를 모두 결합한 인공지능(AI) 소프트웨어가 컴퓨터로 설계된 다단계 합성 계획에서 더 높은 합성 정확도를 달성할 수 있음을 보여줍니다.

소개

컴퓨터 설계 합성 계획을 위한 인공지능(AI) 플랫폼은 상업적으로 이용 가능한 전구체 물질을 찾고, 개별 합성 단계를 평가하며, 리소스 및 훈련 자료에서 방대한 합성 가능성을 평가합니다. AI의 필수 구성 요소는 계획의 개발을 안내하는 스코어링 함수(SF)입니다. 지금까지 AI는 전문가의 합성 지식이나 화학 저장소와 같은 문헌에 보고된 합성 경로를 기반으로 화학 합성 계획을 개발해 왔습니다. 그러나 각 데이터 세트에는 장점과 한계가 있습니다.

경험적, 전문가 합성 지식은 일반적으로 화학자의 직관에 의한 성공적인 화학 계획을 반영하지만, 화학자가 선호하는 중심 분리, 고리 및 입체 중심 수 감소, 관련 반응기의 여러 단계 마스킹 및 마스킹 해제 등의 단점이 있습니다.

이에 비해 문헌에 기반한 머신러닝 기능은 충분한 참고 자료가 있는 인기 있는 반응 유형에 초점을 맞추고, AI는 신경망(NN) 알고리즘을 사용하여 하나 이상의 합성 계획을 식별합니다. NN의 SF는 미국 특허청(USPTO)과 같은 특정 데이터베이스에서 반응 및 최종 제품에 대한 정보를 수집합니다. SF의 출력은 특정 반응의 확률(식별자, ID)을 제공하지만, 인기 있는 반응에 지나치게 집중되어 화학자들이 알고 있는 더 효율적인 반응을 놓칠 수 있습니다.

전문가와 NN의 머신러닝 결합을 위한 AI 학습 자료의 특징

NN은 문헌의 반응과 전문가의 고품질 반응 규칙이라는 두 가지 출처의 유사 제품 및 기질 데이터로 학습됩니다. 모든 분석에는 약 160만 건의 반응을 활용하여 약 140만 개의 고유한 제품(단순한 화학 물질부터 복잡한 천연물까지)을 합성했습니다. 합성 계획에서 남용을 피하기 위해 두 소스에서 나온 보호 및 보호 해제 반응은 포함되지 않았습니다. Grzybowski와 동료들은 문헌에 포함된 각 반응이 Chematica의 75,000개 절차 중 하나 이상에서 전문가의 반응 규칙과 일치하도록 요구했습니다. SF 기반 결과에는 현재 SynthiaTM라고 불리며 상업적으로 이용 가능한 Chematica의 대체 반응 규칙이 포함된 합성 계획이 포함될 수 있습니다.

이 분석은 제품에 대해 평균 약 60개의 충돌 없는 제품 적합성 재조치를 제공했습니다. 그르지보스키와 동료들은 총 140만 개의 제품에 대한 합성 계획을 개발하는 과정에서 화학적 품질이 우수하고 충돌이 없는 약 8,500만 개의 반응을 고려했습니다. 제품 세트는 훈련용 70%, 검증용 10%, 테스트용 20%로 무작위로 나뉘었습니다.

저자의 프로그램(ICHO)에는 제품 1(P1), P2, P3 생산에 가능한 반응을 제공하는 3개의 숨겨진 레이어와 출력 레이어 등 4개의 레이어로 구성된 NN 기반 스코어링 기능이 있습니다(그림 1 왼쪽 패널). 향상된 프로그램(ICHO+)은 생성 또는 파괴된 고리 수, 설치 또는 제거된 입체 중심 수, 반응의 선택성, 분해 제품의 크기(유사 vs 매우 이질적) 등 화학적으로 직관적인 반응에 대한 전문 지식으로 NN ICHO 아키텍처를 보강했습니다. 따라서 ICHO+ 프로그램은 문헌에서 특정 제품에 대한 특정 반응의 빈도를 전문가 합성 계획의 빈도로 조정합니다. ICHO 및 ICHO+ 훈련 중에 프로그램은 문헌과 전문가 합성 계획 모두에서 얻은 특정 반응에 대해 더 큰 확률을 할당합니다. 반대로 이 프로그램은 특정 제품의 합성에 거의 사용되지 않는 매우 유명한 화학자 규칙에 대해서는 확률을 낮게 조정하여 반응이 까다롭거나 실행하기 어렵거나 비효율적일 수 있음을 시사합니다.
.

AI 플랫폼의 성능

그림 1은 ICHO/ICHO+와 SW로 표시된 Segler와 Walker의 NN 기반 프로그램 간의 NN 아키텍처를 직접 비교한 것입니다 [1,2]. 2019년까지 발표된 SW 인공지능 플랫폼과 기타 NN 기반 인공지능 합성 플랫폼은 문헌 선례의 반응만을 통해 학습합니다. ICHO와 SW를 포함한 대부분의 AI 프로그램은 지수 선형 단위(ELU)라는 널리 사용되는 머신러닝 활성화 함수를 사용합니다. ELU는 학습을 가속화하고 프로그램의 성능을 향상시킵니다. 또한 합성 계획의 단순성을 평가하는 기존 SMILES라는 업데이트된 휴리스틱 점수 체계와 결합된 ICHO+ 프로그램의 효율성을 비교했습니다. SMALLER라는 업데이트된 프로그램은 화학자의 유기적 합성 직관 및 실습을 시뮬레이션하는 중앙 단절을 발전시킵니다. SMALLER의 한 가지 장점은 문헌의 반응 빈도가 최종적으로 제안된 경로에 미치는 영향이 최소화된다는 것입니다.

ICHO 및 SW 프로그램 내에서 휴리스틱 전문 화학 규칙(ICHO+, SW+)의 학습을 포함하면 합성 계획의 효율성이 약간만 향상되었습니다. SW 프로그램을 제품 적합 반응(SW2, SW2+)으로 제한하면 성능이 향상되었습니다. 그러나 ICHO+는 기질에 대한 추가 지식으로 인해 여전히 가장 높은 순위를 유지했습니다.

세 가지 유형의 프로그램의 성능은 실험적으로 확립된 반응과 상대적으로 진보된 합성 경로를 모두 포함하는 합성 경로 개발에 대해 평가되었습니다. 그림 2는 ICHO+, SW2+, SMALLER 프로그램에서 개발한 네 가지 복합 제품에 대한 합성 계획을 비교한 것입니다. BRD 7/9 억제제, 세로토닌 노르에피네프린 재흡수 억제제 (+)-시노수틴, 천연 제품 세이마토폴리드 A, 프로스타글란딘 유사체 비마토프로스트 등 네 가지 제품에 대한 합성 계획에서 ICHO+가 가장 높은 순위를 차지했습니다.

요약

Grzybowski와 동료들은 복잡한 분자의 합성 계획을 개발하기 위해 화학 AI와 반응 규칙을 포함한 전문 지식을 결합한 NN 기반 ICHO+ 채점 기능을 다른 NN 기반 채점 AI 프로그램과 비교했습니다. 이 예는 화학 AI와 전문 지식을 결합할 때 얻을 수 있는 주요 이점, 즉 문헌에 드물게 나열된 강력한 합성 반응을 제안할 수 있는 프로그램의 능력을 보여줍니다. Chematica가 업데이트되어 현재 SynthiaTM라고 불립니다. 공개적으로 사용 가능한 여러 데이터베이스 외에도 사용자 지정 인벤토리 또는 데이터베이스(예: 기밀 반응에 대한 사내 데이터베이스)를 활용할 수 있는 AI 역합성 소프트웨어를 제공합니다.

참고자료

[1] Segler, M.H.S. 외. (2018). 심층 신경망과 심볼릭 AI를 이용한 화학 합성 계획. Nature. DOI:10.1038/nature25978.

[2] Segler, M.H.S. and Waller, M.P. (2017). 재합성 및 반응 예측을 위한 신경 기호 기계 학습.화학 - 유럽 저널. DOI:10.1002/chem.201605499.