はじめまして、理論創薬研究所の金子信人と申します。
今回より、ケモインフォマティクス初学者へ向けた論文の紹介とコードの実装を実演していきます。
有機合成や分子生物学を研究しているけどコンピューターによる解析に挑戦してみたいといった方に、なるべくわかりやすく解説できたらと考えています。
初回は低分子化合物の合成難易度予測について説明していきます。
参考論文
Estimating the synthetic accessibility of molecules with building block and reaction-aware SAScore
(Shuan Chen; Yousung Jung, Journal of Cheminformatics, 2024, 16, 83.)
https://jcheminf.biomedcentral.com/articles/10.1186/s13321-024-00879-0
動作環境
Intel Core i7-1265U
Windows 11 Pro
conda 25.1.1
合成の難しい分子とはどういったものでしょうか。分子量が大きい、不斉炭素の数が多い、大環状部位が含まれている、などさまざまな判断基準があるかと思います。
例えば解熱鎮痛剤のアスピリンとロキソプロフェンでは直感的には後者の方が合成が難しいように感じます。

図1, アスピリン(アセチルサリチル酸)とロキソプロフェン
そこで開発されたものが2009年に発表されたSAScore※1で、分子をフラグメントに分割し、その一般性と複雑性をデータベース情報から読み取りスコアリングすることで、分子の合成難易度の定量化を行いました。今回紹介する論文ではそのSAScoreに対し、文献情報に基づくフラグメントの合成例の有無を加味することで拡張したものになります。
BR-SAScoreのインストール
まずは仮想環境を構築します。
Python>=3.6が指定されているので、
$ conda create -n BRSAScore python=3.6
$ conda activate BRSAScore
この環境にBRSAScoreをインストールします。
$ pip install BRSAScore
必要なパッケージが自動でインストールされ、本環境ではRSAScore 0.1.1、numpy 1.19.5、rdkit 2021.9.4がインストールされました。
BR-SAScoreを実行
チュートリアルにしたがって使ってみましょう。
Pythonの対話モードでBRSAScoreをインポートし、化合物情報をSMILES表記で入力します。
$ Python
>>> from BRSAScore import SAScorer
>>> scorer = SAScorer()
>>> smi = 'CC(OC1=CC=CC=C1C(O)=O)=O' # Aspirin
>>> score, contribution = scorer.calculateScore(smi)
>>> print(score)
2.08985751513491
となりアスピリンは2.08と評価されました。スコアは1-10に正規化され、数字が大きいほど合成が難しいと評価されたことになります。
例に出したロキソプロフェンについても試してみましょう。
>>> smi = 'CC(C(O)=O)C(C=C1)=CC=C1CC2CCCC2=O' # Loxoprofen
>>> score, contribution = scorer.calculateScore(smi)
>>> print(score)
2.953549700325608
こちらは2.95と評価され、先ほどのアスピリンよりも合成が難しいことがわかります。
一方でデータベース情報に基づくフラグメント合成例を学習しているため、合成例の少ない複雑天然物等においてはスコアが上限に達してしまい比較が難しくなっています。

図2, 複雑天然物とBR-SAScore
こういった場合には反応とビルディングブロックのデータベースを評価対象に合わせて作成し、学習させることでチューニングすることも可能となっています。
※1 Estimation of synthetic accessibility score of drug-like molecules based on molecular complexity and fragment contributions (Peter Ertl; Ansgar Schuffenhauer, Journal of Cheminformatics, 2009, 1, 8.) https://jcheminf.biomedcentral.com/articles/10.1186/1758-2946-1-8
Category: AI創薬関連