ChemRB: a novel generative model based on bidirectional molecular ring constraints

WANG Qingyong; TANG Lianggui; WANG Zhenyu; GU Lichuan

doi:10.15983/j.cnki.jsnu.2025005

Journal of Shaanxi Normal University(Natural Science Edition) >

2025 , Vol. 53 >Issue 1: 45 - 59

DOI: https://doi.org/10.15983/j.cnki.jsnu.2025005

ChemRB: a novel generative model based on bidirectional molecular ring constraints

WANG Qingyong ¹^,³^,⁴ ,
TANG Lianggui ¹^,³^,⁴ ,
WANG Zhenyu ² ,
GU Lichuan ^,¹^,³^,⁴^,^*

Expand

¹ School of Information and Artificial Intelligence, Anhui Agricultural University, Hefei 230036, Anhui, China
² Anhui Province Key Laboratory of Veterinary Pathobiology and Disease Control, Anhui Agricultural University, Hefei 230036, Anhui, China
³ Anhui Province Key Laboratory of Smart Agricultural Technology and Equipment, Anhui Agricultural University, Hefei 230036, Anhui, China
⁴ Anhui Provincial Engineering Research Center for Agricultural Information Perception and Intelligent Computing, Anhui Agricultural University, Hefei 230036, Anhui, China

Received date: 2024-07-22

Online published: 2025-02-27

Fold

Abstract

In the early stages of drug discovery, deep generative models are emerging as crucial tools for molecular design. The simplified molecular input line entry system(SMILES) serves as a standard chemical representation widely used for model training and generation. However, due to the non-uniqueness and non-directionality of linear representations of molecular ring systems, existing unidirectional encoders face limitations in capturing the global semantic structure of samples and generating valid molecular rings. Therefore, a method called Chemical RWKV BERT (ChemRB) is proposed, which aims to deeply extract bidirectional information from a large amount of unlabeled data. To achieve this, two pre-training tasks are innovatively designed: ring-level feature prediction and global-span closure prediction. These pre-training tasks not only provide the model with rich contextual information but also further enhance its in-depth understanding of the structural properties of complex molecules. Experimental results show that the ChemRB model not only achieves significant performance improvements but also reaches optimal baseline performance on new molecular/sample evaluation metrics. This excellent performance fully validates the effectiveness of ChemRB in accurately capturing the inherent structural information of molecules, providing a solid empirical foundation for its application in related fields. Finally, through testing and application on EGFR inhibitors, the practical utility and broad application prospects of the ChemRB model are further validated.

Key words： molecular modeling; molecular generation; ring system; SMILES; deep learning

Cite this article

WANG Qingyong , TANG Lianggui , WANG Zhenyu , GU Lichuan . ChemRB: a novel generative model based on bidirectional molecular ring constraints[J]. Journal of Shaanxi Normal University(Natural Science Edition), 2025 , 53(1) : 45 -59 . DOI: 10.15983/j.cnki.jsnu.2025005

药物开发过程通常包括4个主要阶段:药物发现、先导化合物设计、临床研究和批准上市^[1]。整个过程通常耗费约12年的时间,需要近26亿美元的资金投入^[2]。加快这一进程并降低成本将带来显著的经济和人力效益。然而,由于化学空间表现的离散性和巨大规模,早期类药物分子的优化任务极具挑战^[3]。据估计,潜在类药物化学空间中分子的数量为10²³~10⁶⁰,其中仅成功合成了约10⁸个分子^[4]。如何有效探索未被发现的化学空间,并设计具备所需特性的先导化合物成为药物发现过程中至关重要的一步^[5]。

传统的计算分子设计方法,如基于结构的^[6]、基于配体的^[7]和基于药物团的^[8]方法需要丰富的领域知识和专家经验,且产生分子的质量和多样性也严重依赖所使用的化学文库和搜索策略,如遗传算法^[9]或离散插值方法^[10]。尽管高通量筛选^[11]和虚拟筛选^[12]这2种技术可以提升化学空间探索的速率,但它们受限于现有的分子文库,仅能对已有分子进行筛选,无法面对未知的化学空间;同时,高通量筛选伴随着耗时长、试错成本昂贵和使用门槛高等问题,这对于资源的有效利用和研发效率的提升构成了一定的挑战^[13]。近年来,随着深度学习的不断发展,深度生成模型为分子设计提供了新的思路,如循环神经网络(recurrent neural network, RNN)^[14]、变分自编码器(variational autoencoder, VAE)^[15]、生成对抗网络(generative adversarial network, GAN)^[16]和Transformer^[17]。例如,Xu等^[18]使用阈值区间和状态变化对log D和溶解度进行编码,旨在优化目标分子以满足某种特定的分子性质。Wang等^[19]结合知识蒸馏和强化学习,使用条件Transformer学习结构-属性关系并生成满足多约束条件的新型分子。借鉴自然语言处理(natural language proessing,NLP)领域的方法,将分子视为一种特殊的“生物语言”并用一系列标记来表示,例如简化分子线输入系统(simplified molecular input line entry system,SMILES)^[20]。

SMILES是一种简单的字符串线性表示方法,专门为化学领域中的计算机应用而设计^[21]。它基于分子图理论的原理,并采用独特的规则对分子结构进行规范化,逐渐成为计算化学中的标准工具^[22]。然而,在深度学习中对这种非连续的表示进行建模是一项颇具挑战性的任务^[23]。此外,由于SMILES语法约束的存在,生成的大量字符串并不符合分子的有效性。据报道,这些深度生成模型的无效输出率为4%~89%,分子环未闭合是其中最常见的错误类型^[24]。

分子环系统是药物化学中的关键骨架成分,在分子特性中发挥着重要作用^[25-26]。一个关键的挑战在于,传统标准的自回归式语言生成模型是单向的^[27]。在生成任务中,模型通常利用上一时刻的信息来预测下一时刻的生成,例如生成式预训练(generative pre-trained, GPT)^[28]。然而,这却限制了模型对分子全局语义结构的理解。从本质上而言,SMILES字符串是分子图的一种线性表示方法,而分子图并不具备特定的起点和终点。SMILES可以从任意非氢原子开始,并向环的任意左右方向进行编码(见图1a)。这种非唯一性和非方向性同时也强调了双向约束的重要性。Xu等^[29]将分子结构中的环系统简化为粗粒度节点,从而在生成分子树后再单独对其中的环节点进行实例化。虽然这在一定程度上提高了环结构的有效性,但这却破坏了生成时的上下文连贯性。为此,Wang等^[30]通过将分子分解为有序的环与非环片段序列,在生成时使用门控循环单元(gated recurrent unit, GRU)依次解码成SMILES序列。但这种基于片段的增长方式却限制了生成模型的搜索空间。此外,他们不仅没有考虑到上述SMILES的双向性,还忽视了长期依赖关系中存在的信息遗忘风险^[31]。这对于生成有效的分子序列也十分不利。

显示原图|下载原图ZIP|生成PPT

图1 ChemRB模型概述

注:网络版为彩图。

Fig.1 Overview of the ChemRB model

因此,为了克服上述限制,我们提出了Chemical RWKV BERT(ChemRB)方法,其框架如图1所示。与传统的单向方法相比,在ChemRB中非环字符生成是单向的,但分子环的形成是双向的。受BERT预训练^[32]的启发,我们引入了“环级特征预测”任务来克服之前的单向性限制。通过随机屏蔽分子环元素,目标是根据被屏蔽词的上下文预测其原始词汇。此外,为了解决长依赖推理过程带来的信息遗忘风险,我们还提出了“全局跨度闭合预测”任务来联合预训练环约束器。值得注意的是,鉴于RWKV^[33]在长序列文本建模上的优秀表现,我们首次引入该机制并应用于分子生成。为了实现这一点,我们基于所有训练的SMILES字符串构造了一个词汇表,用于将一条完整序列划分成单独的标记。此外,我们还引入了一个额外的自编码预测器来学习和预测药物分子的性质,并在EGFR抑制剂重新设计中证明了我们模型的实用性。

1 相关工作

1.1 分子有效性

在SMILES中,分子环由一对成对的“1~9”数字字符表示,如苯(c1ccccc1)。苯分子只有一个环,用数字对“1”标识。第一个“1”代表环的开口标记,位于第一个环元素的右侧。剩余的环元素则在一对“1”中,最后一个“1”代表环的闭合标记。因此,生成的SMILES字符串可能只有开口标记而缺少闭合标记导致无效^[34]。此外,多个环都未闭合的情况也时常发生。具体如表1如示。

表1 生成的闭合分子和未闭合分子

Tab.1 Generated closed molecules and unclosed molecules

类别	生成的分子	有效性
Closed Ring	c1ccccc1	是
Unclosed Ring	c1ccccc	否
Closed Ring	Nc1ccc2cncnc2c1	是
Unclosed Ring	Nc1ccc2cncncc1	否
Unclosed Rings	Nc1ccc2cncncc	否

为了提高生成分子的有效性,一种解决方案是重新定义SMILES表示方法,如DeepSMILES^[35]和SELFIES^[36],但没有得到广泛使用。除此之外,还可以通过调整深度生成模型提高有效性。Ma等^[37]提出了一个变分自动编码器的正则化框架,通过制定惩罚项调整解码器的输出分布以提高采样有效图的可能性。Transformer-DNN利用A2C强化学习优化分子生成。通过保留支架并采用动态参数调整,旨在增强生成分子的相似性和内部多样性^[38]。虽然这在一定程度上解决了特定模型的问题,但并不是一种通用的可扩展方法。

除了常见的基于原子的生成方式(即每步只有一个原子被添加到生成分子)外,基于片段的生成模型也可以在一定程度上提高生成的有效性^[39],例如将官能团也作为分子结构的生成块。Jin等^[40]利用连接树(joint tree,JT)将分子分解成诸多有效的子图并记录它们的相对顺序,然后训练模型基于有效子图及其相互作用来生成有效分子,从而避免了中间可能的无效体。Ishitani等^[41]同样基于连接树分解算法得到有效的分子片段,之后通过长短期记忆网络(long short-term memory, LSTM)将连接树编码成隐变量并建立强化学习模型,最后逐步生成可逆连接树优化后的分子。Chan等^[42]提出了基于多级自我对比学习的分层生成模型,用于改善偏差控制和数据效率。然而,由于基于片段模型的增长步长比基于原子模型的增长步长更大,这限制了生成模型的搜索空间。

1.2 RWKV机制

随着Transformer架构的提出,注意力机制在许多领域内都大放异彩^[43]。然而注意力机制在计算和内存需求上具有二次复杂度,相对地,RNN在这方面表现出线性扩展,但会受到并行化和可扩展性的限制。

在传统注意力机制中,序列间不同位置嵌入的注意力分数可以表示为

(1)$ A(q, k, v)_{t}=\frac{\sum_{i=1}^{T} v_{i} \mathrm{e}^{q_{t}^{T} k_{i}}}{\sum_{i=1}^{T} \mathrm{e}^{q_{i}^{T} k_{i}}}.$

为了解决注意力机制的二次复杂度问题,Zhai等^[44]提出了无注意力Transformer(attention free Transformer,AFT式中记为A_FT),其定义为

(2)

A F T (w, k, v) t = ∑ i = 1 T v i e w t, i + k i ∑ i = 1 T e w t, i + k i

。

式中:w∈R^T^×^T是一组可学习的成对位置偏差;T表示序列长度。通过假设序列间不同位置存在的绝对偏差w,对每个目标位置t执行加权平均,AFT成功避免了Q和K的点积自我关注并降低了内存复杂度。

受AFT启发,Peng等^[33]设计了一种随时间衰减的位置偏差w(见公式3)。通过引入过去信息的接受向量r(见公式4),RWKV可以循环迭代地复用上一时刻的wkv分数(式中记为z),从而有效结合RNN的时间步递归特性和Transformer的全局注意力机制(见公式7和8)。其中,k(key)和v(value)类似于传统注意力中的K与V的向量(见公式5和6)。与传统RNN相比,RWKV能够在充分学习上下文信息的同时,有效处理和建模它们之间的长期依赖关系。这对于复杂且特殊的“SMILES语言”尤为重要。

2 方法

2.1 ChemRB模型

ChemRB模型的架构如图1所示。模块a负责提取分子特征。它将分子结构转化为SMILES字符串,并以独热编码的形式通过词嵌入矩阵将其转换为高维表示的特征向量,作为输入前的初始特征。模块b为RWKV的时间混合块。为了测试这种架构在药物发现领域的前瞻性应用,我们将其作为字符采样器的基本单元。在任意给定的第t个时间步长,网络由下面的一组方程描述:

(3)$ \boldsymbol{w}_{t, i}=-(t-i) \cdot \boldsymbol{w}, i \in\{1,2, \cdots, t\} ;$

(4)$ \boldsymbol{r}_{t}=\left[\left(1-\boldsymbol{u}_{r}\right) \boldsymbol{x}_{t-1}+\boldsymbol{u}_{r} \boldsymbol{x}_{t}\right] \cdot \boldsymbol{W}_{r} ;$

(5)$ \boldsymbol{k}_{t}=\left[\left(1-\boldsymbol{u}_{k}\right) \boldsymbol{x}_{t-1}+\boldsymbol{u}_{k} \boldsymbol{x}_{t}\right] \cdot \boldsymbol{W}_{k} ;$

(6)$ \boldsymbol{v}_{t}=\left[\left(1-\boldsymbol{u}_{v}\right) \boldsymbol{x}_{t-1}+\boldsymbol{u}_{v} \boldsymbol{x}_{t}\right] \cdot \boldsymbol{W}_{v} ;$

(7)

z t = e u + k t v t + ∑ i = 1 t - 1 v i e - (t - 1 - i) w + k i e u + k t + ∑ i = 1 t - 1 e - (t - 1 - i) w + k i

;

(8)$\boldsymbol{o}_{t}=\left[\sigma\left(r_{t}\right) \odot \boldsymbol{z}_{t}\right] \cdot \boldsymbol{W}_{o \circ}$

式中:w_t_,_i表示时刻i和t之间的位置偏差;u表示在当前时刻t对输入向量x_t的关注度;k和v类似于传统注意力机制的key和value向量;W为不同模型中的权重矩阵。将模块a提取的分子初始特征x_t顺序输入,随着时间t的增加,模型对[1,t]的位置区间进行加权求和得到wkv分数,然后乘以接受度σ(r_t)得到新的输出o_t。重点在于,当t+1时刻,网络仅需计算此刻对应的v_t₊₁

e u + k t + 1

和

e u + k t + 1

,至于2个复杂的累加计算则可以直接复用上一时刻的结果(公式(7)),从而使得RWKV达到类似RNN的自回归推理模式。因此,每次输出的结果都依赖于当前时刻的最新状态,从而在解码时可以很好地捕获长距离依赖性。

模块c为自编码预测器,由编码器、潜在空间和解码器组成。它从编码后的字符串特征中提取和重建分子信息,然后输出预测的分子属性并计算回归误差。通过学习潜在空间的属性向量表示,旨在引导和优化新药物分子的属性。模块d负责分子生成,由字符采样器和环约束器并行组成。字符采样器包括8个RWKV层,通过最小化交叉熵来减少预测字符与真实字符之间的概率误差;环约束器包括8个Transformer层,通过添加不同的输出层,分别对应于不同的预训练任务。因此,ChemRB模型的联合损失函数定义为

(9)$L_{\mathrm{ChemRB}}=L_{\mathrm{Cs}}+L_{\mathrm{Ap}}+L_{\mathrm{Rc}}$

式中:L_Cs表示字符采样器预测的交叉熵损失;L_Ap表示自编码预测器的总误差;L_Rc表示环约束器两个预训练任务的总误差。这3种损失都是每批样品的平均值。

2.2 字符采样器

字符采样器的训练过程如图2a所示。由于分子序列长度各不相同,训练时每个分子被填充到最大SMILES字符串的长度n。将前n-1个字符作为输入,最后n-1个字符作为目标,那么训练损失L_Cs和Softmax函数P可以表示为

(10)$L_{\mathrm{Cs}}=-\sum_{i=1}^{n-1} \boldsymbol{y}_{i} \log (\hat{\boldsymbol{y}}) ;$

(11)

P (x t + 1 = k | x 1, x 2, …, x t) = e x p y t k T ∑ i = 1 K e x p y t i T

。

式中:y_t表示神经网络在时间步长t的输出向量;

y t k

对应于向量y_t的第k个元素;K表示词汇表大小;T表示采样温度。在对下一个时间步骤t+1的SMILES字符x_t₊₁采样后,可以构建一个新的输入向量x_t₊₁,将其输入模型,通过y_t₊₁和公式(11)得出P(x_t₊₂|x₁,x₂,…,x_t_-1)。

采样生成过程如图2b所示。开始符号“[Start]”用于启动生成。在每一步采样中,最后一个采样的字符被作为生成序列中的下一个字符。继续采样,直到循环至设定的最大次数(我们将其设定为最大SMILES字符串的长度n)。“[Pad]”除了表示填充符号外,同时也代表着生成完整分子的完成。通过顺序依次提取“[Start]”和第一个“[Pad]”之间所有的SMILES 字符形成最终的生成结果。

显示原图|下载原图ZIP|生成PPT

图2 字符采样器的训练和生成过程

Fig.2 Training and sampling process of the character sampler

2.3 自编码预测器

自编码预测器主要由编码器和解码器两个神经网络组成,具体结构如图3所示。编码器由三个堆叠的长短期记忆网络(long short-term memory, LSTM)层组成,负责将字符串分子的初始向量特征转换为连续低维的潜在空间表示。每层最终的隐藏状态向量拼接后,经由两个全连接层分别输出一组均值(μ)和标准差(σ)来描述对应的后验分布,即潜在空间的分布。假设编码器的输入为x,参数为θ。若Z为潜在变量,那么编码器分布就满足Q_θ(Z/x)。解码器同样包含3个LSTM层,最后一层每个时间步的输出被映射回原始空间以重建分子样本。若解码器参数为Φ,同理满足分布P_Φ(x/Z)。

显示原图|下载原图ZIP|生成PPT

图3 自编码预测器的基本架构

Fig.3 Basic architecture of autoencoding predictor

为了融合属性特征,我们还在解码器中引入一个全连接层用于分子性质预测。由于真实后验分布很难去计算,我们将其近似为标准高斯分布并用KL散度(Kullback-Leibler divergence)来衡量两个分布之间的差异。因此,自编码预测器的损失L_Ap为

(12)$ \begin{aligned}L_{\mathrm{Ap}} & =K_{L}\left[Q_{\theta}(Z / x) \| P_{\Phi}(z)\right]- \\& E_{Z}\left[\log \left(P_{\Phi}(x / Z)\right)\right]+E_{\theta, \Phi}(y, \hat{y}) \end{aligned}$

(13)$ E_{\theta, \Phi}(y, \hat{y})=E\left(y, P_{\Phi}\left(y \mid Q_{\theta}(Z / x)\right)\right) 。$

其中,K_L[Q_θ(Z/x)‖P_Φ(z)]表示KL散度,-E_Z[log(P_Φ(x/Z))表示分子重建时的误差,E_θ_,_Φ(y,

y ˙

)表示性质预测的均方误差(MSE)。因此,分子的属性信息被强加于模型结构中,而不仅限于分子本身。

2.4 环约束器

不同于训练分子生成的单向语言模型,我们使用以下2个任务(Task1~2)来预训练环约束器,具体结构见图4。

显示原图|下载原图ZIP|生成PPT

图4 环约束器的2个预训练任务

注:网络版为彩图。

Fig.4 Two pre-training tasks for the ring constraint

Task 1:环级特征预测。与BERT处理整条序列不同,我们的方法专注于对分子环元素进行掩码处理。随机选取其中的20%令牌位置,随后具体操作如下:1)80%的概率使用[MASK]标记;2)10%的概率随机替换为其他标记;3)10%的概率不做任何变化。随后,与掩码令牌相对应的最终隐藏向量通过第一个全连接层输出到词汇表上的Softmax中,预测每一个令牌的真实类别并计算交叉熵损失

(14)$ \hat{\boldsymbol{y}}_{1}^{r}=\operatorname{Softmax}\left(\boldsymbol{w}_{1}^{r} \cdot \boldsymbol{x}^{r}+\boldsymbol{b}_{1}^{r}\right)$

值得注意的是,环约束器是为了优化分子环闭合以提高分子有效性,因此环元素之后的特征被视为噪声剔除。

Task 2:全局跨度闭合预测。在分子环约束这一下游任务中,随着分子环跨度的增大和分子环组成成分的复杂化,建模不同位置之间的相关性对模型来说变得越来越具有挑战性。为了解决这种长距离依赖建模中的信息遗忘风险,我们引入了全局跨度这一重要特征。全局跨度提供了分子环大小及其相对位置的准确信息,有助于模型更准确地捕捉开口标记和闭合标记之间的对应关系,从而提高预测精度。给定闭合标记在整个序列中的位置,我们从一个可学习的全局跨度矩阵中查找相应的嵌入表示g_span。在分别得到开启令牌和关闭令牌的深度双向表示r₁和r₃后,对中间特征进行平均池化,得到它们之间的关系r₂。将这4种向量表示拼接(º)后,我们得到了最终的输入

(15)$ \boldsymbol{x}^{g}=\boldsymbol{r}_{1} \circ \boldsymbol{r}_{2} \circ \boldsymbol{r}_{3} \circ \boldsymbol{g}$

输入x^g经过第二个全连接层进行二分类预测:

(16)$ \hat{\boldsymbol{y}}_{2}^{g}=\sigma\left(\boldsymbol{W}_{2}^{g} \cdot \boldsymbol{x}^{g}+\boldsymbol{b}_{2}^{g}\right) ;$

(17)$ L_{\mathrm{Rc}}=L_{\mathrm{task} 1}+L_{\mathrm{task} 2}$

式中:σ表示Sigmoid;L_task1表示分子环上的多分类交叉熵;L_task2表示关系分类上的二元交叉熵。给定一个置信阈值α,任何关系预测得分≥α都被认为是适当的关闭时间;否则,不进行闭合约束。

具体的优化流程与逻辑如图5所示。首先输入开始字符,并检查此时分子环的状态。如果分子环处于未生成状态或已闭合状态,字符采样器预测所有待采样字符的概率分布,并进行随机采样。然后将新采样的字符添加到序列中,开始下一次迭代。如果分子环处于打开状态,则将序列传递至环约束器,以确定是否应该在此时关闭环。当采样轮数超过设定的最大值时,循环终止,并评估所有生成的分子。值得注意的是,对于分子环的开口我们没有做任何限制,由模型随机采样确定是否或何时发生。

显示原图|下载原图ZIP|生成PPT

图5 模型生成与优化的流程图

Fig.5 Flow chart of model generation and optimization

2.5 实验参数和评估指标

ChemRB模型使用Adam优化器训练10个迭代(epoch),学习率为6×10^-4,批处理(batch)值为128。其中,编码模块的词嵌入(word embedding)为256;自编码预测器的LSTM隐藏层维度为128,潜在空间大小为256;字符采样器和环约束器分别由8层RWKV块和8层Transformer块堆叠而成,每层的上下文长度为最大分子长度n。最后一层的输出向量通过应用不同的全连接神经网络对应于不同的预训练任务,并计算总损失以反向传播更新参数。

在分子生成任务中,通常使用有效性、独特性和新颖性这3个指标来评估生成模型的性能。对于生成分子的有效性,我们使用RDKit^[45](Python工具包)进行自动判定,包括检查分子的语法规则、原子和键类型以及价键模式等等。为了综合评估模型在这些指标上的性能,我们引入了一个新的评估指标,即新分子/样本^[3]。

有效性(validity,记作V_al):生成有效分子的数量与生成总分子的数量之比。

(18)$ V_{\mathrm{al}}=\frac{M_{\mathrm{valid}}}{M_{\text {generate }}}$

唯一性(uniqueness,记作U_ni):有效分子中未重复分子的数量与有效分子的数量之比。

(19)$ U_{\mathrm{ni}}=\frac{M_{\text {unique }}}{M_{\text {valid }}} 。$

新颖性(novelty,记作N_ov):唯一分子集中未包含训练时的分子数量与唯一分子集的数量之比。

(20)$ N_{\mathrm{ov}}=\frac{M_{\text {novel }}}{M_{\text {unique }}}$

新分子(new,记作N_ew)/样本(sample,记作S_am):有效、唯一且新颖的分子数量与生成总分子的数量之比,表示模型生成全新分子的综合能力。

(21)$ N_{\mathrm{ew}} / S_{\mathrm{am}}=V_{\mathrm{al}} \times U_{\mathrm{ni}} \times N_{\mathrm{ov} 。}$

3 结果与讨论

3.1 数据集

使用两个基准数据集QM9^[46]和ZINC^[47]训练和评估我们的模型,这两个数据集被广泛用于各种数据驱动的分子特性预测实验和比较。QM9数据集是一个简单的数据集,包含约133 885个分子。这些分子最长仅22个字符,最多有9个重原子:碳(C)、氧(O)、氮(N)、氟(F)等;ZINC数据集相对较为复杂,最长有73个字符,最多有38个重原子,包含了大约249 455个分子。两个数据的分割方式都按8∶1∶1的比例随机划分为训练集、验证集和测试集。

对于目标导向的案例研究,我们创建了另外两个更具挑战性的数据集来预训练和评估我们的模型。为此,我们使用ChEMBL数据库^[48]中的化合物构建了一个庞大的预训练源数据集,并从DUD-E数据库^[49]中检索已知的EGFR抑制剂形成微调的小型数据集。所有这些分子都被编码为SMILES字符串,最终共得到约100万个分子集和542个目标数据集。

3.2 环约束器的性能结果

在生成模型中,温度超参数可以用于调整模型预测的概率分布,使得softmax输出更加平滑或集中(见公式11)。当温度越低时,模型输出的概率分布变得更尖锐集中,更倾向于选择概率较大的字符输出。这可能会导致生成结果的有效性提高,但多样性降低;当温度越高时,模型输出的概率分布变得更平滑随机,更有可能选择那些原本概率较低的字符输出。这可能会增加生成结果的多样性,但同时导致一些不合理的无效分子。因此,我们分别在不同温度下测试生成了10 000个分子,并检查了有效性等指标。结果如图6所示:随着采样温度的升高,生成的样本的有效性不断降低,唯一性和新颖性增加;综合评价指标“新分子/样本”以先增加后减少的趋势达到最佳。在QM9数据集上的最佳性能为66.28%(采样温度为1.25),在ZINC数据集上的最佳性能为98.74%(采样温度为0.75)。

显示原图|下载原图ZIP|生成PPT

图6 温度超参数对ChemRB的影响

注:网络版为彩图。

Fig.6 The impact of sampling temperature on the ChemRB

为了全面评价环约束器在ChemRB上的性能,我们比较了优化前后生成器在不同采样温度下的性能,如表2所示。可以看出,经过分子环约束后,有效性得到了显著提高,同时保持了较高的唯一性和新颖性。这表明环约束器充分学习了训练数据中分子环特征之间的关系,而并不局限于简单复制。相应地,新分子/样本比率的增加也验证了这一点。

表2 环约束器在基准数据集上的性能

Tab.2 Performance of ring constrainer on the benchmark datasets

数据集	温度超参数	有效性/%	唯一性/%	新颖性/%	(新分子/样本)/%
QM9	0.25	100(+0.01)	17.16(-0.01)	49.45(+0.01)	8.49(-)
	0.50	99.96(+0.02)	70.28(+0.01)	57.03(-)	40.06(+0.01)
	0.75	99.80(+0.12)	93.43(+0.01)	62.48(+0.03)	58.26(+0.10)
	1.00	99.10(+0.35)	96.44(+0.02)	67.56(+0.06)	64.57(+0.30)
	1.25	96.52(+0.50)	96.39(+0.01)	71.62(-)	66.63(+0.35)
	1.50	89.86(+0.66)	95.91(-)	75.45(-)	65.03(+0.48)
	1.75	78.03(+1.29)	95.65(+0.11)	78.78(+0.13)	58.80(+1.13)
	2.00	61.64(+1.85)	95.52(+0.26)	82.22(+0.44)	48.41(+1.83)
ZINC	0.25	100(+0.01)	49.19(+0.01)	99.20(-0.01)	48.80(+0.01)
	0.50	99.93(+0.03)	98.18(+0.04)	99.21(-0.02)	97.34(+0.05)
	0.75	99.52(+0.11)	99.96(+0.03)	99.38(-0.02)	98.86(+0.12)
	1.00	97.50(+0.47)	100(+0.02)	99.63(+0.03)	97.14(+0.52)
	1.25	90.24(+1.13)	99.99(-)	99.78(+0.01)	90.03(+1.14)
	1.50	73.37(+2.02)	99.99(+0.01)	99.85(-)	73.25(+2.02)
	1.75	48.26(+2.17)	99.93(+0.02)	99.94(+0.04)	48.20(+2.19)
	2.00	24.59(+2.28)	99.84(-0.01)	99.96(+0.04)	24.54(+2.28)

注:括号中“+”表示优化后的绝对提高,“-”表示降低或持平,结果为10次平均后的百分比。

为了进一步了解未闭合环的优化率,我们收集整理了所有生成结果中的无效分子并进行分析。结果如表3所示,在QM9中,ChemRB生成器的无效率为3.98%,其中未闭合环占所有样本的1.84%;经过环约束器优化后,未闭合率降低至0.45%,优化率为75.54%。同理,在ZINC中,未闭合率由0.14%降低至0.03%,优化率为78.57%。这些结果表明环约束器在处理分子环无效性方面取得了显著的优化效果。

表3 环约束器在ChemRB上的优化率单位:%

Tab.3 Optimization rate of the ring constraint on ChemRB

数据集	方法	无效率	未闭合率	优化率
QM9	ChemRB-WRC	3.98	1.84	75.54
	ChemRB	3.48	0.45
ZINE	ChemRB-WRC	0.59	0.14	78.57
	ChemRB	0.48	0.03

注:ChemRB-WRC不包含环约束器。

3.3 显著性测试结果

为了量化分析环约束器优化前后的有效性是否存在显著性差异,我们对其进行了统计测试。具体而言,我们使用Shapiro-Wilk检验两组数据的正态性,并用Levene检验方差齐性(当P>0.05时,接受原假设H0:样本来自正态分布、样本方差齐性)。当样本符合正态分布且方差齐性时,我们进行独立样本t检验;当符合正态分布但方差非齐性时,我们进行Welch t检验;否则我们进行Mann-Whitney u检验(当P<0.05时,拒绝原假设H0:样本间没有显著差异,接受备择假设H1:样本间存在显著差异)。结果如表4所示。

表4 有效性统计测试

Tab.4 Validity statistical test

温度参数	QM9								ZINC
温度参数	SW-优化前	SW-优化后		Levene检验		显著性测试			SW-优化前		SW-优化后		Levene检验		显著性测试
0.25	0.204		0.305		0.882		0.000	0.790		0.884		0.597		0.000
0.50	0.092		0.406		0.279		0.002	0.584		0.692		0.365		0.001
0.75	0.410		0.552		0.207		0.001	0.793		0.871		0.624		0.002
1.00	0.172		0.174		0.385		0.002	0.684		0.037		0.702		0.014
1.25	0.728		0.547		0.542		0.005	0.292		0.386		0.677		0.031
1.50	0.034		0.407		0.168		0.017	0.093		0.127		0.048		0.016
1.75	0.321		0.214		0.289		0.023	0.047		0.885		0.401		0.031
2.00	0.760		0.045		0.750		0.026	0.158		0.046		0.676		0.045

3.4 自编码预测器的优化结果

分子属性预测和优化在计算化学领域起着至关重要的作用^[50],例如小分子药物通常要求lg P<5^[51]。为了进一步了解和测试模型在这方面的优化能力,我们使用了3个属性指标:水-辛醇分配系数(lg P)、合成可及性得分(SAS)^[52]和拓扑极表面积(TPSA)。lg P定义为辛醇-水分配系数(lg P)的对数,值越高表明疏水性越强;SAS反映了合成药物分子的难度,其值在1(容易)到10(非常难)之间;TPSA指的是所有极性原子的表面积总和,衡量药物透过细胞膜的能力。

将融合了分子性质的潜在向量与字符串的特征向量拼接,作为新的输入。模型通过解析这些性质与分子结构之间的相关性,从而在生成时优化具有特定性质的药物分子。具体结果如图7所示,可以看出,分子属性的分布准确地以目标值为中心。即使在概率密度分布较低的区间下,也能明显以优于训练时的概率去生成特定目标的分子,如SAS=5和TPSA=100。在多条件优化时,可以看出8个不同的组合条件下生成的分子被明显区分为8个团簇,三维散点图很直观地展示了这一点。

显示原图|下载原图ZIP|生成PPT

图7 以lg P、TPSA和SAS优化生成分子的性质

注:网络版为彩图。

Fig.7 Optimized properties of generated molecules with lg P, TPSA, and SAS

对于每个属性,我们计算了预测分布与真实分布之间的平均绝对误差(mean absolute error,MAE)、Pearson相关性和R²,结果如表5所示。

表5 自编码预测器的性质预测和优化能力

Tab.5 Property prediction and optimization capability of autoencoding predictor

数据集	分子性质	有效性	唯一性	新颖性	平均绝对误差	Pearson相关性	R²
ZINC	lg P	0.959	0.999	0.994	0.214	0.974	0.945
	SAS	0.945	0.998	0.995	0.169	0.977	0.954
	TPSA	0.957	0.998	0.994	3.167	0.989	0.976
	lg P-SAS-TPSA	0.814	0.923	0.998	1.822	0.986	0.966

3.5 对比实验结果

一个优秀的生成模型不仅应关注有效性,还应致力于发现新的、具有潜力的化合物,从而推动化学领域的创新和发展。为了表明ChemRB的独特优势和先进性,我们将其与cRNN^[14]、GrammarVAE^[15]、MolGAN^[16]、MolGPT^[17]、FraHMT^[30]、ARAE^[53]、MGM^[54]、GraphVAE^[55]、GeoBFN^[56]和BiCEV^[57]等现有技术进行了对比。在每个基准数据集训练结束后,我们从训练好的模型中统一采样生成10 000个分子进行评估。每个数据集上温度为1.0时的模型性能如表6和表7所示。实验结果表明,ChemRB在新分子/样本这一综合指标上取得了最佳分数,优于多种先进的分子生成模型。这表明我们的模型有效地学习了分子的化学规律和结构特征。

表6 ChemRB和基准模型在QM9数据集上的性能

Tab.6 Performance of ChemRB and benchmark models on QM9 dataset

模型方法	有效性	唯一性	新颖性	新分子/样本
MGM	0.886	0.978	0.518	0.449
GrammarVAE	0.602	0.093	0.809	0.045
GraphVAE	0.557	0.670	0.616	0.261
MolGAN	0.981	0.104	0.942	0.096
ARAE	0.862	0.935	0.371	0.299
MolGPT	0.986	0.948	0.640	0.598
GeoBFN	0.969	0.924	0.653	0.585
ChemRB	0.991	0.964	0.676	0.646

注:加粗表明最优。

表7 ChemRB和基准模型在ZINC数据集上的性能

Tab.7 Performance of ChemRB and benchmark models on ZINC dataset

模型方法	有效性	唯一性	新颖性	新分子/样本
cRNN	0.784	0.899	0.452	0.319
GrammarVAE	0.310	1.000	0.108	0.033
GraphVAE	0.140	1.000	0.316	0.044
ARAE	0.903	1.000	1.000	0.903
MolGPT	0.962	1.000	0.995	0.957
BiCEV	0.958	0.957	1.000	0.917
FraHMT	1.000	1.000	0.968	0.968
ChemRB	0.975	1.000	0.996	0.971

注:加粗表明最优。

3.6 讨论

3.6.1 预训练和环表征

由于药物数据集的稀缺性,我们接下来将探索预训练可以为药物分子的生成带来什么。本质上,分子生成是一个表征学习过程,模型的性能取决于它从给定的初始信息中提取相关任务特征的能力。之前的结果已经证实了,与其他先进方法相比ChemRB所具有的优秀生成能力,突出了其捕获分子间复杂语法和语义关系的能力。在这里,为了测试预训练能否显著增强ChemRB提取分子特征的能力,我们分别用源数据集ChEMBL和目标数据集EGFR对ChemRB-WRC以及环约束器的各种预训练变体进行训练,结果如表8所示。实验表明,预训练可以有效增强生成模型对化学空间的探索能力,同时也进一步提高了环约束器的优化能力。

表8 不同预训练的ChemRB变体在两个数据集上的性能

Tab.8 Performance of different pre-trained variants of ChemRB on two datasets

变体	ChemRB-WRC	环约束器	有效性	唯一性	新颖性	新分子/样本
变体1	E		0.309 5	0.499 4	0.864 3	0.133 6
变体2	E	E	0.316 6	0.514 9	0.876 3	0.142 9
变体3	E	C+E	0.367 4	0.539 5	0.889 8	0.176 4
变体4	C+E		0.718 4	0.945 9	0.948 6	0.644 6
变体5	C+E	C+E	0.736 8	0.946 3	0.952 0	0.663 8

注:ChemRB-WRC不包含环约束器,C表示源数据集ChEMBL,E为目标数据集EGFR。

3.6.2 EGFR抑制剂的重设计

为了设计新的选择性EGFR抑制剂,我们选择预训练的变体5模型(表8)。在生成过程中,我们以lg P=2.5、SAS=2.0和TPSA=60为控制条件,目的是生成符合Lipinski's Rule of Five^[51]的分子。通过运行该模型,我们采样生成了10 000个分子。除去无效、重复和训练集中的分子后,总共得到了2 487个分子。为了验证生成的分子是否具有与EGFR抑制剂相匹配的特性,我们使用RDKit计算了多个分子性质,包括lg P、SAS、TPSA、分子量、分子类药性、BertzCT、H-供体、H-受体和可旋转键的数量。然后,我们使用t-SNE算法对这些性质进行了2D降维并可视化,结果如图8所示。两组几乎完全重叠,表明生成的分子很好地再现了EGFR抑制剂的特性。

显示原图|下载原图ZIP|生成PPT

图8 基于EGFR抑制剂和生成分子的化学空间图

注:网络版为彩图。

Fig.8 Chemical space navigation based on EGFR inhibitors and generated molecules

此外,为了深入了解生成分子对EGFR激酶的生物活性和选择性,我们利用分子对接模拟了这些分子与EGFR晶体结构之间的相互作用(蛋白质数据库标识符:2RGP)。为了评估相似性,我们还采用了与MOSES基准^[58]相同的方法,包括与最近邻相似性(SNN)、片段相似性(Fragment)和支架相似性(Scaffold),结果如表9所示。

表9 两组分子集间的对接亲和力和相似性

Tab.9 Docking affinity and similarity between two sets

分子集	对接亲和力(PDB 2RGP)					相似性
分子集	(-∞,-7)	(-7,-5)		(-5,-4.25)		SNN	Fragment	Scaffold
EGFR	99.08%		0.92%
Generated	90.94%		8.26%		0.30%	0.622	0.987	0.277

其中,对接亲和力越低,结合强度越强,分子配体靶向蛋白质的概率越高^[59]。对接亲和值低于-4.25 kcal/mol表示有一定的结合活性,低于-5.0 kcal/mol表示结合活性良好,低于-7.0 kcal/mol表示结合活性极强。结果显示:542个EGFR抑制剂中,对接活性极强和良好的占比分别达到了99.08%和0.92%;而生成的2 487个分子集合中,对接活性极强、良好和一定的占比分别达到了90.94%、8.26%和0.30%,表明生成的分子与受体结构之间具有非常出色的相互作用。为了更直观地展示方法的有效性,我们挑选了部分EGFR分子和部分生成分子并对子结构进行着色处理(红色表示相同的子结构,蓝色则表示近似的子结构)。图9结果显示,模型不仅有效地生成了新的分子骨架,同时也成功学习了EGFR抑制剂分子的子结构。较高的SNN和Fragment值以及相对较低的Scaffold值也表明了这一点。

显示原图|下载原图ZIP|生成PPT

图9 生成的分子实例图

注:网络版为彩图。

Fig.9 Generated molecular instances

值得注意的是,通过对现有药物数据库进行筛选和比较,我们发现了一个与已知药物达可替尼(Dacomitinib)^[60]相同的生成分子,对接结合能为-8.9 kcal/mol,如图10a(1)。随后,我们从生成的分子集中选择结合亲和力最强的分子,对接结合能为-12.0 kcal/mol,如图10b(1)。我们发现,二者在晶体结构中占据相同的拓扑位点(PDB 2RGP),且生成分子表现出额外的稳定相互作用(图10a(2)、图10b(2))。

显示原图|下载原图ZIP|生成PPT

图10 分子对接模拟图

注:网络版为彩图。

Fig.10 Molecular docking simulation

4 结论

本文提出了一个新的受双向分子环约束的生成模型ChemRB。与传统的单向编码自回归生成模型不同,我们通过引入两个预训练任务,成功地将分子环的生成扩展到深度双向架构。作为首次在这方面的探索和尝试,ChemRB对于提高生成分子有效性具有重要的借鉴意义,并可作为灵活扩展的应用方法。通过对温度超参数的详细考察,我们全面论证了环约束器增强有效性的能力,展示了其对无效分子环的优化能力。这一成就的意义在于,我们证明了在不牺牲唯一性和新颖性性能的情况下提高有效性是可行的。此外,我们构建了一个自编码预测器来重建和预测药物分子性质,指导生成器在生成过程中进行逆向解析并设计具有特定属性的药物分子。我们观察到,即使训练数据的性质分布较为均匀和平缓,生成时仍能以远超其概率密度集中优化分子性质。较低的MAE和较高的Pearson、R²值也证明了这一点。最后,我们还测试了模型在EGFR抑制剂上的实际应用表现。结果表明,我们可以在满足相同性质和相似度的情况下,成功地生成具有较高亲和力的新候选化合物。在未来的工作中,除了引入更多无效类型的处理外,还可以扩展ChemRB以集成日益复杂的数据,例如蛋白质组学和空间结构信息,为加速药物发现和分子设计提供有力指导。

References

Publishing order | Descend order by publishing year | Descend order by cited within

[1]	KHAN S R, AL RIJJAL D, PIRO A, et al. Integration of AI and traditional medicine in drug discovery[J]. Drug Discovery Today, 2021, 26(4):982-992. DOI PMID

[2]	DIMASI J A, GRABOWSKI H G, HANSEN R W. Innovation in the pharmaceutical industry: new estimates of R&D costs[J]. Journal of Health Economics, 2016, 47: 20-33.

[3]	GÓMEZ-BOMBARELLI R, WEI J N, DUVENAUD D, et al. Automatic chemical design using a data-driven continuous representation of molecules[J]. ACS Central Science, 2018, 4(2): 268-276.

[4]	KIM S, THIESSEN P A, BOLTON E E, et al. PubChem substance and compound databases[J]. Nucleic Acids Research, 2016, 44(D1): D1202-D1213.

[5]	顾志浩, 郭文浩, 姚和权, 等. 基于人工智能模型筛选与生成先导化合物的研究进展[J]. 中国药科大学学报, 2023, 54(3):294-304. GU Z H, GUO W H, YAO H Q, et al. Research progress of the screening and generation of lead compounds based on artificial intelligence model[J]. Journal of China Pharmaceutical University, 2023, 54(3):294-304.

[6]	SEGALL M. Advances in multiparameter optimization methods for de novo drug design[J]. Expert Opinion on Drug Discovery, 2014, 9(7): 803-817. DOI PMID

[7]	RUDDIGKEIT L, BLUM L C, REYMOND J L. Visualization and virtual screening of the chemical universe database GDB-17[J]. Journal of Chemical Information and Modeling, 2013, 53(1): 56-65. DOI PMID

[8]	HUANG Q, LI L L, YANG S Y. PhDD:a new pharmacophore-based de novo design method of drug-like molecules combined with assessment of synthetic accessibility[J]. Journal of Molecular Graphics & Modelling, 2010, 28(8): 775-787.

[9]	RUPAKHETI C, VIRSHUP A, YANG W T, et al. Strategy to discover diverse optimal molecules in the small molecule universe[J]. Journal of Chemical Information and Modeling, 2015, 55(3):529-537. DOI PMID

[10]	BALAMURUGAN D, YANG W T, BERATAN D N. Exploring chemical space with discrete,gradient,and hybrid optimization methods[J]. The Journal of Chemical Physics, 2008, 129(17):174105.

[11]	MACARRON R, BANKS M N, BOJANIC D, et al. Impact of high-throughput screening in biomedical research[J]. Nature Reviews Drug Discovery, 2011, 10(3): 188-195. DOI PMID

[12]	PYZER-KNAPP E O, SUH C, GÓMEZ-BOMBARELLI R, et al. What is high-throughput virtual screening? A perspective from organic materials discovery[J]. Annual Review of Materials Research, 2015, 45: 195-216.

[13]	潘林虎, 王睿辉, 樊明仁, 等. 机器学习辅助的[5,6]稠环含能化合物高通量设计[J]. 含能材料, 2024, 32(6):573-583. PAN L H, WANG R H, FAN M R, et al. Machine learning assisted high-throughput design of [5,6] fused ring energetic compounds[J]. Chinese Journal of Energetic Materials, 2024, 32(6):573-583.

[14]	LI Y S, ZHANG L T, WANG Y F, et al. Generative deep learning enables the discovery of a potent and selective RIPK1 inhibitor[J]. Nature Communications, 2022, 13(1):6891. DOI PMID

[15]	KUSNER M J, PAIGE B, HERNÁNDEZ-LOBATO J M. Grammar variational autoencoder[C]//International Conference on Machine Learning,Sydney, Australia.PMLR, 2017: 1945-1954.

[16]	DE CAO N, KIPF T. MolGAN: an implicit generative model for small molecular graphs[EB/OL].[2024-07-22]. https://arxiv.org/abs/1805.11973.

[17]	BAGAL V, AGGARWAL R, VINOD P K, et al. MolGPT: molecular generation using a Transformer-decoder model[J]. Journal of Chemical Information and Modeling, 2022, 62(9): 2064-2076.

[18]	XU Z Y, LEI X J, MA M, et al. Molecular generation and optimization of molecular properties using a transformer model[J]. Big Data Mining and Analytics, 2024, 7(1):142-155.

[19]	WANG J K, HSIEH C Y, WANG M Y, et al. Multi-constraint molecular generation based on conditional Transformer,knowledge distillation and reinforcement learning[J]. Nature Machine Intelligence, 2021, 3(10):914-922.

[20]	WEININGER D. SMILES, a chemical language and information system[J]. Journal of Chemical Information and Computer Sciences, 1988, 28(1): 31-36.

[21]	FLAM-SHEPHERD D, ZHU K, ASPURU-GUZIK A. Language models can learn complex molecular distributions[J]. Nature Communications, 2022, 13(1):3293.

[22]	MORET M, PACHON ANGONA I, COTOS L, et al. Leveraging molecular structure and bioactivity with chemical language models for de novo drug design[J]. Nature Communications, 2023, 14(1): 114. DOI PMID

[23]	BHADWAL A S, KUMAR K, KUMAR N. GenSMILES: an enhanced validity conscious representation for inverse design of molecules[J]. Knowledge-Based Systems, 2023, 268: 110429.

[24]	SCHOENMAKER L, BÉQUIGNON O J M, JESPERS W, et al. UnCorrupt SMILES: a novel approach to de novo design[J]. Journal of Cheminformatics, 2023, 15(1): 22. DOI PMID

[25]	TAYLOR R D, MACCOSS M, LAWSON A D G. Rings in drugs: miniperspective[J]. Journal of Medicinal Chemistry, 2014, 57(14): 5845-5859. DOI PMID

[26]	SHEARER J, CASTRO J L, LAWSON A D G, et al. Rings in clinical trials and drugs: present and future[J]. Journal of Medicinal Chemistry, 2022, 65(13): 8699-8712. DOI PMID

[27]	ZHANG Z, CHEN C, LIU B, et al. Unifying the perspectives of nlp and software engineering: a survey on language models for code[EB/OL].[2024-07-22]. https://arxiv.org/abs/2311.07989.

[28]	BUBECK S, CHANDRASEKARAN V, ELDAN R, et al. Sparks of artificial general intelligence: early experiments with GPT-4[EB/OL].[2024-07-22]. https://arxiv.org/abs/2303.12712.

[29]	XU M Y, CHEN H M. Tree-invent:a novel multipurpose molecular generative model constrained with a topological tree[J]. Journal of Chemical Information and Modeling, 2023, 63(22):7067-7082.

[30]	WANG S, LIANG D M, WANG J M, et al. FraHMT:a fragment-oriented heterogeneous graph molecular generation model for target proteins[J]. Journal of Chemical Information and Modeling, 2024, 64(9):3718-3732.

[31]	ORVIETO A, SMITH S L, GU A, et al. Resurrecting recurrent neural networks for long sequences[C]//International Conference on Machine Learning,Hawaii, USA.PMLR, 2023: 26670-26698.

[32]	DEVLIN J, CHANG M W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[EB/OL].[2024-07-22]. https://arxiv.org/abs/1810.04805.

[33]	PENG B, ALCAIDE E, ANTHONY Q, et al. RWKV: reinventing RNNs for the transformer era[EB/OL].[2024-07-22]. https://arxiv.org/abs/2305.13048.

[34]	SKINNIDER M A, STACEY R G, WISHART D S, et al. Chemical language models enable navigation in sparsely populated chemical space[J]. Nature Machine Intelligence, 2021, 3(9): 759-770.

[35]	O'BOYLE N, DALKE A. DeepSMILES: an adaptation of SMILES for use in machine-learning of chemical structures[EB/OL].[2024-07-22].https://doi.org/10.26434/chemrxiv.7097960.v1.

[36]	KRENN M, H SE F, NIGAM A K, et al. Self-referencing embedded strings (SELFIES): a 100% robust molecular string representation[J]. Machine Learning: Science and Technology, 2020, 1(4): 045024.

[37]	MA T F, CHEN J, XIAO C. Constrained generation of semantically valid graphs via regularizing variational autoencoders[EB/OL].[2024-07-22]. http://arxiv.org/abs/1809.02630.

[38]	WANG Q, WEI Z Q, HU X T, et al. Molecular generation strategy and optimization based on A2C reinforcement learning in de novo drug design[J]. Bioinformatics, 2023, 39(11):btad693.

[39]	BILODEAU C, JIN W, JAAKKOLA T, et al. Generative models for molecular discovery: recent advances and challenges[J]. Wiley Interdisciplinary Reviews: Computational Molecular Science, 2022, 12(5): e1608.

[40]	JIN W G, BARZILAY R, JAAKKOLA T. Junction tree variational autoencoder for molecular graph generation[M]//Drug discovery. Cambridge: Royal Society of Chemistry, 2020:228-249.

[41]	ISHITANI R, KATAOKA T, RIKIMARU K. Molecular design method using a reversible tree representation of chemical compounds and deep reinforcement learning[J]. Journal of Chemical Information and Modeling, 2022, 62(17): 4032-4048. DOI PMID

[42]	CHAN L, KUMAR R, VERDONK M, et al. A multilevel generative framework with hierarchical self-contrasting for bias control and transparency in structure-based ligand design[J]. Nature Machine Intelligence, 2022, 4(12): 1130-1142.

[43]	VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[EB/OL].[2024-07-22]. http://arxiv.org/abs/1706.03762.

[44]	ZHAI S, TALBOTT W, SRIVASTAVA N, et al. An attention free Transformer[EB/OL].[2024-07-22]. https://arxiv.org/abs/2105.14103.

[45]	LANDRUM G. Rdkit: open-source cheminformatics[EB/OL].[2024-07-22].https://doi.org/10.5281/zenodo.591637.

[46]	RAMAKRISHNAN R, DRAL P O, RUPP M, et al. Quantum chemistry structures and properties of 134 kilo molecules[J]. Scientific Data, 2014, 1(1): 140022.

[47]	IRWIN J J, STERLING T, MYSINGER M M, et al. ZINC: a free tool to discover chemistry for biology[J]. Journal of Chemical Information and Modeling, 2012, 52(7): 1757-1768. DOI PMID

[48]	ZDRAZIL B, FELIX E, HUNTER F, et al. The ChEMBL Database in 2023: a drug discovery platform spanning multiple bioactivity data types and time periods[J]. Nucleic Acids Research, 2024, 52(D1): D1180-D1192.

[49]	MYSINGER M M, CARCHIA M, IRWIN J J, et al. Directory of useful decoys, enhanced (DUD-E): better ligands and decoys for better benchmarking[J]. Journal of Medicinal Chemistry, 2012, 55(14): 6582-6594. DOI PMID

[50]	TROPSHA A, ISAYEV O, VARNEK A, et al. Integrating QSAR modelling and deep learning in drug discovery: the emergence of deep QSAR[J]. Nature Reviews Drug Discovery, 2024, 23(2): 141-155. DOI PMID

[51]	LIPINSKI C A, LOMBARDO F, DOMINY B W, et al. Experimental and computational approaches to estimate solubility and permeability in drug discovery and development settings[J]. Advanced Drug Delivery Reviews, 2001, 46(1/2/3):3-26.

[52]	ERTL P, SCHUFFENHAUER A. Estimation of synthetic accessibility score of drug-like molecules based on molecular complexity and fragment contributions[J]. Journal of Cheminformatics, 2009, 1(1):8. DOI PMID

[53]	HONG S H, RYU S, LIM J, et al. Molecular generative model based on an adversarially regularized autoencoder[J]. Journal of Chemical Information and Modeling, 2020, 60(1):29-36. DOI PMID

[54]	MAHMOOD O, MANSIMOV E, BONNEAU R, et al. Masked graph modeling for molecule generation[J]. Nature Communications, 2021, 12(1): 3156. DOI PMID

[55]	SIMONOVSKY M, KOMODAKIS N. GraphVAE:towards generation of small graphs using variational autoencoders[M]//Lecture notes in computer science. Cham: Springer International Publishing, 2018:412-422.

[56]	SONG Y X, GONG J J, QU Y R, et al. Unified generative modeling of 3D molecules via Bayesian flow networks[EB/OL].[2024-07-22]. http://arxiv.org/abs/2403.15441.

[57]	PRAVALPHRUEKUL N, PIRIYAJITAKONKIJ M, PHUNCHONGHARN P, et al. De novo design of molecules with multiaction potential from differential gene expression using variational autoencoder[J]. Journal of Chemical Information and Modeling, 2023, 63(13): 3999-4011. DOI PMID

[58]	POLYKOVSKIY D, ZHEBRAK A, SANCHEZ-LENGELING B, et al. Molecular sets (MOSES): a benchmarking platform for molecular generation models[J]. Frontiers in Pharmacology, 2020, 11: 565644.

[59]	王伟, 吴世玉, 刘栋, 等. 基于LSTM和注意力机制的蛋白质-配体结合亲和力预测[J]. 陕西师范大学学报(自然科学版), 2024, 52(3):76-84. WANG W, WU S Y, LIU D, et al. Prediction of protein-ligand binding affinity based on LSTM and attention mechanism[J]. Journal of Shaanxi Normal University (Natural Science Edition), 2024, 52(3):76-84.

[60]	WU Y L, CHENG Y, ZHOU X D, et al. Dacomitinib versus gefitinib as first-line treatment for patients with EGFR-mutation-positive non-small-cell lung cancer (ARCHER 1050): a randomised, open-label, phase 3 trial[J]. The Lancet Oncology, 2017, 18(11): 1454-1466.

Options

Outlines

模态框（Modal）标题

Abstract

Cite this article

图1 ChemRB模型概述

1 相关工作

1.1 分子有效性

表1 生成的闭合分子和未闭合分子

1.2 RWKV机制

2 方法

2.1 ChemRB模型

2.2 字符采样器

图2 字符采样器的训练和生成过程

2.3 自编码预测器

图3 自编码预测器的基本架构

2.4 环约束器

图4 环约束器的2个预训练任务

图5 模型生成与优化的流程图

2.5 实验参数和评估指标

3 结果与讨论

3.1 数据集

3.2 环约束器的性能结果

图6 温度超参数对ChemRB的影响

表2 环约束器在基准数据集上的性能

表3 环约束器在ChemRB上的优化率 单位:%

3.3 显著性测试结果

表4 有效性统计测试

3.4 自编码预测器的优化结果

图7 以lg P、TPSA和SAS优化生成分子的性质

表5 自编码预测器的性质预测和优化能力

3.5 对比实验结果

表6 ChemRB和基准模型在QM9数据集上的性能

表7 ChemRB和基准模型在ZINC数据集上的性能

3.6 讨论

3.6.1 预训练和环表征

表8 不同预训练的ChemRB变体在两个数据集上的性能

3.6.2 EGFR抑制剂的重设计

图8 基于EGFR抑制剂和生成分子的化学空间图

表9 两组分子集间的对接亲和力和相似性

图9 生成的分子实例图

图10 分子对接模拟图

4 结论

References

表3 环约束器在ChemRB上的优化率单位:%