药物开发过程通常包括4个主要阶段:药物发现、先导化合物设计、临床研究和批准上市
[1]。整个过程通常耗费约12年的时间,需要近26亿美元的资金投入
[2]。加快这一进程并降低成本将带来显著的经济和人力效益。然而,由于化学空间表现的离散性和巨大规模,早期类药物分子的优化任务极具挑战
[3]。据估计,潜在类药物化学空间中分子的数量为10
23~10
60,其中仅成功合成了约10
8个分子
[4]。如何有效探索未被发现的化学空间,并设计具备所需特性的先导化合物成为药物发现过程中至关重要的一步
[5]。
传统的计算分子设计方法,如基于结构的
[6]、基于配体的
[7]和基于药物团的
[8]方法需要丰富的领域知识和专家经验,且产生分子的质量和多样性也严重依赖所使用的化学文库和搜索策略,如遗传算法
[9]或离散插值方法
[10]。尽管高通量筛选
[11]和虚拟筛选
[12]这2种技术可以提升化学空间探索的速率,但它们受限于现有的分子文库,仅能对已有分子进行筛选,无法面对未知的化学空间;同时,高通量筛选伴随着耗时长、试错成本昂贵和使用门槛高等问题,这对于资源的有效利用和研发效率的提升构成了一定的挑战
[13]。近年来,随着深度学习的不断发展,深度生成模型为分子设计提供了新的思路,如循环神经网络(recurrent neural network, RNN)
[14]、变分自编码器(variational autoencoder, VAE)
[15]、生成对抗网络(generative adversarial network, GAN)
[16]和Transformer
[17]。例如,Xu等
[18]使用阈值区间和状态变化对log
D和溶解度进行编码,旨在优化目标分子以满足某种特定的分子性质。Wang等
[19]结合知识蒸馏和强化学习,使用条件Transformer学习结构-属性关系并生成满足多约束条件的新型分子。借鉴自然语言处理(natural language proessing,NLP)领域的方法,将分子视为一种特殊的“生物语言”并用一系列标记来表示,例如简化分子线输入系统(simplified molecular input line entry system,SMILES)
[20]。
SMILES是一种简单的字符串线性表示方法,专门为化学领域中的计算机应用而设计
[21]。它基于分子图理论的原理,并采用独特的规则对分子结构进行规范化,逐渐成为计算化学中的标准工具
[22]。然而,在深度学习中对这种非连续的表示进行建模是一项颇具挑战性的任务
[23]。此外,由于SMILES语法约束的存在,生成的大量字符串并不符合分子的有效性。据报道,这些深度生成模型的无效输出率为4%~89%,分子环未闭合是其中最常见的错误类型
[24]。
分子环系统是药物化学中的关键骨架成分,在分子特性中发挥着重要作用
[25-26]。一个关键的挑战在于,传统标准的自回归式语言生成模型是单向的
[27]。在生成任务中,模型通常利用上一时刻的信息来预测下一时刻的生成,例如生成式预训练(generative pre-trained, GPT)
[28]。然而,这却限制了模型对分子全局语义结构的理解。从本质上而言,SMILES字符串是分子图的一种线性表示方法,而分子图并不具备特定的起点和终点。SMILES可以从任意非氢原子开始,并向环的任意左右方向进行编码(见
图1a)。这种非唯一性和非方向性同时也强调了双向约束的重要性。Xu等
[29]将分子结构中的环系统简化为粗粒度节点,从而在生成分子树后再单独对其中的环节点进行实例化。虽然这在一定程度上提高了环结构的有效性,但这却破坏了生成时的上下文连贯性。为此,Wang等
[30]通过将分子分解为有序的环与非环片段序列,在生成时使用门控循环单元(gated recurrent unit, GRU)依次解码成SMILES序列。但这种基于片段的增长方式却限制了生成模型的搜索空间。此外,他们不仅没有考虑到上述SMILES的双向性,还忽视了长期依赖关系中存在的信息遗忘风险
[31]。这对于生成有效的分子序列也十分不利。
因此,为了克服上述限制,我们提出了Chemical RWKV BERT(ChemRB)方法,其框架如
图1所示。与传统的单向方法相比,在ChemRB中非环字符生成是单向的,但分子环的形成是双向的。受BERT预训练
[32]的启发,我们引入了“环级特征预测”任务来克服之前的单向性限制。通过随机屏蔽分子环元素,目标是根据被屏蔽词的上下文预测其原始词汇。此外,为了解决长依赖推理过程带来的信息遗忘风险,我们还提出了“全局跨度闭合预测”任务来联合预训练环约束器。值得注意的是,鉴于RWKV
[33]在长序列文本建模上的优秀表现,我们首次引入该机制并应用于分子生成。为了实现这一点,我们基于所有训练的SMILES字符串构造了一个词汇表,用于将一条完整序列划分成单独的标记。此外,我们还引入了一个额外的自编码预测器来学习和预测药物分子的性质,并在EGFR抑制剂重新设计中证明了我们模型的实用性。