论文参考文献

首页 » 常识 » 预防 » AAAI2020CORE利用复制和改进策
TUhjnbcbe - 2023/5/21 20:14:00

作者

庞超编辑

戴迟迟校对

李仲深

分子优化是在输入分子X的基础上产生具有更理想性质的分子Y。目前最先进的方法是将分子划分成一组大的子结构集S,并通过迭代预测从S中选择子结构添加来产生新的分子结构。然而,由于可用子结构S集很大,这样的迭代预测任务往往是不准确的,特别是对于训练数据中不常见的子结构。

为了应对这一挑战,作者提出了一种新的生成策略,称为“CopyRefine”(CORE),在此方法中,生成器首先决定是从输入X复制现有的子结构还是生成新的子结构,然后将最优的子结构添加到新分子中。与骨架树生成和对抗性训练相结合,CORE可以在药物相似性(QED)、多巴胺受体(DRD2)和惩罚LogP等多种测试中显著改进几种最新的分子优化方法。

一、研究背景

近年来,通过直接生成分子图,人们提出了绕过生成SMILES字符串的方法。这些基于图的方法将分子生成任务重新定义为图到图的转换问题,从而避免了生成SMILES字符串的需要。此方法的关键策略是将输入分子图划分为一个由子结构(如环、原子和键)组成的骨架树,并学会生成这样的树。所有可能的树节点都指向大量的子结构。

然而,图生成方法仍然表现出不理想的行为,例如生成不准确的子结构,因为所有可能的子结构集都很大,特别是对于不频繁的子结构。在每个生成步骤中,模型必须决定从一组可能的子结构中决定添加哪个子结构。

另一方面,从作者观察到的真实数据来看,目标分子的子结构服从两个原则:

(1)稳定原则:目标分子中的大部分子结构来自输入分子。图1的第一行显示了大约80%以上的子结构来自四个数据集/任务中的输入分子。

(2)新颖性原则:大多数目标分子中存在新的子结构。图1的第二行显示,与相应的输入分子相比,80%的目标分子具有新的子结构。

图1.在4个数据集/任务上的输入分子和目标分子之间的比较

基于这些观察,作者提出了一种新的分子优化策略,称为复制和改进(CORE)。关键的想法是在每个生成步骤,CORE将决定是从输入分子复制子结构,或从子结构的整个空间采样新的子结构。

二、模型与方法

给定一个分子对(输入X和目标Y),首先通过图(或树)上的消息传递算法训练编码器,将输入X嵌入到向量表示中。然后引入两级解码器,建立了一种新的骨架树和相应的分子图。(此部分方法与之前发表的工作相同,不作介绍,具体算法见论文原文)

图2.编码器与解码器

作者的主要方法贡献在于解码器模块,在该模块中,作者提出了一种复制和改进策略,从输入分子中创建新的但稳定的分子。该模型是用一组分子对(X,Y)训练的,其中Y是基于输入分子X的目标分子,它具有更好的化学性质。

2.1子结构预测

一旦节点扩展被决定,则必须找到要添加的子结构。这一步骤是最具挑战性的,因为它导致了最大的错误率。例如,在QED数据集的训练过程中,拓扑预测和图形解码分别可以达到99%和98%的分类精度,相比之下,子结构预测最多只能达到90%的精度,要低得多。所以作者设计了CORE策略来增强这一环节。

首先,作者使用注意力机制,基于当前消息向量hit,jt、和节点嵌入、XT、XG来计算上下文向量:

具体来说,首先通过以下公式计算注意力权重:

其中g4(·)是点积函数。{αG}以相同的方式生成。然后通过连接树级上下文向量和图级上下文向量生成上下文向量:

在注意向量ctsub和消息向量hit,jt的基础上,加入softmax函数激活的全连接神经网络g5(·)来预测子结构:

其中qtsub是所有子结构上的分布。

然而,所有可能的子结构的数量通常是相当大的,这使得预测更具挑战性,特别是对于罕见的子结构。受指针网络(pointernetwork)的启发,作者设计了类似的策略,将一些输入序列复制到输出中。但是,指针网络不能处理目标分子包含OOI(Out-of-Input)子结构,即新的子结构不是输入分子的一部分的情况。借用sequence-to-sequence模型的思想,作者设计了一种方法来预测生成的新OOI子结构的权重。

2.2用新的子结构进行改进

首先,作者使用上下文向量ctsub以及输入分子图和骨架树的嵌入来确定在当前步骤中生成的新子结构的权重。

其中g6(·)是一个使用sigmoid激活的完全连接的神经网络。因此,权重范围为从0到1。wtOOI表示模型在第t步生成OOI(Out-of-Input)子结构的概率。假设权重不仅取决于输入分子(全局信息)和解码器中的当前位置(局部信息)。作者使用表示z来表示输入分子的全局信息。

其中z是所有骨架树节点的平均嵌入和所有图节点的平均嵌入的级联。局部信息由通过注意机制计算出的上下文向量ctsub表示。

2.3复制已存在的子结构

在获得OOI子结构的权重后,CORE考虑是否从输入分子复制子结构与复制哪个子结构。输入分子中的每个子结构都有一个注意力权重(已归一化,所以总和为1),它衡量子结构对解码器的贡献。然后CORE会用它表示每个子结构的选择概率。具体来说,作者定义了一个稀疏向量a:

其中a∈R

S

,{ai}代表a的第i个元素,

S

是其大小。由于注意力权重的归一化,a也被归一化。第t步的预测公式为:

其中wtOOI在第t步平衡了两个分布的贡献。如果生成新的子结构,则根据分布qtsub从所有子结构中选择子结构。否则,将使用指针网络从输入分子中复制某个子结构。输入分子中子结构的选择准则为概率与注意力权重{αT}成正比。

三、实验结果

3.1数据集

作者使用了LearningMultimodalGraph-to-GraphTranslationforMolecularOptimization一文中的公共数据集与分子对(X,Y)构造训练数据集,其中X是输入分子,Y是具有期望性质的目标分子。

X和Y都来自整个数据集,满足两个规则:(1)它们足够相似,即sim(X,Y)≥η1;(2)Y比X具有显著的属性改进,即属性(Y)属性(X)≥η2,属性(·)可以是DRD2(DopamineReceptor,多巴胺受体2型)、QED(Quantityestimateofdrug-likeness,定量评估类药性)、LogP(评估环的大小与合成可达性)分数。对于LogP04,η1=0.4,对于LogP06,η1=0.6。

3.2实验结果与对比

作者将CORE方法与JTVAE,Graph-to-Graph,GCPN方法在相似性、生成分子的性质(Y)、成功率(SR)三个维度上进行了比较。其中,相似性使用摩根指纹上的Tanimoto相似性测量。性质(Y)包括QEDscore、DRD2-score和LogP-score,使用Rdkit包进行评估。在SR1情况下,对于QED和DRD2,当输入和生成分子之间的相似性大于0.3(λ1),生成分子的性质大于0.6(λ2)时,则认为它是“成功的”。对于LogP04和LogP06,λ3=0.4,λ4=0.8。在SR2情况下,λ1-λ4分别为0.4,0.8,0.4,1.2。结果如下:

图3.用相似性测量不同数据集上各种方法的经验结果

图4.用性质(Y)测量不同数据集上各种方法的经验结果

图5.用SR1测量不同数据集上各种方法的经验结果

图6.用SR2测量不同数据集上各种方法的经验结果

作者的方法在所有测试中都优于基线方法,而且当在具有不频繁子结构的测试子集上测量时,与完整的测试集相比,CORE获得了更显著的改进。

四、总结

在本文中,作者提出了一个深度生成模型,用于创建拥有比输入分子更理想性质的分子。最先进的图到图的方法迭代地从一组大的子结构集中选择子结构来产生新的分子,这对于不频繁的子结构来说效果并不尽如人意。为了解决这一挑战,作者提出了一种新的生成策略CORE,在每一步中,生成器首先决定是从输入X复制现有的子结构,还是从子结构集中生成新的子结构。由此产生的CORE机制在各种测试中,特别是在稀有子结构上,可以显著地优于几个最新的分子优化基线方法。

代码

1
查看完整版本: AAAI2020CORE利用复制和改进策