JCIM｜XGraphBoost：基于图神经网络提取特征的一种更好的分子特性预测模型

智药邦

发布于 2021-09-06 16:01:06

1.6K0

发布于 2021-09-06 16:01:06

文章被收录于专栏：智药邦智药邦

今天给大家介绍的是 Journal of Chemical Information and Modeling 上，一篇有关提取图神经网络特征、更好地预测分子特性的方法的文章 "XGraphBoost: Extracting Graph Neural Network-Based Features for a Better Prediction of Molecular Properties"。

作者提出了 XGraphBoost 集成框架：用图神经网络 (GNN) 提取特征，并使用 XGBoost 分类器构建模型对分子特性进行准确预测。该框架完全继承了基于 GNN 的自动分子特征提取和基于 XGBoost 的性能准确预测的优点。作者使用 XGraphBoost 框架评估了分类和回归问题。实验结果表明 XGraphBoost 可以促进对各种分子特性的有效和准确的预测。

1.研究背景

药物开发是一个成本高昂且耗时的过程，必须降低候选药物筛选计算的计算要求和错误率。机器学习和深度学习都已成功应用于药物开发。

确定化学分子的特性对于筛选类似于特定药物的候选药物至关重要。通常要进行一系列复杂的生化反应才能获得给定分子的性质。已经积累的化学分子和迅速出现的新分子的数量之大，使得通过实验确定所有分子的特定性质成为不可能的任务。引入计算机辅助药物设计技术以计算预测分子特性，已成为生物信息学研究的主要趋势之一。

虽然传统的机器学习算法在分子特性预测的精度已经达到了令人满意的程度，但是一个分子不能直接加载到机器学习模型中，需要从一个分子中设计和计算出一组工程特征。而且，这种特征在很大程度上依赖于调查研究人员的经验。

最近引入了图神经网络 (GNN) 的概念来描述化学分子。可以通过各种类型的 GNN，例如 GCN（图卷积网络）、GGNN（门控图神经网络）、DMPNN（定向消息传递神经网络）等从分子中自动客观地提取特征。与传统的机器学习策略相比，一个稳定的 GNN 模型需要大量的训练样本和大量的计算能力。因此，对大量训练样本和密集计算能力的挑战性要求仍然存在。

在本文中，作者提出了 XGraphBoost 集成框架：用图神经网络 (GNN) 提取特征，并使用 XGBoost 分类器构建模型对分子特性进行准确预测。

2.数据集

表1 数据集概述

‍‍‍‍‍‍‍‍Wu 与 Mayr 等人使用 10 个分子属性数据集对框架 XGraph Boost 进行了全面评估。表1 汇总了 10 个数据集的详细信息。这些数据集中的分子数量介于 600 和 42,000 之间。研究的分子特性包括量子力学、物理化学、生物物理学和生理学。所有 10 个数据集的分子都编码在 SMILES 字符串中。

‍‍‍‍‍‍‍‍他们对分类和回归问题都进行了研究，如表 1 所示。每个数据集通过分层策略随机分成训练、验证和测试数据集，分别按 0.8、0.1 和 0.1 的比例。因此，对于一个原始数据集，训练、验证和测试数据集中的样本分布是相同的。使用不同的随机种子将所有实验重复 3 次，以尽量减少样本分布对模型性能的影响。他们在训练数据集上进行评估模型的训练，在验证数据集上对模型参数进行调整以优化模型性能，并在测试数据集上测试最终模型性能。不同的任务类型通过不同的性能指标进行评估，如表 1 所示。

3.模型框架

图1 整体工作流程

图神经网络 (GNN) 已被用于学习分子结构的表示。每个图由节点和边组成。节点由原子类型、原子元素、附加氢原子的数量、价数、芳香特性和其他特性来描述。每个节点的这些描述符由 one-hot 策略编码。邻接矩阵表示原子对之间的连接性，而不管是单键还是双键。本研究使用 RDKit 工具处理这些 SMILES 编码化合物以获得分子图和摩根指纹，这些将用于 GNN 和 XGBoost。使用节点嵌入方法更新图节点的状态：

该公式描述了由先前节点状态更新的第 i 个节点以及与其相邻节点的交互项 mit-1 的消息状态。图卷积神经网络 (GCN) 是使用卷积运算的消息传递神经网络的最简单版本。门控图神经网络 (GGNN) 在传播步骤中利用门循环单元 (GRU)。虽然消息传递神经网络 (MPNN) 统一和概括了各种现有的 GNN，但DMPNN (有向版本的MPNN) 通过有向键传播信息，展示了卓越的分子特性预测性能。

梯度提升决策树（GBDT）是一种集成监督学习算法，它总结了决策树等多个弱学习器的结果。极限梯度提升算法（XGBoost）是梯度提升策略的有效实现，用于分类和回归。XGBoost 通过高级正则化改进了传统的梯度提升策略。

4.结果与讨论

4.1 实施和运行环境

所有三个图神经网络 (GNN：GCN、GGNN、DMPNN) 在分类和回归问题上都表现出令人满意的预测性能。(如图2) DMPNN 网络在训练样本和验证样本上都实现了最佳损失率。DMPNN 也展示了最快的收敛速度。这三个 GNN 在训练和验证样本的 200 个 epoch 内收敛于损失率。GCN 在训练样本和验证样本的损失率之间具有相对最小的差异。因此，GCN 训练的模型往往过拟合的可能性最小。GCN 也在损失曲线中下降最慢，并表现出较大的波动。可以在补充图 S1 中的所有 10 个数据集上的三个 GNN 中找到类似的观察结果。

图2 三个 GNN 在分类和回归问题上的损失曲线

表 2 展示了使用 XGBoost 作为监督学习模型时，在 10 个数据集上，三个 GNN 的性能。DMPNN 在 10 个数据集中的 9 个数据集中优于其他两个 GNN，表明 DMPNN 提取的特征更显着与分子性质的关系。DMPNN 实现了平均 AUC = 0.866，略小于 GGNN 模型（平均 AUC = 0.880）。GCN 在 10 个数据集中的 8 个上表现最差，表明单独 GCN 提取的特征可能无法为分子特性预测问题提供令人满意的性能，但 GCN 实现了第二好的性能（平均 AUC = 0.818），即非常接近基于 DMPNN 提取特征的最佳模型（平均 AUC = 0.819）。因此，在进一步部署预测模型之前，必须评估三种基于 GNN 的特征提取算法中的每一种在特定预测问题（或数据集）上的执行情况。

表2 三种 GNN 的性能比较

4.2 与流行的 Morgan 指纹特征的比较

作者进一步研究，将DMPNN 特征和监督学习器 XGBoost 的二重奏与所有数据集上流行的 Morgan 指纹特征和 XGBoost 的二重奏进行了比较，如图 3 所示。DMPNN 提取的特征在其中的 9 个上取得了最佳性能上一节中的 10 个数据集。因此，本研究的其余部分使用 DMPNN 作为默认特征提取算法。

图3 使用 DMPNN 特征和 Morgan 指纹的 XGBoost 模型的性能比较

图 3 表明 DMPNN 提取的特征在所有 10 个数据集上都优于 Morgan 指纹。一个好的监督学习模型往往对分类问题有很大的 AUC，对回归问题有很小的 RMSE 值，在 Clintox 数据集上实现了分类 AUC 值的最大提升（0.215）。Clintox 数据集的整体 AUC 从 0.685 (Morgan 指纹) 提高 0.899 (DMPNN 提取特征)。如图 3(a) 所示。DMPNN 提取的特征实现了比 Morgan 指纹更小的 RMSE 值，对于三个数据集 Lipophilicity、ESOL 和 FreeSolv，它们之间的比率分别为 0.344、0.421 和 0.335。因此，有必要使用像 DMPNN 这样的 GNN 来提取分子特征以获得更好的监督学习模型。

4.3 评估使用监督学习器 XGBoost 的必要性

图 4(a) 表明，如果三个 GNN 的输出层被监督学习器 XGBoost 替换，则所有三个回归数据集都获得了改进的 RMSE 值。GCN 模型在 FreeSolv 数据集上的改进最大，RMSE值从RMSE=3.499（GCN模型）降低到1.975（GCN+XGBoost模型），这两个模型的标准差分别为0.111和分别为 0.274。

图4 监督学习器 XGBoost 与 GNN 原始输出层的性能比较

通过简单地用监督学习器 XGBoost 替换这些 GNN 的输出层，几乎所有的分类模型都得到了改进，如图 4 所示。XGBoost 仅在两种情况下取得了较差的 AUC 值，即 ToxCast 数据集上的 DMPNN+XGBoost 模型和 Tox21 数据集上的 GCN+XGBoost 模型。XGBoost 在 ToxCast 数据集上将 DMPNN 算法的 AUC 值从 AUC = 0.797 (DMPNN 模型)降低到0.779 (DMPNN+XGBoost 模型)。

数据集 Tox21 使用 XGBoost 分类器导致 AUC 轻微下降 0.011。所有其他 GNN 模型都通过用 XGBoost 替换它们的输出层进行了改进，并且在 ToxCast 数据集上 GCN 提取的特征实现了 AUC 0.197 的最大改进。总的来说，DMPNN 提取的特征和监督学习器 XGBoost 的组合在 10 个数据集中取得了 9 个的最佳性能。DMPNN-XGBoost 在 ToxCast 数据集上的表现 (AUC = 0.779) 比 DMPNN 模型 (AUC = 0.797) 稍差。

4.4 与两项研究的比较

该研究在同一数据集上对两项研究进行了评估，如图 5 所示。研究一：Jeo 和 Kim 受到自然语言处理领域的表征学习策略的启发，提出了一种高效的分子特征学习算法 FP2VEC。最终的 FP2VEC 特征用于训练 CNN 模型，并在 QSAR（定量结构-活性关系）任务上取得了有竞争力的结果。作者使用已发布的开源代码复制了这项研究，并将这项研究表示为 FP2VEC+CNN。

研究二：Hou 等人。使用多个神经网络研究分子特性预测问题，包括单层神经网络 (SLNN)、多层深度神经网络 (DNN) 和卷积神经网络 (CNN)。Hou 使用库仑矩阵 (CM) 格式来表示分子，并使用此输入数据格式训练预测模型。具有 CM 数据输入的三层 DNN 取得了最好的结果，表示为 DNN+CM，在本研究中在相同的数据集上重现。

当前研究提出的模型为DMPNN+XGBoost，在分子性质预测问题的分类和回归模型上均优于FP2VEC+CNN和DNN+CM这两项研究，如图5所示。在数据集 ToxCast 上的最大提升 (45.4%) 超过 FP2VEC +CNN 算法的 AUC，当前研究在回归数据集 FreeSolv 上实现了 2.175 的 RMSE 改进。DNN+CM算法在分子预测数据集上的平均性能最差，如图6所示。DNN+CM在回归数据集 ESOL 上只达到了 RMSE=50.898，而其他两种算法 DMPNN+XGBoost 和 DNN+CM RMSE分别达到 0.345 和 1.274。

图5 当前研究（DMPNN+XGBoost）与 FP2VEC+CNN 和 DNN+CM 这两项研究的性能比较

5.总结

该论文对图神经网络 (GNN) 和 XGBoost 的集成进行了原理验证研究，有望解决分子特性预测问题。进行了综合评估以证明 GNN 提取的特征可以改进传统的 Morgan 指纹特征，而最佳二重奏是 DMPNN 提取的特征和监督学习器 XGBoost 的集成。DMPNN+XGBoost 模型可以通过调整算法 XGBoost 的参数来进一步改进。

作者相信所提出的框架 XGraphBoost 可以有效地改善各种分子特性的预测问题，这可能会引起学术界和工业界的兴趣。该研究的主要贡献是利用监督学习器 XGBoost 替换 DMPNN 模型的输出层。模型参数的精细调整也显示了在预测分子特性方面的性能改进。所提出的算法XGraphBoost 使用 SMILES 码来表示分子，因此它也有SMILES码所引起的局限性，例如描述三维构象的能力有限。

这项研究表明，传统的机器学习模型可以提高图神经网络的预测性能。由于单个分子性质预测数据集中的样本数量有限，图神经网络可能会通过迁移学习或小样本学习等策略得到进一步改进。例如，最近发布的自然语言处理网络 ChemBERTa 作为预训练模型。X-MOL 在所有这些分子分析任务上都取得了最先进的结果，并证明了大规模预训练模型对学习分子表征和下游任务具有明显效果。

参考资料

D. Deng, X. Chen, R. Zhang, Z. Lei, X. Wang, and F. Zhou, “XGraphBoost: Extracting Graph Neural Network-Based Features for a Better Prediction of Molecular Properties,” J. Chem. Inf. Model., vol. 61, no. 6, pp. 2697–2705, Jun. 2021, doi: 10.1021/acs.jcim.0c01489.

----------- End -----------

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2021-08-22，如有侵权请联系 cloudcommunity@tencent.com 删除

监督学习