摘要:目的 针对常规数据处理导致分类预测精度不高等问题,提出 Optuna-MLP-LightGBM 组合模型用于抗癌候 选药物的性质分类预测。 方法 针对收集的 1 974 种化合物(每个化合物各 729 个分子描述符),首先利用多层感知 机(MLP)对高维数据进行聚合处理,再采用跳转连接实现数据的宽度处理,将输出数据与输入数据合并组成宽度 数据集,以此提高数据的特征识别,同时避免有用信息的缺失从而提高信息的流通;然后,用 LightGBM 替换 MLP 神经网络中的分类层,可以更好地进行分类处理及避免过拟合问题,最后构建基于 Optuna 优化的 MLP-LightGBM 分类预测模型,用于候选药物的小肠上皮细胞渗透性(Caco-2)的分类预测。 结果 模型准确率、AUC 值和 F1 值分 别达到 91. 03%、97. 31 %和 90. 48 %,由消融实验可以发现,通过 MLP-LightGBM 实现数据宽度处理以及分类后, 模型分类效果相比 MLP 模型得到提升,3 种指标分别提升了 0. 51%、1. 22%和 0. 7%;与逻辑回归(LR)、Attentive FP、MLP 等传统模型相比该模型能更好整合数据信息,其中与基模型相比平均增长幅度分别达到 5. 94%、5. 65% 和 6. 56%。 结论 由于跳接处理使 MLP 网络可以达到特征的有效提取和扩充数据集的目的,同时引入机器学习可 以更好地提高分类精度,因此在药物高通量筛选中可以成为重要的辅助工具。