Indexed by:
Abstract:
目的 非编码RNA-蛋白质的相互作用(noncoding RNA?protein interactions,ncRPI)具有重要的生物学意义,目前预测其相互作用已成为当下研究非编码RNA(noncoding RNA,ncRNA)和蛋白质功能的重要途径之一.方法 本研究基于ncRNA和蛋白质的序列信息提取特征,运用卷积自编码器预处理原始数据,训练三个机器学习模型:LightGBM(LBM)、随机森林(random forest,RF)和极端梯度增强算法(extreme gradient boosting,XGB),预测ncRNA与蛋白质的相互作用.结果 在RPI369和RPI488两个数据集做5倍交叉验证,LBM、RF与XGB三个模型在两个数据集均达到较高的预测准确率,在RPI369数据集三个模型的预测准确率分别为0.757(LBM)、0.791(RF)、0.791(XGB),在RPI488数据集三个模型的预测准确率分别为0.918(LBM)、0.908(RF)、0.918(XGB);三个模型在RPI1807、RPI2241、RPI13254大数据集也取得较高的AUC(area under curve)值,在RPI1807三个模型的AUC值均为0.99,在RPI2241三个模型最低AUC值为0.87,在RPI13254三个模型最低AUC值为0.81,都表现出较好的预测准确性.结论 机器学习方法能够预测ncRNA与蛋白质是否存在相互作用.
Keyword:
Reprint Author's Address:
Email:
Source :
北京生物医学工程
ISSN: 1002-3208
Year: 2019
Issue: 4
Volume: 38
Page: 353-359
Cited Count:
SCOPUS Cited Count:
ESI Highly Cited Papers on the List: 0 Unfold All
WanFang Cited Count: 1
Chinese Cited Count:
30 Days PV: 5
Affiliated Colleges: