miRNA与疾病关联预测研究综述

(整期优先)网络出版时间:2023-02-27
/ 2

miRNA与疾病关联预测研究综述

芮艾莎,张书豪,陈铤沛

西南民族大学 四川  成都 610225

摘要:miRNA (microRNA)与疾病关联关系预测是生物信息学研究领域中一直备受关注的问题。开发出能够快速准确识别miRNA-疾病关联关系的计算方法可以帮助研究人员系统和有效地预测miRNA与疾病的潜在关联性,对指导生物实验、降低实验成本、提高实验效率,进一步为人类的健康做出更大贡献。多视角的miRNA和疾病数据库已成为研究这些关系的有力工具,现在的miRNA-疾病关联预测的方法也从不同角度改善了预测中的一些局限性。

关键字:miRNA与疾病关联预测、多视角数据、网络拓扑结构、深度学习


引言


miRNA是一种微小的内源性非编码单链RNA分子,长度约为22个核苷酸,可在转录后水平调控基因表达。从在秀丽隐杆线虫中发现miRNA lin-4已经有20多年的历史,越来越多的研究分析表明,miRNA在细胞增殖、分化、信号转导、病毒感染等多种复杂的生物过程中发挥着关键作用。此外,在过去的几十年里,许多研究已经将各种miRNA确定为复杂疾病(如癌症)的生物标志物[1]。

miRNA与疾病关联预测模型

将现有的 miRNA-疾病关联关系预测模型从数据和方法两个方面进行梳理。首先根据数据类别的不同,把现有的模型分为两类:基于单一数据类别的模型和基于多视角数据的模型。其次是根据方法类型的不同,把现有模型分为四类:基于打分函数的预测模型,基于网络拓扑结构的预测模型,基于机器学习的预测模型,基于深度学习的预测模型。

2.1 基于数据类别差异化的研究模式

存储miRNA-疾病关联关系的基准数据库是HMDD v2.0[2],许多计算方法除了使用已知的miRNA -疾病关联关系,还采用了miRNA和疾病的多视角数据表征其特征向量。

1)基于单一数据类别的模型

基于单一数据类别的模型中被广泛使用的是miRNA功能相似性和疾病语义相似性,目前大部分的方法都是此类算法。但目前使用的miRNA功能相似性数据和疾病语义相似性数据存在一些问题。首先,相似性数据存在高维稀疏性。miRNA-疾病关联数据库中的miRNA数量远大于miRNA功能相似性数据的维度,并且疾病语义相似性也存在同样的问题。其次,相似性数据计算方式缺乏严谨合理的逻辑推导。miRNA 功能相似性通过 miRNA-疾病关联关系计算得到,反之利用该数据预测 miRNA-疾病关联关系时,虽然会获得不错的预测结果,但是存在不合理性且无法预测新的潜在关联关系。

2)基于多视角数据的模型

近年来出现了融合miRNA和疾病的多视角数据的方法,此方法在继续使用疾病语义相似性的基础上,借助miRNA序列信息用生物序列对比算法计算得到miRNA序列相似性、利用miRNA与基因间的关系计算得到miRNA功能相似性、利用疾病和基因间的关系计算得到疾病功能相似性。大部分基于多视角数据的算法需要将多种相似性数据融合成单一相似性数据,然后再用相关方法进行预测。从总体的模型表现结果来看,这些融合多种 miRNA 相似性数据和疾病相似性数据的模型准确率的确有所提升。

2.2 基于方法差异化的研究模式

模型的提出者看待miRNA-疾病关联关系预测问题的角度不同,便会提出不同的解决方案。

1)基于打分函数的预测模型。

此模型是通过miRNA相似性数据和疾病相关数据构建miRNA-疾病关联网络,最后根据网络的边、路径、权重等结构信息对所预测miRNA与疾病之间的关联性分数进行计算,若分数越大则二者的关联关系越紧密。Jiang等人[3]于2010年提出一种排序算法来预测疾病与潜在相关的miRNA之间的关联,其算法核心在于使用累积超几何分布方法构建打分函数。

2)基于网络拓扑结构的预测模型。

此模型是根据已知关联关系生成miRNA-疾病关联网络,在此基础上整合诸如蛋白质、lncRNA和miRNA家族信息等多源生物信息数据生成miRNA与疾病的拓扑网络,并且针对miRNA和疾病构建对应的相似性网络,相似性网络的信息存在于网络的拓扑结构中,通过挖掘结构中隐含信息能够有效地预测miRNA-疾病的关联分数。此方法融合多源的miRNA和疾病相关数据,提高结果可信度的同时也实现了数据信息的最大化利用。

3)基于机器学习的预测模型。

此模型是使用输入的相关的生物数据对算法进行训练,并将训练完成的模型应用于miRNA-疾病关联的预测。Xu等人[4]使用支持向量机作为分类器,结合miRNA的表达谱数据,构建预测模型并对miRNA-疾病关联进行排序。然而,支持向机算法与很多其它分类算法都需要负样本数据进行训练,随机选择负样本对模型的精度会产生很大的影响。

4)基于深度学习的预测模型。

近年深度学习在诸多领域研究中取得了重大突破,在生物信息学领域也得到了广泛应用。此模型是miRNA与疾病相似性特征输入到自动编码器中从原始特征向量中提取复杂非线性特征,再采用深度卷积神经网络算法来预测 miRNA-疾病关联关系。

局限性与未来展望

越来越多的miRNA-疾病数据库与研究方法的出现为研究提供了有力的支持,然而一些技术挑战仍然阻碍了miRNA-疾病关联预测的进一步发展。首先,通过实验验证的miRNA-疾病关联关系数量少且导入实验结果的流程粗糙(如手动导入),因此存在大量的假阳性数据影响模型精度。为了解决这个问题,应该开发文本挖掘技术,以便有效地从文献中提取可靠的实验验证结果。其次, miRNA-疾病关系缺乏真实的负样本,只是将未知关联关系中随机选择与正样本数量相同的样本作为负样本,因此在需要可靠的负样本训练模型的机器学习中要采用聚类的思想将其划分出关联性更紧密的负样本集。

结语

miRNA作为诊断和预后的生物标志物或治疗工具,关键miRNA的鉴定是非常重要的。基于生物数据挖掘与分析的计算方法在诸多研究中已经证实其优秀的预测性能,考虑到miRNA和疾病的多视角数据的数据融合以及深度学习方法在生物信息学领域中的迭代更新,本文旨在对现有的miRNA-疾病关联预测模型进行综述,并根据数据类别和方法差异分为两大类,还对其存在的局限性和未来发展进行分析。

参考文献

[1]B.-Y. Ji, Z.-H. You, L. Cheng, J.-R. Zhou, D. Alghazzawi和L.-P. Li,《Predicting miRNA-disease association from heterogeneous information network with GraRep embedding model》, Sci Rep, 6658,2020.04, doi: 10.1038/s41598-020-63735-9.

[2]Y. Li等, 《HMDD v2.0: a database for experimentally supported human microRNA and disease associations》, Nucleic Acids Res, D1070-1074, 2014.01, doi: 10.1093/nar/gkt1023.

[3]Q. Jiang等,《Prioritization of disease microRNAs through a human phenome-microRNAome network》, BMC Syst Biol,2010.05,doi: 10.1186/1752-0509-4-S1-S2.

[4]J. Xu等,《Prioritizing candidate disease miRNAs by topological features in the miRNA target-dysregulated network: case study of prostate cancer》, Mol Cancer Ther,1857–1866,2011.10, doi: 10.1158/1535-716

3.MCT-11-0055.

作者简介:芮艾莎,女,苗族,云南大理,西南民族大学硕士研究生在读。智能信息处理。

基金项目:西南民族大学中央高校基本科研业务费专项资金资助优秀学生培养工程项目(项目名称:microRNA与疾病关联的预测方法研究与实现,项目编号:2021NYYXS59)