EN

复杂生物数据的机器学习算法​

2019-05-05  点击:[]

复杂生物数据的机器学习算法

随着生命科学与仪器设备的飞速发展,每天都在产生海量的包括基因组以及蛋白质组等生物学数据。这些数据从不同角度记录生命体的各种信息与特征,隐藏着生命的终极奥秘与意义,因此需要利用数据挖掘以及机器学习算法从这些复杂的数据发现新的知识,为疾病诊断以及新药研制提供有价值的信息。然而,由于生物数据的复杂性与多样性,对传统的机器学习算法提出了很多新的挑战,必须有针对性的设计新的数据挖掘与分析算法。通过利用新颖有效的机器学习算法对这些生物数据进行有效的挖掘与分析,可以在系统层面深入理解细胞内各种实体之间的组织关系及工作机制,最终揭示生命的本质。

图1 分子层面多源多层的复杂异构生物信息数据

(1)生物网络与数据的聚类算法

生化实验产生的数据含有很多噪音,所以相比于其他类型数据的分析与挖掘,生物数据挖掘结果会包含更多的假阳性结果。同时,一些分析与预测结果需要进一步的生物实验验证。如果不能有效控制挖掘结果的质量,将会浪费大量的时间与资源。因此,需要采取有效的统计检验方法,对分析结果进行严格的质量控制。针对蛋白质复合物发现,从多重假设检验角度,提出可以控制结果错误率的图聚类算法,建立了基于多重假设检验的聚类分析理论与方法,为生物信息的实际应用提供分析结果质量可控的算法与工具,也将对网络科学以及机器学习等相关领域起重要促进作用。

(2)生物网络中的节点分类算法

很多的生物信息问题都可以归纳为以下的算法问题:给定一个生物网络以及网络中部分节点的标签信息(正例vs反例),对网络中其他标签未知的节点进行分类,确定其标签信息。代表性的相关生物信息问题包括:蛋白质功能预测、致病基因预测以及药物重定位等。针对生物网络中的节点分类问题,提出了不同的分类算法与模型,为不同类型的相关应用问题提供了坚实的理论与技术支撑。

(3)生物序列模式发现与关联挖掘算法

从生物序列数据中进行模式挖掘与关联分析,可以发现很多与疾病或特定状态有关联的未知信息。针对这一问题,首先揭示了很多序列模式发现问题本质是一个判别模式挖掘问题,并从判别模式挖掘的角度对相关模式发现算法进行了系统的归纳总结。同时,提出了条件判别模式的概念,能够在保证结果完整性的同时,去除冗余的序列模式。提出了基于置换检验的序列模式统计评估算法,能够有效地计算序列模式的p-value,为生物序列分析应用提供了理论支持与算法工具。

以上研究获得辽宁省自然科学二等奖、教育部自然科学等奖励,并发表如下代表性论文:

[1] Zengyou He, Can Zhao, Bo Xu, Quan Zou. Protein Complexes Identification with Family-Wise Error Rate Control.IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019.

[2] Bo Tian, Qiong Duan, Zengyou He, et al. Reinforce: An Ensemble Approach for Inferring PPI Network from AP-MS Data. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2019, 16(2): 365-376.

[3] Yuansheng Liu, Xiangxiang Zeng, Zengyou He,et al. Inferring microRNA-disease associations by random walk on a heterogeneous network with multiple data sources. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2017, 14(4):905-915. (ESI高被引论文)

[4] Leyi Wei, Minghong Liao, Yue Gao,et al. Improved and Promising Identification of Human MicroRNAs by Incorporating a High-quality Negative Set. IEEE/ACM Transactions on Computational Biology and Bioinformatics, 2014, 11(1): 192-201. (ESI高被引论文)

[5] Xiaoqing Liu, Jun Wu, Feiyang Gu,et al. Discriminative Pattern Mining and Its Applications in Bioinformatics. Briefings in Bioinformatics, 2015, 16(5): 884-900.