生物网络研究是系统生物学重要的研究分支,它重点关注生物系统复杂的相互作用,通过一个更全面的角度, 从整体出发来进行生物学和生物医学的研究。生物网络分析注重于研究蛋白质关系网络、细胞信号传导和基因调控网路及生物系统组成之间相互关系的结构和系统功能。对于这些生物网络分析无法仅仅依赖于传统生物实验,需要利用计算机辅助手段从不同层面来研究其机理并发现其中重要的信息,因此进入21世纪以后,计算机专业的研究者广泛地关注于生物网络相关研究,推动系统生物学发展。我们通过文本挖掘、机器学习手段从海量的数据信息中发现可能的二元关系,以此构建生物网络,并提出网络分析方法如图聚类、节点分类、边预测等进行生物问题研究。
(1)基于全注意力机制的融合生物医学资源的生物实体关系抽取算法
传统的生物实体关系抽取模型只注重生物医学文献的语义信息,从而忽略了生物医学背景知识在关系提取中的重要性。因此我们提出了UGC-DDI模型,其主要贡献如下:引入用户生成内容(User-Generated Content)资源以提供最新的生物医学信息;引入基于UMLS的概念向量(Concept Embeddings)以提供权威的生物医学实体信息;提出了full-attention的算法将用户生成内容与传统的词向量通过注意力机制进行结合;实现了一整套基于深度学习的生物实体关系提取系统。
(2)基于网络嵌入的蛋白质复合物识别算法
现有的图聚类方法不能有效的将其他生物信息和蛋白质之间的结构信息同时融入复合物识别过程中。基于此我们提出一种新型蛋白质复合物识别思路。首先利用网络嵌入方法提取蛋白质之间的潜在信息,之后基于提取出的信息重新衡量蛋白质之间的相似度,最后挖掘重构的蛋白质网络的稠密子图作为预测结果。我们首先提出基于已有网络嵌入方法AANE的蛋白质复合物识别算法GANE。由于网络嵌入方法AANE仅考虑了局部网络结构信息,我们再次提出基于新型网络嵌入方法的蛋白质复合物识别算法GLONE。主要贡献包括以下几个方面:提出新型网络嵌入方法,能够同时考虑局部、全局网络信息和节点属性信息;提出新型复合物识别模型,结合网络嵌入方法和传统聚类方法;利用网络嵌入方法学习到的蛋白质节点的低维表示可以应用到其他的学习任务中,例如致病基因预测。
(3)基于异构网络嵌入的致病基因预测算法
现有致病基因预测方法主要依靠构建的异构网络进行研究,因此我们提出利用新兴的网络表示学习(网络嵌入)方法来进行致病基因的预测。主要的贡献包括以下几个方面:第一次将网络表示学习的方法引入到致病基因预测当中;在算法中,我们提出了能更好利用异构网络的多路同时随机游走方法;我们的研究方法可以对其他生物学的分析任务产生启发。
该研究方向发表如下代表性论文:
[1] Bo Xu, Y. Liu, S. Yu, et al. Multipath2vec: Predicting Pathogenic Genes via Heterogeneous Network Embedding, BIBM 2018, 951:1-6.
[2] Bo Xu, Kun Li, Wei Zheng, et al. Protein complexes identification based on go attributed network embedding, BMC bioinformatics, 2018, 19(535).
[3] Bo Xu, X. Shi, Z, Zhao, et al. Full-attention Based Drug Drug Interaction Extraction Exploiting User-generated Content, BIBM 2018, 560:1-6.
[4] Bo Xu, Y. Liu, C. Lin, J. Dong, et al. Reconstruction of the Protein-Protein Interaction Network for Protein Complexes Identification by Walking on the Protein Pair Fingerprints Similarity Network, Frontiers in Genetics, 2018, 9:272.
[5] Bo Xu, Kun Li, Xiaoxia Liu , et al.Protein Complexes Detection Based on Global Network Representation Learning, BIBM 2018, 210:1-4.