人工智能即将引起人类社会的新的革命,2016年以来已被世界各国列入国家战略。机器学习是人工智能的核心,充足的数据量和准确的数据描述则是机器学习方法能获得有效模型的根本。2015年,机器学习领军人物LeCun、Bengio和Hinton在《Nature》上指出:“虽然通过标记数据进行监督学习获得了令人瞩目的成就,但相比于标记数据,无标记的数据体量更大,内容更丰富,因此,无监督学习将在未来的机器学习中占据主导地位”。聚类分析是无监督学习中最常用的方法。现代数据获取手段的多样性和数据利用的多目的性,都对聚类分析提出了新的要求。本研究所针对实际数据应用的迫切需求,对聚类分析的几个关键方面进行研究,包括多视角聚类分析、多任务聚类分析、不确定数据聚类等。
多视角示例 多任务示例
(1)多视角聚类分析
提出使用视角之间的成对约束建立视角之间的联系,进一步地,提出视角间成对约束的选择方案,尽可能使用少量的视角间约束实现充足的信息交互,降低了约束选择的消耗[4]。其科学价值在于用更容易获得的约束取代对应关系,使多视角聚类能用在不对应的数据上,大幅提高多视角聚类的适用范围;提出一种基于谱扰动的加权谱聚类方法,直接从聚类效果的角度出发,根据每个视角的特征向量进行加权,提高了多视角聚类的效果。其科学价值在于针对算法特点设计相对应的加权策略,充分利用多个视角的信息,为加权多视角聚类研究提供了新的思路[5]。
(2)多任务聚类分析
提出了多任务多视角的聚类框架, 将多视角聚类的思想引入多任务聚类分析的研究[3][7]。其科学价值在于提出多任务多视角聚类这一新问题,给出了多任务多视角聚类的第一个算法;提出自适应的多任务聚类算法[2][6],它可以自动识别并传播任务间可重用的数据实例,从而避免负面传播。其科学价值在于使多任务聚类在部分相关的任务上可使用,从而使多任务聚类和实际问题真正接轨;提出多任务模型相关性学习聚类,其关键是任务间簇模型的相关性学习,从任务间相关簇的模型参数存在关联性的角度来处理部分相关任务,弱化了先前工作的限制条件[1]。
(3)不确定数据聚类分析
引入不确定数据点的概率密度函数[8],以基于密度的确定数据聚类经典算法DBSCAN为基础,定义了不确定数据的距离密度函数、密度可达函数等一整套新概念,提出基于密度的不确定数据聚类算法PDBSCAN。PDBSCAN中每个概念都有明确的计算公式,避免FDBSCAN信息丢失问题,确保算法的正确性。
以上研究方向发表的代表性论文如下:
[1] Xiaotong Zhang, Xianchao Zhang and Han Liu: Multi-Task Clustering with Model Relation Learning. The 27th International Joint Conference on Artificial Intelligence (IJCAI-18),2018.
[2] Xianchao Zhang,Xiaotong Zhang and Han Liu: Self-Adapted Multi-Task Clustering. The 25th International Joint Conference on Artificial Intelligence (IJCAI-16), 2016.
[3] Xianchao Zhang, Xiaotong Zhang and Han Liu: Multi-task Multi-view Clustering for Non-negative Data. The 24th International Joint Conference on Artificial Intelligence (IJCAI 2015), 2015.
[4] Xianchao Zhang, Linlin Zong, Xinyue Liu and Hong Yu: Constrained NMF-Based Multi-View Clustering on Unmapped Data. The 29th AAAI Conference on Artificial Intelligence (AAAI-15), 2015.
[5] Linlin Zong, Xianchao Zhang, Xinyue Liu and Hong Yu: Weighted Multi-view Spectral Clustering based on Spectral Perturbation. The 32th AAAI Conference on Artificial Intelligence (AAAI-18), 2018.
[6] Xiaotong Zhang, Xianchao Zhang and Han Liu: Partially Related Multi-Task Clustering. IEEE Transactions on Knowledge and Data Engineering, 2018,30(12): 2367-2380.
[7] Xiaotong Zhang, Xianchao Zhang, Han Liu, and Xinyue Liu: Multi-task Multi-view Clustering. IEEE Transactions on Knowledge and Data Engineering, 2016,28(12): 3324-3338.
[8] Xianchao Zhang,Xiaotong Zhang and Han Liu: Novel Density- based Clustering Algorithms for Uncertain Data. The 28th AAAI Conference on Artificial Intelligence, 2014: 2191-2197.