1、机器学习聚类,汇报人:杨光,1.聚类任务,有一天老板给你一堆数据,然后他说,你给我分类(聚类)出来,2,1.聚类任务,聚类算法是一种无监督学习,我们区分监督学习和无监督学习的方法是看IN数据有无标签(Label)。,3,1.聚类任务,4,在实际工作中,我们需要处理很多数据,标签获取需要极大的人工工作量。,1.聚类任务,引言,聚类算法会将数据集中的样本划分成为若干个通常不相交的子集,每一个子集我们称之为“簇”。在聚类过程自动形成簇结构后,我们会发现每个簇里会存在一些潜在的概念,比如“黄种人”、“白种人”,“女性”、“男性”,这些是我们事先未知的,这些概念也是由使用者来把握和命名的。,5,1.聚类
2、任务,引言,6,2.性能度量,引言,目标:尽量使聚类结果的“簇内相似度高”且“簇间相似度低”两类指标:,7,外部指标:与某个“参考模型”比较,内部指标:直接考察聚类结果(不利用参考模型),2.性能度量,引言,外部指标:,8,2.性能度量,引言,9,2.性能度量,引言,10,内部指标:,2.性能度量,引言,10,3.距离计算,引言,距离度量dist(.,.)需要满足一些性质:,10,非负性:dist(xi,xj)0同一性:dist(xi,xj)=0当且仅当xi=xj对称性:dist(xi,xj)=dist(xj,xi)直递性:dist(xi,xj)dist(xi,xk)+dist(xk,xj),
3、3.距离计算,引言,闵可夫斯基距离:当给定样本我们最常用的是“闵可夫斯基距离”p1时,“闵可夫斯基距离”公式满足上述4个性质。p=1时,“闵可夫斯基距离”即“曼哈顿距离”。p=2时,“闵可夫斯基距离”即“欧氏距离”。,10,3.距离计算,引言,有序属性:1,2,3闵可夫斯基距离无序属性:飞机,火车,轮船 VDM,10,3.距离计算,引言,10,3.距离计算,引言,10,4.原型聚类 k-means,引言,10,4.原型聚类 k-means,引言,10,4.原型聚类 k-means,引言,10,4.原型聚类 k-means,引言,10,4.原型聚类 LVQ,引言,10,4.原型聚类 LVQ,引言
4、,10,4.原型聚类 LVQ,引言,10,4.原型聚类 LVQ,引言,10,4.原型聚类 LVQ,引言,10,5.密度聚类,引言,10,5.密度聚类,引言,10,5.密度聚类,引言,10,5.密度聚类,引言,10,5.密度聚类,引言,10,5.密度聚类,引言,10,6.层次聚类,引言,10,给定聚类簇Ci,Cj,可以通过下面的式子来计算距离:,6.层次聚类,引言,10,6.层次聚类,引言,10,以西瓜数据集4.0为例,令AGNES算法一直执行到所有样本出现在同一个簇中,即k=1,可以得到下面这个树状图9.12,6.层次聚类,引言,10,THANK YOU,2018.4.3,参考资料:周志华机器学习CSDN:https:/ https:/