聚类模型评估指标之内部方法

聚类算法的理想结果是同一类别内的点相似度高,而不同类别之间的点相似度低。聚类属于无监督学习,数据没有标签,为了比较不同聚类模型的好坏,我们也需要一些定量的指标来进行评估。根式是否提供样本的标签信息,相关的指标可以分为以下两大类

1. 外部方法,外部方法指的是从外部提供数据的标签,比如通过专家认为定义类别,或者是本身就是有标签的数据,将标签拿掉之后做聚类

2. 内部方法,内部方法指的是不需要数据的标签,仅仅从聚类效果本身出发,而制定的一些指标

本文主要关注内部方法,常用的指标有以下几种

1. 簇内误差平方和

within-cluster sum of square error, 简称SSE,公式如下

针对每一个聚类簇,计算簇内样本与聚类中心点的距离,然后加和。理论上,该数值越小越好。该指标的局限性在于只考虑了簇内相似度,没有考虑不同簇之间的关系。

2. Compactness

简称CP, 称之为紧密性,公式如下

针对单个聚类簇,计算簇内样本与中心点的平均距离,最后取所有簇的平均值即可计算出该指标。和SSE类似,也是只考虑了簇内相似度, 数值越小,聚类效果越好。

3. Separation

简称SP, 称之为间隔性,公式如下

w表示聚类的中心点,通过计算两两聚类中心点的距离来得到最终的数值。和紧密型相反,该指标仅仅考虑不同簇之间的距离,数值越大,聚类效果越好。

4. Silhouette Coefficient

称之为轮廓系数,对于某个样本而言,将该样本与簇内其他样本点之间的平均距离定义为簇的内聚度a, 将该样本与最近簇中所有样本点之间的平均距离定义为簇之间的分离度b, 则该样本轮廓系数的计算公式如下

对于全体样本的集合而言,轮廓系数是每个样本轮廓系数的平均值。该指标的取值范围-1到1,当簇间分离度b远大于内聚度a时,轮廓系数的值近似于1。所以该指标的值接近1,聚类效果越佳。

5. Calinski-Harabaz Index

简称为CH指数,综合考虑了簇间距离和簇内距离,计算公式如下

其中SSB表示的是簇内距离,SSW表示簇间距离,簇内距离用簇内样本点与簇中心点的距离表示,簇间距离用样本点与其他簇内中心点的距离表示,具体的计算公式表述如下

CH的数值越大,说明簇内距离越小,簇间距离越大,聚类效果越好。

6. Davies-Bouldin Index

简称DBI, 称之为戴维森堡丁指数,公式如下

其中avg(C)表示聚类簇的紧密程度,公式如下

计算该聚类簇内样本点的距离,d表示不同聚类簇中心点之间的距离,公式如下

聚类簇之间的距离越远,聚类内的距离越近,DB指数的值越小,聚类性能越好。

7. Dunn Validity Index

简称DVI, 称之为邓恩指数,公式如下

分子为聚类簇间样本的最小距离,分母为聚类簇内样本的最大距离,类间距离越大,类内距离越小,DVI指数的值越大,聚类性能越好。
·end·
(0)

相关推荐

  • 机器学习的策略原理:基本过程、算法框架和项目管理

    作者:cooperyjli,腾讯 CDG 数据分析师 机器学习是一种解决问题的思维方式,核心在于收集数据,应用算法和生成模型.相对于普通的数据统计和分析而言,机器学习有自己的优化过程和评估体系,是一个 ...

  • 【本刊学术】基于多位置NWP与主成分分析的风电功率短期预测

    北京信息科技大学电气工程系.北京理工大学自动化学院的研究人员王丽婕.冬雷.高爽,在2015年第5期<电工技术学报>上撰文,数值天气预报(NWP)信息对风电功率短期预测模型的准确性起着重要作 ...

  • 【自动保存】python...

    ​题型: 1.单项选择题(1分*20= 20分) 2.算法基础(15+10+15分,,共40分) 3.算法实现(20分*2=40分) 重点 1.常见的数据的类型 关系数据库 事务数据库 数据仓库 高级 ...

  • 【生成模型】关于无监督生成模型,你必须知道的基础

    大家好,小米粥销声匿迹了很长一段时间,今天又杀回来啦!这次主要是介绍下生成模型的相关内容,尤其是除了GAN之外的其他生成模型,另外应部分读者要求,本系列内容增添了代码讲解,希望能使大家获益,更希望大家 ...

  • 机器学习中的目标函数总结

    几乎所有的机器学习算法都归结为求解最优化问题.有监督学习算法在训练时通过优化一个目标函数而得到模型,然后用模型进行预测.无监督学习算法通常通过优化一个目标函数完成数据降维或聚类.强化学习算法在训练时通 ...

  • 新思路!商汤开源利用无标注数据大幅提高精度的人脸识别算法

    人脸识别是最近几年计算机视觉领域取得长足进步的领域,这得益于不断进步的深度学习强大的模型拟合能力和有标注的大型数据集的建立,已经出现了用于人脸识别的有标注的百万量级的数据集. 但继续扩大规模数据集变得 ...

  • 分类模型评估指标

    对于构建好的机器学习模型,需要对模型的效果进行评估,对于机器学习中的3大类问题,分类,回归,聚类而言,各自有不同的评估指标,本文主要介绍分类模型常用的评估指标. 以二分类问题为例,考虑真实分类和模型预 ...

  • 回归模型评估指标

    回归模型的评估,核心是利用模型预测值与真实值之间的差值,常用的指标有以下几种 1. 平均绝对误差 Mean Absolute Error, 简称MAE, 公式如下 考虑到正负误差在求和时会出现抵消的情 ...

  • 机器学习模型评估指标总结!

    第一时间获取价值内容  Datawhale干货  作者:太子长琴,Datawhale优秀学习者 本文对机器学习模型评估指标进行了完整总结.机器学习的数据集一般被划分为训练集和测试集,训练集用于训练模型 ...

  • 聚类算法的评估指标

    在学习聚类算法得时候并没有涉及到评估指标,主要原因是聚类算法属于非监督学习,并不像分类算法那样可以使用训练集或测试集中得数据计算准确率.召回率等.那么如何评估聚类算法得好坏呢?好的聚类算法,一般要求类 ...

  • ML之XGBoost:利用XGBoost算法对波士顿数据集回归预测(模型调参【2种方法,ShuffleSplit+GridSearchCV、TimeSeriesSplitGSCV】、模型评估)

    ML之XGBoost:利用XGBoost算法对波士顿数据集回归预测(模型调参[2种方法,ShuffleSplit+GridSearchCV.TimeSeriesSplitGSCV].模型评估) 相关文 ...

  • 用这个指标3个月100倍,短线专用指标威廉指标的使用方法

    用这个指标3个月100倍,短线专用指标威廉指标的使用方法

  • 北京市社会组织评估指标(2021版)

    来源:社会组织众扶平台 北京市社会组织评估指标(2021版)已发布,哪些指标将被重点考察?一起来看看吧-- 1.北京市行业协会商会中关村社会团体评估指标2021版 2.北京市专业性.学术性.联合性社会 ...

  • 机器学习模型评估教程!

    文章译者:追风者 内容来源:Datawhale 如何在投入生产前评估机器学习模型性能? 想象一下,你训练了一个机器学习模型.也许,可以从中选几个候选方案. 你在测试集上运行它,得到了一些质量评估.模型 ...

  • 智能辅助线主图指标 经传软件之智能乖离(副图)指标的使用方法

    有一些东西,你以为拥有的理所应当,当你失去的时候,才知道原来并没有资格,只是上天像游客一样,在你身边逛了一次,幸好有这样一次,让我知道我并不只是我我还有更强大的自己,在未来等着我.--<男人帮& ...