爱气象,爱气象家园! 

气象家园

 找回密码
 立即注册

QQ登录

只需一步,快速开始

新浪微博登陆

只需一步, 快速开始

搜索
查看: 6617|回复: 4

[求助] sklearn库中Kmeans的random_state参数该如何选取?

[复制链接]

新浪微博达人勋

发表于 2022-5-12 08:39:26 | 显示全部楼层 |阅读模式

登录后查看更多精彩内容~

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
kmeans = KMeans(n_clusters=3, random_state=1)
如题,我查阅了一些帖子,说这个参数是随机种子数,不同的值会得到不同的聚类结果。
因为kmeans的聚类数是通过轮廓系数确定的,这是先聚类后确定,那么不同的random_state会得到不同的最佳聚类数,这又该如何确定聚类数呢?
求求了,一直想不通。
密码修改失败请联系微信:mofangbao

新浪微博达人勋

发表于 2022-5-12 10:03:53 | 显示全部楼层
本帖最后由 付亚男 于 2022-5-12 10:07 编辑

      random_state和你聚类的数目没有关系,聚类的数目是你人为确定的,k-means在每一次聚类过程中都会重复n_init次,轮廓系数用来确定这n_init次中的最佳结果。


      k-means算法的基本逻辑是这样的:
      step1:你人为给定一个n_cluster,然后算法会随机将你要聚类的样本分为n_cluster组,求每一组的centroid,一共得到n_cluster个centroid。这里用到了random_state。
      step2:计算所有样本和这n_cluster个centroid之间的欧氏距离或者相关系数,然后将样本漂移到距离最近的那一类,然后重新计算centroid。例如,样本 x 在上一步被随机分到了第 i 类,但是经过计算,发现它和第 j 类的更接近,就把 x 漂移到第 j 类。
      step3:不断重复step2,直到没有任何样本会漂移为止。
      step4:由于上述结果具有随机性,所以算法会把上述整个过程重复n_init次,这个n_init的缺省值在 sklearn.cluster 中为10,10次计算之后,算法会对这10次的结果取一个最佳,这个最佳的标准,就是轮廓系数


      在实际应用中,随机数不同,的确会得到不同的结果,但是根据我个人的经验,这个结果差异很小,并且假如你给一个很大的n_init,比如给定100,结果之间可能就没有差异了。不过很可能对于同样的某一类,两次聚类之间的编号可能会不同。比如你聚类数目为3,可能第一次聚类结果中,某个类的编号为2,到第二次聚类中,这个类的编号会变成0,但是类中的样本是不变的,只是编号出现了变化。你给出一个确定的random_state,就不会出现这种情况了。
密码修改失败请联系微信:mofangbao
回复 支持 1 反对 0

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2022-5-12 10:33:12 | 显示全部楼层
付亚男 发表于 2022-5-12 10:03
random_state和你聚类的数目没有关系,聚类的数目是你人为确定的,k-means在每一次聚类过程中都会重 ...

十分感谢,一下子清楚了很多。
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

 楼主| 发表于 2022-5-12 10:46:49 | 显示全部楼层
付亚男 发表于 2022-5-12 10:03
random_state和你聚类的数目没有关系,聚类的数目是你人为确定的,k-means在每一次聚类过程中都会重 ...

您好,另外还有一个问题。轮廓系数是和聚类性能相关。
那么我选取不同的聚类数目,得到各自的轮廓系数,那么更大的轮廓系数,是不是说明将这个数据聚类成对应数目是更好的。
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

新浪微博达人勋

发表于 2022-5-12 10:57:42 | 显示全部楼层
虔诚 发表于 2022-5-12 10:46
您好,另外还有一个问题。轮廓系数是和聚类性能相关。
那么我选取不同的聚类数目,得到各自的轮廓系数, ...

理论上是这样的,但是实际应用的过程中你会发现,轮廓系数一般都是随着分类数目的增大而减小的,所以如果单纯以轮廓系数的评分来确定你的分类数目,那么很多情况下最后你确定的分类数目都是2,这肯定是和现实不符合的。
到目前为止,我还没有看到过有哪个评分方法能够很好的确定分类数目,所以最好你还是人工去观察一下分类的结果。
密码修改失败请联系微信:mofangbao
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

Copyright ©2011-2014 bbs.06climate.com All Rights Reserved.  Powered by Discuz! (京ICP-10201084)

本站信息均由会员发表,不代表气象家园立场,禁止在本站发表与国家法律相抵触言论

快速回复 返回顶部 返回列表