sklearn库中Kmeans的random_state参数该如何选取？

虔诚 · 发表于 2022-5-12 08:39:26

登录后查看更多精彩内容~

您需要登录才可以下载或查看，没有帐号？立即注册

x

kmeans = KMeans(n_clusters=3, random_state=1)
如题，我查阅了一些帖子，说这个参数是随机种子数，不同的值会得到不同的聚类结果。
因为kmeans的聚类数是通过轮廓系数确定的，这是先聚类后确定，那么不同的random_state会得到不同的最佳聚类数，这又该如何确定聚类数呢？
求求了，一直想不通。

付亚男 · 发表于 2022-5-12 10:03:53

本帖最后由付亚男于 2022-5-12 10:07 编辑

   random_state和你聚类的数目没有关系，聚类的数目是你人为确定的，k-means在每一次聚类过程中都会重复n_init次，轮廓系数用来确定这n_init次中的最佳结果。

   k-means算法的基本逻辑是这样的：
   step1：你人为给定一个n_cluster，然后算法会随机将你要聚类的样本分为n_cluster组，求每一组的centroid，一共得到n_cluster个centroid。这里用到了random_state。
   step2：计算所有样本和这n_cluster个centroid之间的欧氏距离或者相关系数，然后将样本漂移到距离最近的那一类，然后重新计算centroid。例如，样本 x 在上一步被随机分到了第 i 类，但是经过计算，发现它和第 j 类的更接近，就把 x 漂移到第 j 类。
   step3：不断重复step2，直到没有任何样本会漂移为止。
   step4：由于上述结果具有随机性，所以算法会把上述整个过程重复n_init次，这个n_init的缺省值在 sklearn.cluster 中为10，10次计算之后，算法会对这10次的结果取一个最佳，这个最佳的标准，就是轮廓系数。

   在实际应用中，随机数不同，的确会得到不同的结果，但是根据我个人的经验，这个结果差异很小，并且假如你给一个很大的n_init，比如给定100，结果之间可能就没有差异了。不过很可能对于同样的某一类，两次聚类之间的编号可能会不同。比如你聚类数目为3，可能第一次聚类结果中，某个类的编号为2，到第二次聚类中，这个类的编号会变成0，但是类中的样本是不变的，只是编号出现了变化。你给出一个确定的random_state，就不会出现这种情况了。

虔诚 · 发表于 2022-5-12 10:33:12

付亚男发表于 2022-5-12 10:03
random_state和你聚类的数目没有关系，聚类的数目是你人为确定的，k-means在每一次聚类过程中都会重 ...

十分感谢，一下子清楚了很多。

虔诚 · 发表于 2022-5-12 10:46:49

付亚男发表于 2022-5-12 10:03
random_state和你聚类的数目没有关系，聚类的数目是你人为确定的，k-means在每一次聚类过程中都会重 ...

您好，另外还有一个问题。轮廓系数是和聚类性能相关。
那么我选取不同的聚类数目，得到各自的轮廓系数，那么更大的轮廓系数，是不是说明将这个数据聚类成对应数目是更好的。

付亚男 · 发表于 2022-5-12 10:57:42

虔诚发表于 2022-5-12 10:46
您好，另外还有一个问题。轮廓系数是和聚类性能相关。
那么我选取不同的聚类数目，得到各自的轮廓系数， ...

理论上是这样的，但是实际应用的过程中你会发现，轮廓系数一般都是随着分类数目的增大而减小的，所以如果单纯以轮廓系数的评分来确定你的分类数目，那么很多情况下最后你确定的分类数目都是2，这肯定是和现实不符合的。
到目前为止，我还没有看到过有哪个评分方法能够很好的确定分类数目，所以最好你还是人工去观察一下分类的结果。

		自动登录	找回密码
密码			立即注册

[求助] sklearn库中Kmeans的random_state参数该如何选取？

登录后查看更多精彩内容~

浏览过的版块