登录后查看更多精彩内容~
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
聚类(cluster)算法,应用范围广,也是【数据挖掘】的重要组成部分。
交互图示例:
聚类算法不是一个算法,而是一个有50多年历史的算法家族。
其中,【K均值(K-Means)算法】是目前应用最广的, 它的算法形式是设置种子中心,然后计算数据点的距离,来迭代调整,直至收敛。 还有个跟它很类似的【K中心点(K-Medoids)算法】,也是同样的步骤。 这2个算法都要求手动设置分的簇的个数k,即算法名字中K的由来。 当然,需要人来设定K是一个缺憾。
传统的聚类算法是按“距离”来归类的,适用于“球形类型”的数据。 有的算法是基于“密度”(区域内对象的数量)来聚类的, 把密度够大的区域连在一起,这样就可以发现任意形状的类,还可以过滤噪声。 这个我很喜欢,它可以帮助我从二维图中提取几何形状,何其妙哉! 基于密度的算法有【DBSCAN算法】和【OPTICS算法】, 缺点:需要用户设置参数,对参数十分敏感。
还有【凝聚层次聚类】和【分裂层次聚类】,这2个算法的计算方向是相反的。
【sting算法】的形式是“嵌套网格化”,优点是速度快。
|