Day49:常用聚类算法详解与实例

alt

在上一节中,我们介绍了决策树的原理和实现。接下来,我们将进入聚类算法的领域,这是一种无监督学习方式。聚类算法用于将数据集中的样本划分为不同的组,使得同一组内的样本相似度较高,不同组之间的样本相似度较低,这类算法是从数据特征中学习知识,不需要标签进行指导。我们主要介绍三种常用的聚类算法。

1. K-means聚类算法:

  • 算法原理:K-means聚类算法是一种基于距离的聚类算法。它将样本划分为K个簇,每个簇由一个中心点表示。算法通过迭代优化的方式,使得每个样本到所属簇的中心点距离最小。具体步骤如下:
    1. 随机初始化K个聚类中心点。
    2. 将每个样本分配到距离最近的聚类中心点所属的簇。
    3. 更新每个簇的中心点为该簇所有样本的均值。
    4. 重复步骤2和步骤3,直到聚类中心点不再发生变化或达到最大迭代次数。
  • 优点:简单、高效,适用于大规模数据集;易于解释和理解。
  • 缺点:对初始聚类中心的选择敏感;对噪声和异常值敏感;无法处理非球形簇或大小差异较大的簇。
  • 适用条件:适用于簇具有凸性和相似大小的数据集。
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

# 创建K-means聚类器对象
kmeans = KMeans(n_clusters=3, random_state=42)

# 使用训练数据进行聚类
kmeans.fit(X_train)

# 获取聚类结果
labels = kmeans.labels_

# 绘制聚类结果图
plt.scatter(X_train[:, 0], X_train[:, 1], c=labels)
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], marker='x', color='r')
plt.show()

1alt

2. 层次聚类算法(Hierarchical Clustering):

  • 算法原理:层次聚类算法通过逐步合并或分割样本来构建聚类树(树状的聚类结构),从而形成层次化的聚类结果。具体步骤如下:
    1. 将每个样本视为一个初始簇。
    2. 计算簇与簇之间的相似度(如欧氏距离或相关系数)。
    3. 选择相似度

剩余60%内容,订阅专栏后可继续查看/也可单篇购买

大模型-AI小册 文章被收录于专栏

1. AI爱好者,爱搞事的 2. 想要掌握第二门语言的Javaer或者golanger 3. 决定考计算机领域研究生,给实验室搬砖的uu,强烈建议你花时间学完这个,后续搬砖比较猛 4. 任何对编程感兴趣的,且愿意掌握一门技能的人

全部评论
好像看出来了区别
点赞 回复 分享
发布于 2023-07-14 15:33 上海

相关推荐

搜索部 首先说下timeline8.18,投递8.19,约一面8.21,晚上一面call约二面8.22,上午二面下午oc周末等待(8.23,8.24)8.25,offer一年前,我还是懵懵懂懂,高考完的暑假,只会提前学学高数,未来的画像是什么?我或许无法预测。开学后,自学Python,接单,无数个客户的ddl,偷偷摸摸一个人找自习的地方,这一步步竟然为后来的我,搭建工程能力的基础。大一上,我也要感谢我的第一位老板,让我接触到了实习,师兄带着我一步步入门,看他们写的飞书文档。大一下,导师带我参与企业项目,这让我渐渐发现,应该去实践,增长见识,而非局限当下,盯着自己的小新pro。不久后,第一波投递开始,结果当然是约面极少。盯着简历上的文字和ssob,我开始思考,确实很多可以去提升。带着些许不甘心,继续沉淀,慢慢的约面也越来越多,有的时候两天7场,准备完就接着下一个日程。这一次,也许是刚好到位吧,比较match,面试答的流利,关关难关关过,成为度孝子展望未来,依然是重重挑战,果然只有收到offer的那一刻是开心的。愿在百度星海拆解的每一段代码,都能成为丈量宇宙的诗行;此志终赴星河,而今迈步重铸天阶。屏幕前的你们,在无数个向星海奔赴的日夜,一定一定,会在未来化作群星回响的征程——请永远相信此刻埋首耕耘的自己!!!
一天三顿半:???百度提前批发 offer了?不是统一和正式批排序完再发吗我靠
百度求职进展汇总
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务