【聚类专题】面对大规模数据聚类,别再用传统K-Means啦!

Mini Batch K-Means

Mini Batch K-Means 更适合处理大规模数据集,特别是在计算资源有限的情况下,而标准 K-Means 更适合小型数据集或对精确度要求较高的场景。

时效方面

Mini Batch K-Means仅使用数据集的一个小批量(mini-batch)来更新质心,而K-Means由于使用全部数据,收敛速度可能较慢,尤其在大数据集上。

聚类效果方面

惯性(Inertia)是 K-Means 和 Mini Batch K-Means 聚类算法中的一种度量指标,用来衡量数据点到其最近簇中心的距离之和。惯性值越小,表示数据点越接近其簇中心,聚类效果越好。

具体步骤&对比

Python代码实战

import time
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, MiniBatchKMeans
from sklearn.datasets import make_blobs

# Generate synthetic data
X, y = make_blobs(n_samples=3000, centers=3, cluster_std=1.0, random_state=42)

# Set the number of clusters
n_clusters = 3

# K-Means clustering
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
start_time = time.time()
kmeans.fit(X)
kmeans_time = time.time() - start_time
kmeans_inertia = kmeans.inertia_

# Mini Batch K-Means clustering
minibatch_kmeans = MiniBatchKMeans(n_clusters=n_clusters, batch_size=100, random_state=42)
start_time = time.time()
minibatch_kmeans.fit(X)
minibatch_kmeans_time = time.time() - start_time
minibatch_kmeans_inertia = minibatch_kmeans.inertia_

# Print results comparison
print(f"K-Means training time: {kmeans_time:.4f} seconds, Inertia: {kmeans_inertia}")
print(f"Mini Batch K-Means training time: {minibatch_kmeans_time:.4f} seconds, Inertia: {minibatch_kmeans_inertia}")

# Visualize the clustering results
fig, ax = plt.subplots(1, 3, figsize=(15, 5))

# Left plot: K-Means
ax[0].scatter(X[:, 0], X[:, 1], c=kmeans.labels_, s=1, cmap='viridis')
ax[0].scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[0].set_title(f"K-Means\nTraining time: {kmeans_time:.2f}s\nInertia: {kmeans_inertia:.2f}")

# Middle plot: Mini Batch K-Means
ax[1].scatter(X[:, 0], X[:, 1], c=minibatch_kmeans.labels_, s=1, cmap='viridis')
ax[1].scatter(minibatch_kmeans.cluster_centers_[:, 0], minibatch_kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[1].set_title(f"Mini Batch K-Means\nTraining time: {minibatch_kmeans_time:.2f}s\nInertia: {minibatch_kmeans_inertia:.2f}")

# Right plot: Difference
# Highlight points assigned to different clusters by the two methods
diff_labels = kmeans.labels_ != minibatch_kmeans.labels_
ax[2].scatter(X[:, 0], X[:, 1], c='lightgrey', s=1)
ax[2].scatter(X[diff_labels, 0], X[diff_labels, 1], c='magenta', s=10)
ax[2].set_title("Difference")

plt.tight_layout()
plt.show()

总结

MiniBatch K-means 是 K-means 的一种加速算法,适合处理大规模数据集,核心要点如下:

  1. 小批量数据更新:不像标准 K-means 需要处理整个数据集,MiniBatch K-means 通过从数据集中随机抽取小批量样本进行聚类更新,每次迭代只使用小批量样本来更新簇中心。
  2. 更快的收敛:小批量更新显著减少了计算量,使算法在大数据集上更快收敛,适合流数据或大规模数据场景。
  3. 降低内存需求:只需存储小批量数据,不需要将整个数据集加载到内存中,降低了内存消耗。
  4. 相对准确的聚类效果:虽然惯性可能略高于标准 K-means,但在速度和性能间取得了良好的平衡。适合数据分布较均匀时应用。
  5. 易于扩展:适合分布式和在线学习,可以结合多次小批量更新逐渐改进聚类效果。
#机器学习##数据人的面试交流地##算法##数据人offer决赛圈怎么选##25届秋招总结#
机器学习干货分享 文章被收录于专栏

专注分享DA/DS求职关于机器学习算法模型的干货帖子!

全部评论

相关推荐

真tmd的恶心,1.面试开始先说我讲简历讲得不好,要怎样讲怎样讲,先讲背景,再讲技术,然后再讲提升多少多少,一顿说教。2.接着讲项目,我先把背景讲完,开始讲重点,面试官立即打断说讲一下重点,无语。3.接着聊到了项目的对比学习的正样本采样,说我正样本采样是错的,我解释了十几分钟,还是说我错的,我在上一家实习用这个方法能work,并经过市场的检验,并且是顶会论文的复现,再怎么不对也不可能是错的。4.面试官,说都没说面试结束就退出会议,把面试者晾在会议里面,丝毫不尊重面试者难受的点:1.一开始是讲得不好是欣然接受的,毕竟是学习。2.我按照面试官的要求,先讲背景,再讲技术。当我讲完背景再讲技术的时候(甚至已经开始蹦出了几个技术名词),凭什么打断我说讲重点,是不能听出人家重点开始了?这也能理解,每个人都有犯错,我也没放心上。3.我自己做过的项目,我了解得肯定比他多,他这样贬低我做过的项目,说我的工作是错误的,作为一个技术人员,我是完全不能接受的,因此我就和他解释,但无论怎么解释都说我错。凭什么,作为面试官自己不了解相关技术,别人用这个方式work,凭什么还认为这个方法是错的,不接受面试者的解释。4.这个无可厚非,作为面试官,不打招呼就退出会议,把面试者晾着,本身就是有问题。综上所述,我现在不觉得第一第二点也是我的问题,面试官有很大的问题,就是专门恶心人的,总结面试官说教,不尊重面试者,打击面试者,不接受好的面试者,技术一般的守旧固执分子。有这种人部门有这种人怎么发展啊。最后去查了一下,岗位关闭了。也有可能是招到人了来恶心人的,但是也很cs
牛客20646354...:招黑奴啊,算法工程师一天200?
点赞 评论 收藏
分享
09-28 22:01
已编辑
广西科技大学 IT技术支持
合适才能收到offe...:找桌面运维?
点赞 评论 收藏
分享
评论
2
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务