鲸鲸🐳说数据分析

2024-12-01 22:25 字节跳动_风控策略分析师

发布于上海

关注

【聚类专题】面对大规模数据聚类，别再用传统K-Means啦！

Mini Batch K-Means

Mini Batch K-Means 更适合处理大规模数据集，特别是在计算资源有限的情况下，而标准 K-Means 更适合小型数据集或对精确度要求较高的场景。

时效方面

Mini Batch K-Means仅使用数据集的一个小批量（mini-batch）来更新质心，而K-Means由于使用全部数据，收敛速度可能较慢，尤其在大数据集上。

聚类效果方面

惯性（Inertia）是 K-Means 和 Mini Batch K-Means 聚类算法中的一种度量指标，用来衡量数据点到其最近簇中心的距离之和。惯性值越小，表示数据点越接近其簇中心，聚类效果越好。

具体步骤&对比

Python代码实战

import time
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans, MiniBatchKMeans
from sklearn.datasets import make_blobs

# Generate synthetic data
X, y = make_blobs(n_samples=3000, centers=3, cluster_std=1.0, random_state=42)

# Set the number of clusters
n_clusters = 3

# K-Means clustering
kmeans = KMeans(n_clusters=n_clusters, random_state=42)
start_time = time.time()
kmeans.fit(X)
kmeans_time = time.time() - start_time
kmeans_inertia = kmeans.inertia_

# Mini Batch K-Means clustering
minibatch_kmeans = MiniBatchKMeans(n_clusters=n_clusters, batch_size=100, random_state=42)
start_time = time.time()
minibatch_kmeans.fit(X)
minibatch_kmeans_time = time.time() - start_time
minibatch_kmeans_inertia = minibatch_kmeans.inertia_

# Print results comparison
print(f"K-Means training time: {kmeans_time:.4f} seconds, Inertia: {kmeans_inertia}")
print(f"Mini Batch K-Means training time: {minibatch_kmeans_time:.4f} seconds, Inertia: {minibatch_kmeans_inertia}")

# Visualize the clustering results
fig, ax = plt.subplots(1, 3, figsize=(15, 5))

# Left plot: K-Means
ax[0].scatter(X[:, 0], X[:, 1], c=kmeans.labels_, s=1, cmap='viridis')
ax[0].scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[0].set_title(f"K-Means\nTraining time: {kmeans_time:.2f}s\nInertia: {kmeans_inertia:.2f}")

# Middle plot: Mini Batch K-Means
ax[1].scatter(X[:, 0], X[:, 1], c=minibatch_kmeans.labels_, s=1, cmap='viridis')
ax[1].scatter(minibatch_kmeans.cluster_centers_[:, 0], minibatch_kmeans.cluster_centers_[:, 1], s=200, c='red', marker='X')
ax[1].set_title(f"Mini Batch K-Means\nTraining time: {minibatch_kmeans_time:.2f}s\nInertia: {minibatch_kmeans_inertia:.2f}")

# Right plot: Difference
# Highlight points assigned to different clusters by the two methods
diff_labels = kmeans.labels_ != minibatch_kmeans.labels_
ax[2].scatter(X[:, 0], X[:, 1], c='lightgrey', s=1)
ax[2].scatter(X[diff_labels, 0], X[diff_labels, 1], c='magenta', s=10)
ax[2].set_title("Difference")

plt.tight_layout()
plt.show()

总结

MiniBatch K-means 是 K-means 的一种加速算法，适合处理大规模数据集，核心要点如下：

小批量数据更新：不像标准 K-means 需要处理整个数据集，MiniBatch K-means 通过从数据集中随机抽取小批量样本进行聚类更新，每次迭代只使用小批量样本来更新簇中心。
更快的收敛：小批量更新显著减少了计算量，使算法在大数据集上更快收敛，适合流数据或大规模数据场景。
降低内存需求：只需存储小批量数据，不需要将整个数据集加载到内存中，降低了内存消耗。
相对准确的聚类效果：虽然惯性可能略高于标准 K-means，但在速度和性能间取得了良好的平衡。适合数据分布较均匀时应用。
易于扩展：适合分布式和在线学习，可以结合多次小批量更新逐渐改进聚类效果。

#机器学习##数据人的面试交流地##算法##数据人offer决赛圈怎么选##25届秋招总结#

机器学习干货分享文章被收录于专栏

专注分享DA/DS求职关于机器学习算法模型的干货帖子！

全部评论

推荐最新楼层

10-31 16:33

中国科学技术大学大数据开发工程师

字节DATA数据平台二面1031

80分钟自我介绍5分钟认知问题20分钟1.短期和长期方向为什么选大数据开发2.数据开发的核心价值，和对岗位的认知3.数据岗位的人员应该有什么样的能力4.宏观角度看数据的处理流程，该了解哪些技术栈5.实习期间遇到的最大问题和解决办法6.清晰介绍实习项目的业务逻辑简单题和编程40分钟Q1.给定sql语句。7.问索引加在什么字段会提高查询速度8.内连接join是小表驱动大表还是大表驱动小表9.sql执行顺序：where->JOIN->GROUP BYQ2.给定两个一对多的表A和B。10.问A left join B有哪几条结果Q3.给定sql语句。11.问有多少个Map Reduce过程...

查看14道真题和解析

点赞评论收藏

分享

昨天 10:31

海康威视_自动化开发工程师(准入职员工)

海康威视内推，海康威视内推码

岗位：武汉 嵌入式开发timeline：8.30 测评，10.9 一面，10.11 二面一面技术：自我介绍讲下实习经历平常怎么debug项目中有没有遇到什么问题，怎么解决的介绍一下学校经历了解数据结构吗？基本的数据结构？查找搜索效率？有什么方法可以提高效率？具体围绕数据结构问了很多RTOS，多任务操作反问：做存储固件的，具体的进来再分二面HR：北京线下，地点在北京研发中心，具体内容就是唠家常，一些HR面的基本问题销售工程师工作体验，总结累但成长很多。1.大家最先关注的就是HIK的工作压力，只能说体面厂没有辜负盛名！名不虚传！我来这边是销售岗，基本上每天都要差不多11点下班。因为销售不仅需要对接...

点赞评论收藏

分享

09-19 12:40

香港科技大学算法工程师

真tmd的恶心，1.面试开始先说我讲简历讲得不好，要怎样讲怎样讲，先讲背景，再讲技术，然后再讲提升多少多少，一顿说教。2.接着讲项目，我先把背景讲完，开始讲重点，面试官立即打断说讲一下重点，无语。3.接着聊到了项目的对比学习的正样本采样，说我正样本采样是错的，我解释了十几分钟，还是说我错的，我在上一家实习用这个方法能work，并经过市场的检验，并且是顶会论文的复现，再怎么不对也不可能是错的。4.面试官，说都没说面试结束就退出会议，把面试者晾在会议里面，丝毫不尊重面试者难受的点：1.一开始是讲得不好是欣然接受的，毕竟是学习。2.我按照面试官的要求，先讲背景，再讲技术。当我讲完背景再讲技术的时候（甚至已经开始蹦出了几个技术名词），凭什么打断我说讲重点，是不能听出人家重点开始了？这也能理解，每个人都有犯错，我也没放心上。3.我自己做过的项目，我了解得肯定比他多，他这样贬低我做过的项目，说我的工作是错误的，作为一个技术人员，我是完全不能接受的，因此我就和他解释，但无论怎么解释都说我错。凭什么，作为面试官自己不了解相关技术，别人用这个方式work，凭什么还认为这个方法是错的，不接受面试者的解释。4.这个无可厚非，作为面试官，不打招呼就退出会议，把面试者晾着，本身就是有问题。综上所述，我现在不觉得第一第二点也是我的问题，面试官有很大的问题，就是专门恶心人的，总结面试官说教，不尊重面试者，打击面试者，不接受好的面试者，技术一般的守旧固执分子。有这种人部门有这种人怎么发展啊。最后去查了一下，岗位关闭了。也有可能是招到人了来恶心人的，但是也很cs

牛客20646354...：招黑奴啊，算法工程师一天200？

点赞评论收藏

分享

09-28 22:01

已编辑

广西科技大学 IT技术支持

毕业生求职

合适才能收到offe...：找桌面运维？

点赞评论收藏

分享

昨天 10:49

美团_HR(准入职员工)

浩鲸科技内推，浩鲸科技内推码

浩鲸科技测试工程师（福州）timeline2.25投递3.13一面3.18二面一面✅线上进行，面试官很友好，深挖简历和项目，问得很细，细到比赛里使用的软件，还问了测试工程师需要具备什么特质；专业知识问了mysql相关的两个问题，只删除数据不删除整个表用什么语句命令？有个表格，想要按照什么要求进行升序排列，用什么语句？自我感觉mysql回答的不好，毕竟没怎么看过但是没想到还是收到了二面邀请全程持续二十分钟左右🕧二面✅线上进行，面试官更友好大多时候是在闲聊，简历问的很少，还让我用英文介绍自己的家乡（我也是二面才发现我投的是国际的岗位）全程持续30分钟左右🕧在讨论到我喜欢出差时，面试官觉得我更适...

点赞评论收藏

分享

评论

2

1

招聘动态

字节跳动火山引擎

2026校园招聘

联想

2026届校园招聘

字节跳动

2026校园招聘

联想

26届AI专项｜内推码NK2026

快手

2026届校园招聘

联想

2026届校园招聘

完美世界

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 同bg的你秋招战况如何？ #

168528次浏览 976人参与

# 工作后，谈恋爱还和学生时代一样吗？ #

39803次浏览 373人参与

# 360集团校招 #

3954次浏览 22人参与

# 今年秋招是回暖还是遇冷 #

22535次浏览 146人参与

# 职场破冰，你们都聊什么？ #

29168次浏览 153人参与

# 你实习是赚钱了还是亏钱了？ #

21533次浏览 194人参与

# 京东开奖 #

448789次浏览 2504人参与

# 阿里云工作体验 #

32160次浏览 108人参与

# 你的领导最像哪种动物，为什么? #

24499次浏览 134人参与

# 我的AI电子员工 #

21306次浏览 152人参与

# 三一集团提前批进度交流 #

40534次浏览 228人参与

# 毕业论文进行时 #

3039次浏览 54人参与

# 诺瓦星云求职进展汇总 #

226014次浏览 1732人参与

# 我来点评面试官 #

11326次浏览 85人参与

# 教师节，你送祝福了吗 #

11959次浏览 76人参与

# 来聊聊你目前的求职进展 #

686848次浏览 6921人参与

# 秋招开始捡漏了吗 #

64472次浏览 443人参与

# 找工作八股要背到什么程度？ #

13084次浏览 199人参与

# 上班摸鱼，你都在干些什么？ #

29450次浏览 223人参与

# 用一句话形容你的团队氛围 #

14068次浏览 150人参与

# 三一重工求职进展汇总 #

22877次浏览 82人参与

# 你找工作是从容有余 or 匆忙滚爬？ #

7708次浏览 76人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务