关注
1.mapreduce中为何要hash partition分区
默认是hash分区 为了打散数据 分布式处理
分区方式可以自己定义 实现分区器自定义实现;
public class CustomPartitioner extends Partitioner<Text,Object>{
@Override
public int getPartition(Text key,Object value,int numPartitions){
//控制分区代码逻辑 返回int即可
return partition;
}
}
2.mapreduce中为何使用快拍和归并排序
快排:因为内存中排序比较快
数据在内存中是按照 entry1(k1v1),entry(k2v2),entry(k3v3) 这种方式排列的, kv组成一个entry 快排效率高
归并:对多个有序的小文件进行排序,不能单靠内存排,得借助磁盘
比如三个小文件分别是
1,4,6,8
1,5,8,8
0,3,7,11
同时打开所有小文件 分别使用迭代器取出第一个数 即1,1,0
此时0最小 将0追加写入新文件 并从三号文件通过迭代器拿出下一个数3
此事1最小 将1追加写入新文件 并从一号文件通过迭代器拿出下一个数4
直到所有文件都被迭代完 总的排序也就完成了
感觉会问你哪里用到排序了
1.map端的环形缓冲区用到快排
2.map端的小文件合并用到归并排序
3.reduce端将从map端拉取的文件进行归并排序
#数仓开发#
查看原帖
1 评论
相关推荐
牛客热帖
更多
正在热议
更多
# 你以为的实习VS真实的实习 #
164843次浏览 918人参与
# 妈妈治愈了你哪些脆皮时刻 #
51832次浏览 414人参与
# 我的实习日记 #
4202707次浏览 33434人参与
# 第一次找实习,我建议__ #
92382次浏览 940人参与
# 文远知行求职进展汇总 #
7297次浏览 43人参与
# OC/开奖 #
459528次浏览 2338人参与
# 机械笔面试考察这些知识点 #
23863次浏览 172人参与
# 从mentor身上学到了__ #
69357次浏览 957人参与
# 你觉得mentor喜欢什么样的实习生 #
65777次浏览 1099人参与
# 实习的内耗时刻 #
247365次浏览 1677人参与
# 面试线索爆料 #
138873次浏览 718人参与
# 硬件/芯片校招攻略 #
22347次浏览 309人参与
# 当你面对裁员会如何? #
423114次浏览 3098人参与
# 工作两年想退休了 #
287432次浏览 2093人参与
# 离家近房租贵VS离家远但房租低,怎么选 #
23835次浏览 154人参与
# 薪资一样,你会选择去大厂还是小公司 #
38529次浏览 141人参与
# 数字马力求职进展汇总 #
364276次浏览 2433人参与
# 参加过提前批的机械人,你们还参加秋招么 #
124829次浏览 1700人参与
# 研究所笔面经互助 #
132375次浏览 588人参与
# 牛客AI文生图 #
31399次浏览 318人参与
查看14道真题和解析