关注
1. HashPartitioner 是默认的分区器,也可以用别的, 比如TotalOrderPartitioner, 也可以自定义开发。
第一个问题, 先回答为什么要分区 就是数据shuffle过程中的一种打散策略。
Hash散列化是最容易想到的。
2. 在MR当中会用到多次排序过程 特别是map输出到内存再溢写到磁盘时会产生大量的临时文件,这些小文件是不能直接交给Reducer处理的,而要进行一个合并的过程, 这个过程是带着map-key进行操作的 所以要用到归并排序。 在环形缓冲的内存区 使用快排, 原因我还没想到。
(https://blog.csdn.net/u010737756/article/details/114198358 )
3. 先定义和回顾数据倾斜的概念, 然后再思考join这个过程的实现 (reduce把相同key分组做笛卡尔积) 如果大表小表的差异巨大, 表现为小表的数据量比较少但key却比较集中,导致分发到某一个或几个reduce上的数据比其他reduce多很多,易造成数据倾斜。 常常会采用mapjoin 优化这类问题
查看原帖
5 评论
相关推荐
点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 你以为的实习VS真实的实习 #
164843次浏览 918人参与
# 妈妈治愈了你哪些脆皮时刻 #
51832次浏览 414人参与
# 我的实习日记 #
4202707次浏览 33434人参与
# 第一次找实习,我建议__ #
92382次浏览 940人参与
# 文远知行求职进展汇总 #
7297次浏览 43人参与
# OC/开奖 #
459528次浏览 2338人参与
# 机械笔面试考察这些知识点 #
23863次浏览 172人参与
# 从mentor身上学到了__ #
69357次浏览 957人参与
# 你觉得mentor喜欢什么样的实习生 #
65777次浏览 1099人参与
# 实习的内耗时刻 #
247365次浏览 1677人参与
# 面试线索爆料 #
138873次浏览 718人参与
# 硬件/芯片校招攻略 #
22347次浏览 309人参与
# 当你面对裁员会如何? #
423114次浏览 3098人参与
# 工作两年想退休了 #
287432次浏览 2093人参与
# 离家近房租贵VS离家远但房租低,怎么选 #
23835次浏览 154人参与
# 薪资一样,你会选择去大厂还是小公司 #
38529次浏览 141人参与
# 数字马力求职进展汇总 #
364276次浏览 2433人参与
# 参加过提前批的机械人,你们还参加秋招么 #
124829次浏览 1700人参与
# 研究所笔面经互助 #
132375次浏览 588人参与
# 牛客AI文生图 #
31399次浏览 318人参与
查看12道真题和解析