大数据开发学习记录帖 Day9
【事宜】今天主要学习了MapReduce的Shuffle机制,了解了Partitioner和Combiner的作用和原理,如何实现排序等等。
【笔记】
1. Partitioner是Hadoop的分区器对象,给Map阶段的输出数据选择分区。默认的分区对象,分区规则需要了解(源码)。
2. 自定义分区对象的流程, ReduceTask数目和分区数的关系(源码)
3. 排序的实现(2种方法)
4. 获取比较器对象的规则(源码)
5. Combiner的作用:提升MR程序的运行效率,减轻ReduceTask的压力,减少IO的开销。
【力扣】leetcode总题数:177
【感想】冷
【事宜】今天主要学习了MapReduce的Shuffle机制,了解了Partitioner和Combiner的作用和原理,如何实现排序等等。
【笔记】
1. Partitioner是Hadoop的分区器对象,给Map阶段的输出数据选择分区。默认的分区对象,分区规则需要了解(源码)。
2. 自定义分区对象的流程, ReduceTask数目和分区数的关系(源码)
3. 排序的实现(2种方法)
4. 获取比较器对象的规则(源码)
5. Combiner的作用:提升MR程序的运行效率,减轻ReduceTask的压力,减少IO的开销。
【力扣】leetcode总题数:177
【感想】冷
全部评论
相关推荐
吴offer选手:这工位太大了

点赞 评论 收藏
分享