这是一面面试官 问我的面试题,我发来交流一下

说有一个网站的日志文件,里面存放有许多IP(数量在1亿个以上),现在让用统计一下哪个IP访问的次数最多。(这个阿里hadoop,Map-Reduce方面的面试题)#阿里巴巴#
全部评论
这属于典型的top k问题吧,海量数据处理 先取余映射成好多段,然后hashmap 统计每段top1 ,最后来一次堆排。 分治思想
点赞 回复 分享
发布于 2015-08-29 22:35
1. 内存如果装得下,partation 2、内存装不下,双层桶
点赞 回复 分享
发布于 2015-09-14 20:15
分而治之,
点赞 回复 分享
发布于 2015-08-29 22:55

相关推荐

爱吃肉的伊登在写日记:好棒,27届简历能做成这个样子,但是第一个项目感觉cover住难度还是不小的,特别是二面的时候肯定要对分布式系统设计这一块儿有高出正常面试者的水平才行
点赞 评论 收藏
分享
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务