关注
1) 把20亿个整数的大文件用hash函数分成20个小文件(根据hash函数的性质,同一个数不可能被hash到不同的小文件上),再比较这20个小文件各自的第一就能得到最终的结果
2) ... 对于每一个小文件,利用hash表进行遍历,找出重复的url; 或者对小文件中的数据进行排序看看是否出现重复的url
3) Top k问题:1. 把海量的数据分流到不同的机器上;对每一台机器来说;2. 如果分到的数据量还是很大(也就是说内存不够时),这时可再用hash函数把每台机器的分流文件拆分成更小的文件来处理。3. 处理每一个小文件时,可以用大小为k的小顶堆来求每个小文件的top k, 最后继续利用小顶堆/外排选出每台机器的top k, 再...选出最后的不同机器中的top k
4) 1. sql优化 2. 设置索引 3. 加缓存 4. 分库分表
查看原帖
点赞 1
相关推荐
点赞 评论 收藏
分享
05-28 18:09
门头沟学院 Java 点赞 评论 收藏
分享
05-27 18:16
安阳师范学院 Java 点赞 评论 收藏
分享
点赞 评论 收藏
分享
点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 写给毕业5年后的自己 #
4137次浏览 95人参与
# 毕业季等于分手季吗 #
14150次浏览 165人参与
# 华泰证券Fintech星战营 #
168284次浏览 191人参与
# 职场捅娄子大赛 #
318931次浏览 3260人参与
# 好好告别我的学生时代 #
42806次浏览 831人参与
# 华为求职进展汇总 #
4644739次浏览 28246人参与
# 海信求职进展汇总 #
64992次浏览 359人参与
# 机械制造岗投递时间线 #
22253次浏览 341人参与
# 晒一下我的毕业照 #
32457次浏览 354人参与
# 如何缓解求职过程中的焦虑? #
7429次浏览 96人参与
# 如果今天是你的last day,你会怎么度过? #
22697次浏览 197人参与
# HR问:你期望的薪资是多少?如何回答 #
40059次浏览 525人参与
# 当下环境,你会继续卷互联网,还是看其他行业机会 #
108266次浏览 782人参与
# 晒晒我司的端午福利 #
14854次浏览 99人参与
# 记录实习开销 #
26283次浏览 191人参与
# 如果重来一次,你还会学计算机吗 #
46867次浏览 417人参与
# 我想象的实习vs现实的实习 #
280307次浏览 2214人参与
# 上班苦还是上学苦呢? #
222813次浏览 1329人参与
# 工作两年想退休了 #
119909次浏览 1120人参与
# 视觉/交互/设计百问百答 #
43208次浏览 427人参与
# 实习生如何通过转正 #
84968次浏览 1326人参与