首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
[问答题]
场景:
现有一个非常大的文本文件 page_views.log(远大于内存大小)存储在HDFS上,每行记录是一条网页访问日志,格式为:timestamp, user_id, page_id, action
需求:
统计每个页面的总访问次数(PV),并输出访问次数最高的Top 100页面。
要求:
任选一种大数据框架(如 Spark, Flink, MapReduce) 写出核心代码或伪代码。
简要解释你的实现步骤。
添加笔记
求解答(0)
邀请回答
收藏(3)
分享
纠错
0个回答
添加回答
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
难度:
0条回答
3收藏
58浏览
热门推荐
相关试题
《通信工程安全生产手册v1.0》中...
FTTX
评论
(1)
某工业传感器系统采用差分运算放大器...
模拟电路
评论
(1)
在16nm FinFET工艺中,信...
STA
评论
(1)
以下代码中,关于Java内存模型(...
Java
评论
(1)
以下哪种技术允许同一个LLM在单次...
Agent
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题