[问答题]
场景:
    现有一个非常大的文本文件 page_views.log(远大于内存大小)存储在HDFS上,每行记录是一条网页访问日志,格式为:timestamp, user_id, page_id, action
需求:
    统计每个页面的总访问次数(PV),并输出访问次数最高的Top 100页面。

要求:
    任选一种大数据框架(如 Spark, Flink, MapReduce) 写出核心代码或伪代码。
    简要解释你的实现步骤。

这道题你会答吗?花几分钟告诉大家答案吧!