三石大数据

昨天 10:35 门头沟学院大数据开发工程师发布于北京

关注

一文详解Spark与MapReduce的区别【面试高频问题】

一句话说明两个计算框架之间的根本差异：Spark多个作业之间的数据通信是基于内存的，而Hadoop是基于磁盘的

参考答案如下：

MapReduce需要将计算的中间结果写入磁盘，然后还要读取磁盘，从而导致了频繁的磁盘IO；而Spark不需要将计算的中间结果写入磁盘，这得益于Spark的RDD弹性分布式数据集和DAG有向无环图，中间结果能够以RDD的形式存放在内存中，这样大大减少了磁盘IO。
MapReduce是多进程模型，每个task会运行在一个独立的JVM进程中，每次启动都需要重新申请资源，消耗了大量的时间；而Spark是多线程模型，每个executor会单独运行在一个JVM进程中，每个task则是运行在executor中的一个线程。
MapReduce在shuffle时需要花费大量时间排序，而spark在shuffle时如果选择基于hash的计算引擎，是不需要排序的，这样就会节省大量时间。

补充题：你是否熟悉Spark实现wordcount官方案例的代码？

一定要能够默写以下代码！！！

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCount {
  def main(args: Array[String]): Unit = {
  
    val sparkConf = new SparkConf().setMaster("local").setAppName("WordCount")
    val sc = new SparkContext(sparkConf)

    try {
      val lines: RDD[String] = sc.textFile("datas/*")
      val words: RDD[String] = lines.flatMap(_.split(" "))
      val wordsMap: RDD[(String, Int)] = words.map(word => (word, 1))
      val wordsReduce: RDD[(String, Int)] = wordsMap.reduceByKey(_ + _)
      val res: Array[(String, Int)] = wordsReduce.collect()
      res.foreach {
        case (word, count) =>
          println(s"$word: $count")
      }
    } finally {
      sc.stop()
    }
  }
}

#数据人的面试交流地#

大数据开发面试笔记文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章：大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块；计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块；计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块；算法刷题篇包括大厂高频算法题、刷题速成计划等模块面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论

推荐最新楼层

10-20 15:56

湖南大学安卓

我的秋招结束了，打牌开始了

秋招结束了，最新近况：腾讯    已发百度    已发阿里    已发字节    已发美团    已发小红书 已发B站     已发滴滴    已发华为    已发pdd    已发对不起，各位，秋招真的破防了，今年真的是gg了，“已投，已面，挂了”，辗转反侧，彻夜难眠……

叽里呱啦q：好打

羡慕打牌

秋招的破防瞬间

点赞评论收藏

分享

昨天 09:05

西南交通大学 golang

百度内推码百度内推码百度内推码百度内推码

百度校招内推开始了！ 内推码：IS9CAR 百度内推链接： https://talent.baidu.com/jobs/list?recommendCode=IS9CAR&recruitType=GRADUATE 欢迎大家投递我们的百度，有问题可以私聊我哟~ 填入内推码，完成投递，get内推绿色通道~我的内推码：IS9CAR 百度正在寻找有热情、有拼搏精神的人才，一起为打造更加智能化的未来而努力！  抓瓦面经，摘自优秀牛油 百度一面面经7.14 1.布隆过滤器使用场景 2.redis自增命令生成唯一id 3.雪花算法的实现 4.乐观锁解决超卖的逻辑 5.项目中下单部分的逻辑 6.如何实...

点赞评论收藏

分享

昨天 10:42

已编辑

重庆工信职业学院计调

书到用时方恨少

前辈！可以帮忙看看我的简历吗，感觉太差了。因为是专科很多企业都应聘不上学的是轨道运营管理，想着来牛客上找一下轻轨或者轨道类的工作，根本找不到

点赞评论收藏

分享

10-21 23:57

电子科技大学 Java

秋招结束大雪深埋我的本科

现在等一个shopee和网易的意向

stuN_：一般吧，我肯定比你早下班

点赞评论收藏

分享

09-28 21:38

门头沟学院

波克城市秋招数开一面

30min 1. 自我介绍2. 深挖项目 （ 简单聊了聊背景和价值3. 数仓建模的理念3. 慢sql的处理方法4. 数据倾斜的处理方法5. 目前进度如何无手撕反问：1. 业务2. 候选人要求感觉还是比较简单的，闲聊比较多

查看8道真题和解析

点赞评论收藏

分享

评论

点赞

1

招聘动态

联易融

2026届秋季校园招聘

杉川集团2026届校招

杉尖计划·与杉川一览群山

真格基金

被投企业秋季联合校招

瓴岳科技

2026届“登岳计划”校招启动

Garena

2026秋季校园招聘

新华三

2026秋招校园招聘

厦门银行

2026届秋季校园招聘

滴滴

2026届秋季校招

联想

2026届校园招聘

字节跳动

2026校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 怎么给家人解释你的工作？ #

11608次浏览 74人参与

# 应届生被毁约被毁意向了怎么办 #

46281次浏览 280人参与

# 快手技术岗信息交流阵地 #

3700次浏览 29人参与

# 你的mentor是什么样的人？ #

16513次浏览 110人参与

# 牛客周边新品开箱 #

10600次浏览 91人参与

# 帮我看看，领导说这话什么意思？ #

21368次浏览 98人参与

# 求职中的尴尬瞬间 #

4134次浏览 43人参与

# 牛友的志愿填报指南 #

35101次浏览 185人参与

# 国企还是互联网，你怎么选？ #

170401次浏览 1273人参与

# 牛客树洞，我想对你说 #

9549次浏览 99人参与

# 机械人集合！你是什么工程师？ #

20121次浏览 91人参与

# 如何KTV领导 #

72839次浏览 502人参与

# 大疆工作体验 #

18934次浏览 85人参与

# 今年形式下双非本找得到工作吗 #

237832次浏览 1433人参与

# 三一集团提前批进度交流 #

38553次浏览 225人参与

# 求职低谷期你是怎么度过的 #

13091次浏览 250人参与

# 26届秋招公司红黑榜 #

28522次浏览 116人参与

# 校招泡的最久的公司是哪家？ #

13214次浏览 82人参与

# 从哪些方向判断这个offer值不值得去？ #

17456次浏览 191人参与

# 得物app工作体验 #

28573次浏览 67人参与

# 大厂无回复，继续等待还是奔赴小厂 #

248430次浏览 1634人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务