老欧讲职场

2024-02-03 20:51 字节跳动_大数据工程师

关注

大数据工程师面试题 - Spark 基础调优（一）

原则一：避免创建重复的RDD

通常来说，我们在开发一个Spark作业时，首先是基于某个数据源（比如Hive表或HDFS文件）创建一个初始的RDD；接着对这个RDD执行某个算子操作，然后得到下一个RDD；以此类推，循环往复，直到计算出最终我们需要的结果。在这个过程中，多个RDD会通过不同的算子操作（比如map、reduce等）串起来，这个“RDD串”，就是RDD lineage，也就是“RDD的血缘关系链”。

我们在开发过程中要注意：对于同一份数据，只应该创建一个RDD，不能创建多个RDD来代表同一份数据。

一个简单的例子：

错误的做法：

val rdd1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt")
rdd1.map(...)
val rdd2 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt")
rdd2.reduce(...)

正确的用法：

val rdd1 = sc.textFile("hdfs://192.168.0.1:9000/hello.txt")
rdd1.map(...)
rdd1.reduce(...)

原则二：尽可能复用同一个RDD

除了要避免在开发过程中对一份完全相同的数据创建多个RDD之外，在对不同的数据执行算子操作时还要尽可能地复用一个RDD。一个简单的例子：错误的做法：

JavaPairRDD<Long, String> rdd1 = ...
JavaRDD<String> rdd2 = rdd1.map(...)
rdd1.reduceByKey(...)
rdd2.map(...)

正确的做法：

JavaPairRDD<Long, String> rdd1 = ...
rdd1.reduceByKey(...)
rdd1.map(tuple._2...)

大家好，我是大数据欧老师，就职于互联网某头部大厂，超过 8 年的大数据从业经历。如果你有面试大数据工程师的打算，欢迎找我聊一聊！

#大数据##大数据工程师##大数据知识体系##大数据面试##大数据面经#

大数据欧老师 - 面试真题分享文章被收录于专栏

解决职场真实面试问题，分享同学真实成功案例，欢迎订阅关注！

全部评论

推荐最新楼层

05-10 22:31

杭州电子科技大学大数据开发工程师

换个角度说，不聊那些大家都知道的。

说个冷门的慷慨：某家做To B的中型公司，名字没什么人听过，但朋友去实习，第一天入职发了一张5000块的学习基金，说随便买书买课，不用报销不用审批，花完算公司的。朋友当时以为是陷阱，问HR有没有什么条件，HR说没有，就是希望你学东西。他在那待了四个月，书买了一堆，走的时候书带走了，公司说书是你的。他说那是他待过最舒服的地方。说个冷门的抠：某知名互联网公司，光环很大，但内部有个不成文的规定——下午茶只有转正员工才能拿，实习生站在旁边看着。不是什么大事，但就是那种感觉，让人清楚地意识到自己是外人。朋友说他在那实习三个月，每次下午茶时间都去厕所待一会儿，不是真的要上厕所，就是不想站在那里。慷慨和抠，...

你知道最慷慨和最抠的公司...

点赞评论收藏

分享

05-10 19:32

昆明理工大学 Java

AI 时代，我为什么还在苦练 SQL？｜一次线上紧急问题把我点醒

大家好，我是杭州某大厂中台后端研发。最近一次线上紧急排障，让我彻底想明白了一件事：AI 再强，程序员的 SQL 基本功永远不能丢。背景：周末深夜被线上问题叫醒某个周末晚上，我接到上游部门研发同事的电话：需要紧急查询一份线上数据。数据源跨不同实例业务表拆分出 8 张分表需要统计总数 + 关联两张表字段线上问题响应不能拖，我一边远程配合，一边凭脑子里的业务表结构手写 SQL。结果第二个组合查询第一次没跑通，同事 Review 后又改了一轮才真正可用。事后复盘，我很清楚：极限压力下，手写 SQL 的能力依然不够稳。灵魂一问：AI 都能写 SQL，我为什么还要练？现在确实是 AI 时代，只要描述需求、...

AI替代不了什么？

点赞评论收藏

分享

04-13 21:04

已编辑

门头沟学院 C++

三月底投到现在至今0约面，是哪里出了问题，是背景问题还是简历问题呢希望大佬指点一下已修改，希望大佬指点一下

梦想不为空：看着像ai写的简历，而且你就一个项目

听劝，我这个简历该怎么改...

点赞评论收藏

分享

04-10 17:55

重庆大学 Java

暑期意外的结束了

美团timeline一面 3.26二面 4.2oc 4.8offer 4.10其他：oppo 一面挂vivo 没动静携程 笔试挂哔哩哔哩 没动静感想感觉找实习运气也占不少的成分，本来0实习选手暑期只是准备随便投一下练一练，想着过会儿再找日常实习，没想到美团直接收留我了。感谢一面面试官，在我第一次面大厂的时候给了我自信

ZQFbest：感觉美团一堆KPI

点赞评论收藏

分享

05-10 22:21

杭州电子科技大学大数据开发工程师

简历上写"熟练使用AI工具"，面试官看了想笑

不是在嘲讽你，是真的没用。技能栏写"熟练使用ChatGPT、Copilot、Claude"这种，跟写"熟练使用百度"一个级别。面试官不会因为这行字对你产生任何兴趣，因为这说明不了任何问题。真正能体现AI能力的只有一个地方：项目经历。而且得写清楚三件事——用了什么、解决了什么、结果是什么。举几个能过的写法："基于RAG搭建团队内部文档问答系统，使用LangChain+Chroma，将信息检索时间从平均15分钟缩短至30秒，减少重复答疑约200次/月。""引入Claude辅助Code Review，提前拦截命名不规范、边界条件缺...

简历上如何体现你的“AI...

点赞评论收藏

分享

评论

1

5

招聘动态

完美世界

拍了拍你并邀请你投递

上海人工智能实验室

2026年春季校园招聘

27届校招宝典

快手

27届实习超多转正机会

海信集团

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届春招投递记录 #

16835次浏览 118人参与

# Vibe Coding 会干掉初级岗位吗？ #

51696次浏览 328人参与

# 我的求职总结 #

486653次浏览 6870人参与

# 美团秋招笔试 #

218931次浏览 1196人参与

# 27届实习投递记录 #

85333次浏览 906人参与

# 实习生应该准时下班吗 #

360548次浏览 1762人参与

# 职场吐槽大会 #

361441次浏览 2308人参与

# 面试常问题系列 #

311129次浏览 4803人参与

# 面试中的破防瞬间 #

1268869次浏览 11141人参与

# 我是XXX，请攻击我最薄弱的地方 #

96091次浏览 642人参与

# 拼多多工作体验 #

62799次浏览 439人参与

# 机械人还在等华为开奖吗？ #

342028次浏览 1655人参与

# 华为工作体验 #

332361次浏览 1439人参与

# 牛油的搬砖plog #

207612次浏览 1337人参与

# 什么专业适合考公 #

73479次浏览 476人参与

# AI Coding实战技巧 #

32075次浏览 400人参与

# 实习工作，你找得还顺利吗？ #

597375次浏览 6758人参与

# 求职遇到的搞笑事件 #

192929次浏览 962人参与

# 运营每日一题 #

147682次浏览 981人参与

# 小厂实习有必要去吗 #

95207次浏览 453人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务