给xk一个offer吧

09-10 21:35 东北大学数据架构师发布于江西

关注

大数据岗快手一面分享

今天下午面了一场快手的数据研发岗，面试官非常温和，没有问什么很偏的问题，体感还不错。最近准备大数据岗面试的这段时间，发现市面上并没有很多关于大数据的面试资料，所以我从现在开始想尝试着把每次面试官问的问题汇总给大家，供大家做一些参考。

HDFS的存储机制是怎样的？

HDFS是为大规模数据（大文件，顺序读写）设计的分布式文件系统，它把文件切成块（block），分布存储在多台机器上，通过副本（replication）提供高可用。其中最主要就是NameNode 和 DataNode，NameNode 负责存储文件的元数据（block块的大小，block块存储在哪个DataNode负责的节点上等），DataNode就负责数据的存储与读写。

HDFS是怎样进行副本管理的？

存储block数据块时，HDFS会根本设定的参数（副本数）对block数据块进行复制，存多份。在复制时，由NameNode指定这些副本要存储在哪些DataNode上，并在这些DataNode之间构建数据管道（pipeline）进行传输数据。

副本放置的策略是使用机架感知策略，尽可能将数据分布在不同的机架。

DataNode会定时向NameNode发送heartbeat，表示此节点上的block数据块仍然可用。

HDFS是怎么对灾难进行恢复的？

（HA模式下）如果NameNode崩溃，Standby Namenode节点会立刻接管NameNode。

（非HA模式）hadoop集群会根据保存在fsimage中的日志信息再加上editsLog中的日志增量对NameNode进行恢复。

YARN是怎么对计算任务进行调度的（也就是怎么对这些计算任务对应的Application分配container资源的）？

（1）CapacitySchedduler（容量调度）：能保证各个计算任务的最低资源，队列间可以临时借用空余资源，也支持预占、保留等运维能力。

（2）FIFO：按提交顺序调度，先到先服务。存在先提交的作业会把后提交的作业阻塞的缺点。

（3）FairScheduler（公平调度）：支持按权重（weight）、队列、用户、标签配置公平策略。

Hive解决数据倾斜的常用方式有哪些？

要解决数据倾斜，最好先确定数据倾斜的类型，是Join导致的倾斜还是GroupBy/Aggregation导致的倾斜，又或者是数据表本身就是按少量值极端分布的倾斜。

如果是Join倾斜的话，

我们可能会使用skew join，Hive会对导致join倾斜的这些数据量很大的key做额外的reducer单独处理。

如果表是大小表的话，我们就可能会使用map join，把小表缓存起来（并广播），直接在map端完成两张表的join操作。

最后也是最常用的优化操作，就是Salt（打散、加盐）操作，把导致倾斜的这些key打散到多个子key上做局部计算，最后再汇总。

Spark有哪些Shuffle调优手段呢？

所有的Shuffle调优手段都是为了减少Shuffle的数据量和Shuffle的次数。

（1）我们会尽量让数据的计算操作在Map task中多执行，这样shuffle的数据就会减少，比如使用reducyBy/combineByKey做map端的提前聚合，尽量少使用groupbyKey。

（2如果计算任务的表的join任务并且有一侧表足够小时，我们就可以把这张小表广播到每个executor，直接做Map join。

Spark是怎么对数据的缓存和检查点策略是怎样的呢？

对于缓存，rdd可以调用cache()函数把RDD中的中间数据放到内存中，加速后续重复访问，缓存操作不会改变RDD的血缘，仅仅是对中间数据做个副本备份。

对于检查点，rdd可以调用checkpoint()函数将RDD中的数据持久化到磁盘中并截断RDD的血缘。当然，这个磁盘文件是由HDFS进行管理的。设置检查点可以避免重算代价过高。

这七个问题是比较考验hadoop和Spark的扎实基本功的，有些问题的答案可能不是很全面，但是在面试中进行临时回答还是足够的。期待快手的二面，到时我也会总结给大家。

【注意】：大家在看这些面试题的时候，一定要结合底层原理去看，可以用下面这MapReduce的经典案例去做分析。

#数据人offer决赛圈怎么选##数据人的面试交流地#

全部评论

推荐最新楼层

09-13 15:30

已编辑

杭州电子科技大学 Java

我的秋招好像结束了

bg：双非本，一段小厂实习，两段大厂实习秋招总结：海投但面试不多，投了快40家，约面率1/8，整个秋招过程还是挺顺利的，技术面通过率11/12，现在基本上没面试了，目前有2个意向，还有2个hr面结束在录用评估的，还有个转正意向没发，感觉最后应该都能拿到，应该会有个好的结果timeline：字节（hr7月底打电话问要不要面试，想着练一下手就接了）一面 8.6二面 8.11三面 8.13hr面 8.14意向 8.15虾皮一面 8.16二面 8.23hr面 8.30意向 9.9小红书一面 8.21 已挂快手一面 8.8 通过后感觉部门不太好让hr终止流程了后面重新投了个新部门一面 8.14二面 8.25三面 9.2hr面9.10目前在录用评估中菜鸟一面 8.26二面 9.1hr面 9.10目前在offer审批中腾讯转正答辩 9.4官网显示通过 9.11应该后续也没面试了，好像是可以开躺了希望大家秋招都有一个好结果，早早上岸

也许是天气_：姐你真是神，对了有自拍看吗

点赞评论收藏

分享

09-09 09:36

武汉外国语学校 Java

腾讯 CSIG 数据库研发一面

自我介绍技术的角度讲讲实习的项目，疑难点，存储策略实习经历的技术方面的挑战图数据库拷打项目分库分表的查询一致性如何保证分库分表数据如何打散的？Mysql相较于Redis的优势数据库的事务如何实现的实现一个hash join的算子（真不知道什么叫做算子。。。。） 如何设计实现归并排序是否看数据库的内部实现？

查看9道真题和解析

点赞评论收藏

分享

09-04 10:42

门头沟学院数据仓库

数据开发高频面试题

场景优化方面：怎样解决数据倾斜的，主题域的划分，数仓分层的作用；你是如何进行数据同步的大数据组件八股：了解到什么大数据组件，分别有什么作用；HDFS怎么读取文件；spark宽窄依赖sql方面：手撕或者口述连续登录思路；留存率问题；简单点就是两表连接

查看10道真题和解析

点赞评论收藏

分享

09-09 16:27

南京理工大学 C++

美团-2025秋招-大数据开发

最屈辱的一场面试，投的后端，可能当时选错了，后端变成二志愿了，大数据成一志愿了。面试题：一致性的理解CAP理论mysql的数据类型都说的很糟糕，手撕sql语句一行写不出来

查看3道真题和解析

点赞评论收藏

分享

09-14 11:00

已编辑

苏州大学数据仓库

终于有offer了

美团 留用失败后，在ld协调下立刻投了其他组的秋招timeline：9.1 一面+二面9.3 约hr面9.9 hr面9.11 oc

presbyterw...：我ld就没协调，羡慕了

我的秋招日记

点赞评论收藏

分享

评论

3

7

招聘动态

平安产险科技中心

2026届校园招聘

未岚大陆

2026届校园招聘

顺丰集团

2026届校园招聘

百融云创

2026届校园招聘

金溢科技

2026届校园招聘

FunPlus | 趣加游戏

2026届校园招聘

红杉中国

2026届联合校招

神州信息

2026届校园招聘

CATL宁德时代

2026届全球校园招聘

猿辅导小猿AI智能硬件

2026届校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 秋招报数：你投了多少家公司？ #

14595次浏览 137人参与

# 我的租房踩坑经历 #

166058次浏览 1119人参与

# 小红书校招直播来了 #

78059次浏览 462人参与

# 上班摸鱼，你都在干些什么？ #

2932次浏览 60人参与

# 深信服求职进展汇总 #

220990次浏览 1749人参与

# 秋招的嫡长offer #

13108次浏览 134人参与

# 你面试被问到过哪些不会的问题？ #

8409次浏览 363人参与

# 电网笔面经互助 #

44828次浏览 426人参与

# 考研对你找工作产生了哪些影响？ #

39702次浏览 226人参与

# 为什么国企只招应届生 #

196603次浏览 1209人参与

# 职场破冰，你们都聊什么？ #

1388次浏览 36人参与

# 聊聊这家公司值得去吗 #

537031次浏览 3584人参与

# 为了求职，我做过的疯狂伪装 #

2680次浏览 48人参与

# 机械笔面试考察这些知识点 #

8840次浏览 89人参与

# 当你面对裁员会如何？ #

303647次浏览 2559人参与

# 我的第一份实习怎么找的 #

152352次浏览 1471人参与

# 实习生应该准时下班吗 #

278675次浏览 1560人参与

# 你觉得早上几点上班合适？ #

80736次浏览 328人参与

# 嵌入式岗知多少 #

52642次浏览 522人参与

# 实习要如何选择和准备？ #

112871次浏览 1429人参与

# 秋招最大的收获是什么？ #

42600次浏览 348人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务