虾皮一面
#发面经攒人品# #数据开发面经# #我的秋招日记# #数据人的面试交流地# #26届秋招投递记录#
数开岗,面的非常愉快

一开始先介绍了面试流程
1.自我介绍,挑实习经历讲一讲
2.代码手撕
3.八股考察
4.QA环节
直接介绍实习经历,没有自我介绍,讲了10分钟开始手撕。
1.数据是真实数据吗
2.来源系统是同一个系统吗
了解了一下主要做的项目数据来源
手撕:
问了下比较熟的编程语言(java)
连续子数组最大和多少
知道虾皮是干嘛的吗
SQL 求销量表,每个类别下售量TOP10的商品id
排名连续怎么做
衣服这一品类数据量特别多,导致数据倾斜怎么处理,只针对这一场景处理
(二次聚合)
给谁加随机值,怎么加,举例
还有别的方法吗,只针对这个情景
(压缩)
你知道spark有做这件事吗(压缩)
自己工作中会开这个配置吗
spark和flink哪个比较熟,或者其他组件哪个学的好,可以自己挑个熟悉的来讲,还是随便挑个问
1.flink状态后端知道哪些
2.讲一下checkpoint是在干嘛
3.如果状态后端是Rocksdb,checkpoint是怎么存的
4.一个算子是怎么知道自己该做checkpoint
5.从checkpoint恢复的时候,怎么做的
6.一个算子,怎么知道恢复时应该读哪份文件
7.看过checkpoint文件里面的结构吗
8.有遇到过从checkpoint恢复时失败,是由于算子找不到从哪恢复的问题吗
spark方面的问题
1.executor, 他的内存分成几部分?
堆内堆外内存区别
为什么会有堆内堆外内存
2.在shuffule的过程中,这几部分是否/如何参与其
中
3.节点0OM,我有哪些方法或者配置,去优化?
最后反问
总结,面试官全程态度超好,一直在说别着急,没问题,会有正反馈,体验最好的一次面试
数开岗,面的非常愉快
一开始先介绍了面试流程
1.自我介绍,挑实习经历讲一讲
2.代码手撕
3.八股考察
4.QA环节
直接介绍实习经历,没有自我介绍,讲了10分钟开始手撕。
1.数据是真实数据吗
2.来源系统是同一个系统吗
了解了一下主要做的项目数据来源
手撕:
问了下比较熟的编程语言(java)
连续子数组最大和多少
知道虾皮是干嘛的吗
SQL 求销量表,每个类别下售量TOP10的商品id
排名连续怎么做
衣服这一品类数据量特别多,导致数据倾斜怎么处理,只针对这一场景处理
(二次聚合)
给谁加随机值,怎么加,举例
还有别的方法吗,只针对这个情景
(压缩)
你知道spark有做这件事吗(压缩)
自己工作中会开这个配置吗
spark和flink哪个比较熟,或者其他组件哪个学的好,可以自己挑个熟悉的来讲,还是随便挑个问
1.flink状态后端知道哪些
2.讲一下checkpoint是在干嘛
3.如果状态后端是Rocksdb,checkpoint是怎么存的
4.一个算子是怎么知道自己该做checkpoint
5.从checkpoint恢复的时候,怎么做的
6.一个算子,怎么知道恢复时应该读哪份文件
7.看过checkpoint文件里面的结构吗
8.有遇到过从checkpoint恢复时失败,是由于算子找不到从哪恢复的问题吗
spark方面的问题
1.executor, 他的内存分成几部分?
堆内堆外内存区别
为什么会有堆内堆外内存
2.在shuffule的过程中,这几部分是否/如何参与其
中
3.节点0OM,我有哪些方法或者配置,去优化?
最后反问
总结,面试官全程态度超好,一直在说别着急,没问题,会有正反馈,体验最好的一次面试
全部评论
相关推荐
09-18 15:45
山东工商学院 大数据开发工程师 点赞 评论 收藏
分享

点赞 评论 收藏
分享