Shopee 大数据开发暑期实习面经

📍 公司:虾皮(Shopee)

💼 岗位:大数据开发工程师

📅 面试时间线:

7.30 一面
8.4 二面
8.8 收到感谢信(未通过)
面试问题记录
请介绍你实习中负责的数仓数据流向及核心业务场景。
详细说明一个具体业务模块,包括所用技术栈与上下游用户。
针对问题2中的业务,如何处理并发场景下的“不可重复读”问题?
大数据技术栈掌握情况?重点提问 Spark 的使用经验。
如何优化实际 Spark 任务?请举例(如数据倾斜、Shuffle 优化)。
描述快速排序算法的基本思想(穿插在数据倾斜优化中考察基础)。
是否遇到过数据写错的情况?若数仓数据写入 Kafka 错误,如何修复?
➤ 进一步追问:HDFS 数据已错,但 Kafka → 业务表已生效,如何保证一致性与服务可用性?
若需从某个 Kafka Topic 消费数据并入库数仓,你会如何设计流程?(开放性问题)
🙌 面试感悟
虽为实习经历深挖,但问题贴近真实生产场景,尤其关注高可用、数据一致性、容错与恢复机制;
对数据链路的闭环理解要求较高,需清楚“从出错到修复”的全链路影响;
建议提前准备:
✅ 典型数据倾斜解决方案(如加盐、两阶段聚合)
✅ Kafka 重放与幂等写入策略
✅ 数仓分层中各层容灾与回溯能力设计
📌 C端业务对数据质量与系统稳定性要求高,面试更倾向考察“出问题后怎么办”的应急思维。

#发面经攒人品#
全部评论
这么复杂还没通过嘛 太哈人了
1 回复 分享
发布于 09-12 17:25 澳大利亚

相关推荐

bg 9本硕,某团暑期实习。记录一下80分钟:5分钟1. 自我介绍35分钟2. 了解实习经历3. 针对实习项目,问数据层次怎么分层4. 数据分层的作用5. 针对具体实习项目,说明业务逻辑6. 说明实习项目的“订单量”这个指标从源头到产出的ETL过程7. 针对实习项目,复盘后最大的难点是什么8. 复盘之后有什么收获9. 你刚才说复盘收获是处理小文件,那么spark怎么处理小文件的?10. 处理小文件有哪些方法,举例子11. hive冷热分离的方法12. 你刚才提到了组里有做ec存储,你了解ec存储吗13. 暑期实习有什么感受,转正了吗15分钟14. 了解spark的semi join吗,他是干嘛的15. 了解spark的AQE,这是什么16. 你刚才讲AQE提到了广播机制,这个在spark中很重要,讲讲广播过程呢17. 了解网络吗?讲讲三次握手和四次握手区别。18. 了解数据结构吗?讲讲O(nlog n)的不稳定排序算法。20分钟两个编程题:Q1.求开方:给定num=5.79,error=1e-8,求x使得abs(x^2-num)<error19. 先讲讲思路吧,有什么思路:二分O(log n)20. 刚开始没做出来,面试官提示了下细节21. 后面二分法做出来了,面试官说那如果num小于1有什么变化呢22. 面试官问还有什么方法吗:牛顿下山法23. 公式写上去,但是面试官不关心公式,关心原理:会无限逼近24. 如果是三次方四次方,牛顿下山怎么用呢,公式会变的Q2.1TB的int类型数据怎么在512MB的虚拟机中求中位数25. 已经70分钟了,没时间了,没要求写代码,只要讲思路:外部排序,归并思想26. 面试官问还有什么方法吗:没想到了,但是后面搜了下有分布式排序,mapreduce排序等,估计想让我回答spark相关的,但是真不知道。5分钟反问27. 反问业务、作息、感受:都是套话28. 反问可以提升的点、我的不足:涉及到应聘者的评价,不能说。29. 谢谢面试官勒,吃饭去咯。
查看26道真题和解析
点赞 评论 收藏
分享
评论
2
6
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务