字节Data大数据开发暑期实习面经

一面3.11
自我介绍
Spark SQL
Spark AQE
spark和mr的区别
宽窄依赖 和 会触发宽窄依赖的算子
Hadoop组件
HDFS读写流程
数仓分层
两个建模理论
窗口函数的范围
三个排序聚合函数
SQL题

二面3.14
自我介绍
Hive和Spark的区别
数仓分层
算法题
最大利润买卖股票 买卖一次和无限买卖
你的优点缺点

三面3.19
算法题
有序数组中求某个数出现的次数

讲讲你自学的知识
最近有看过哪些技术类书籍
聊聊书中不好理解的部分
为什么想做数仓
成绩咋样
平时喜欢干什么
未来的学习计划

HR面3.25
当天下午发offer

一面录音没录上,靠着记忆写的。感觉字节hc还是挺多的。
全部评论
佬能捞我进去嘛
3 回复 分享
发布于 04-17 16:34 湖南
佬是是字节哪个部门
1 回复 分享
发布于 04-11 01:24 江苏
请问大佬算法题是本地用acm模式写嘛
1 回复 分享
发布于 03-31 09:19 广东
好厉害
点赞 回复 分享
发布于 03-31 09:18 广东

相关推荐

09-09 20:08
产品经理
📍 公司:虾皮(Shopee)💼 岗位:大数据开发工程师📅 面试时间线:7.30 一面8.4 二面8.8 收到感谢信(未通过)面试问题记录请介绍你实习中负责的数仓数据流向及核心业务场景。详细说明一个具体业务模块,包括所用技术栈与上下游用户。针对问题2中的业务,如何处理并发场景下的“不可重复读”问题?大数据技术栈掌握情况?重点提问 Spark 的使用经验。如何优化实际 Spark 任务?请举例(如数据倾斜、Shuffle 优化)。描述快速排序算法的基本思想(穿插在数据倾斜优化中考察基础)。是否遇到过数据写错的情况?若数仓数据写入 Kafka 错误,如何修复?➤ 进一步追问:HDFS 数据已错,但 Kafka → 业务表已生效,如何保证一致性与服务可用性?若需从某个 Kafka Topic 消费数据并入库数仓,你会如何设计流程?(开放性问题)🙌 面试感悟虽为实习经历深挖,但问题贴近真实生产场景,尤其关注高可用、数据一致性、容错与恢复机制;对数据链路的闭环理解要求较高,需清楚“从出错到修复”的全链路影响;建议提前准备:✅ 典型数据倾斜解决方案(如加盐、两阶段聚合)✅ Kafka 重放与幂等写入策略✅ 数仓分层中各层容灾与回溯能力设计📌 C端业务对数据质量与系统稳定性要求高,面试更倾向考察“出问题后怎么办”的应急思维。
查看9道真题和解析
点赞 评论 收藏
分享
评论
17
59
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务