字节抖音大数据开发一面0905

bg 9本硕,某团暑期实习。
#我的秋招日记#记录一下80分钟:
5分钟
1. 自我介绍
35分钟
2. 了解实习经历
3. 针对实习项目,问数据层次怎么分层
4. 数据分层的作用
5. 针对具体实习项目,说明业务逻辑
6. 说明实习项目的“订单量”这个指标从源头到产出的ETL过程
7. 针对实习项目,复盘后最大的难点是什么
8. 复盘之后有什么收获
9. 你刚才说复盘收获是处理小文件,那么spark怎么处理小文件的?
10. 处理小文件有哪些方法,举例子
11. hive冷热分离的方法
12. 你刚才提到了组里有做ec存储,你了解ec存储吗
13. 暑期实习有什么感受,转正了吗
15分钟
14. 了解spark的semi join吗,他是干嘛的
15. 了解spark的AQE,这是什么
16. 你刚才讲AQE提到了广播机制,这个在spark中很重要,讲讲广播过程呢
17. 了解网络吗?讲讲三次握手和四次握手区别。
18. 了解数据结构吗?讲讲O(nlog n)的不稳定排序算法。
20分钟
两个编程题:
Q1.求开方:给定num=5.79,error=1e-8,求x使得abs(x^2-num)<error
19. 先讲讲思路吧,有什么思路:二分O(log n)
20. 刚开始没做出来,面试官提示了下细节
21. 后面二分法做出来了,面试官说那如果num小于1有什么变化呢
22. 面试官问还有什么方法吗:牛顿下山法
23. 公式写上去,但是面试官不关心公式,关心原理:会无限逼近
24. 如果是三次方四次方,牛顿下山怎么用呢,公式会变的
Q2.1TB的int类型数据怎么在512MB的虚拟机中求中位数
25. 已经70分钟了,没时间了,没要求写代码,只要讲思路:外部排序,归并思想
26. 面试官问还有什么方法吗:没想到了,但是后面搜了下有分布式排序,mapreduce排序等,估计想让我回答spark相关的,但是真不知道。
5分钟
反问
27. 反问业务、作息、感受:都是套话
28. 反问可以提升的点、我的不足:涉及到应聘者的评价,不能说。
29. 谢谢面试官勒,吃饭去咯。#牛客AI配图神器#
全部评论
感觉好难,大佬有结果了吗
1 回复 分享
发布于 09-10 09:26 澳大利亚
m
点赞 回复 分享
发布于 09-10 14:22 北京

相关推荐

09-09 20:08
产品经理
📍&nbsp;公司:虾皮(Shopee)💼&nbsp;岗位:大数据开发工程师📅&nbsp;面试时间线:7.30&nbsp;一面8.4&nbsp;二面8.8&nbsp;收到感谢信(未通过)面试问题记录请介绍你实习中负责的数仓数据流向及核心业务场景。详细说明一个具体业务模块,包括所用技术栈与上下游用户。针对问题2中的业务,如何处理并发场景下的“不可重复读”问题?大数据技术栈掌握情况?重点提问&nbsp;Spark&nbsp;的使用经验。如何优化实际&nbsp;Spark&nbsp;任务?请举例(如数据倾斜、Shuffle&nbsp;优化)。描述快速排序算法的基本思想(穿插在数据倾斜优化中考察基础)。是否遇到过数据写错的情况?若数仓数据写入&nbsp;Kafka&nbsp;错误,如何修复?➤&nbsp;进一步追问:HDFS&nbsp;数据已错,但&nbsp;Kafka&nbsp;→&nbsp;业务表已生效,如何保证一致性与服务可用性?若需从某个&nbsp;Kafka&nbsp;Topic&nbsp;消费数据并入库数仓,你会如何设计流程?(开放性问题)🙌&nbsp;面试感悟虽为实习经历深挖,但问题贴近真实生产场景,尤其关注高可用、数据一致性、容错与恢复机制;对数据链路的闭环理解要求较高,需清楚“从出错到修复”的全链路影响;建议提前准备:✅&nbsp;典型数据倾斜解决方案(如加盐、两阶段聚合)✅&nbsp;Kafka&nbsp;重放与幂等写入策略✅&nbsp;数仓分层中各层容灾与回溯能力设计📌&nbsp;C端业务对数据质量与系统稳定性要求高,面试更倾向考察“出问题后怎么办”的应急思维。
查看9道真题和解析
点赞 评论 收藏
分享
评论
3
10
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务