百度大数据开发校招一面60min
1.实习介绍
2.介绍-下spark的内存模型?
3.动态内存管理中存储内存和执行内存的区别?
4.对堆外内存有了解吗?
5.有了解过oom的几种类型吗?
6.治理过数据吗?举个具体的优化案例?
7.除了提高shuffle并发,还有什么方法能优化?
8.平时在公司平台上使用的大数据组件有哪些?
9.spark是完全基于内存吗?
10.spark的几种join有了解吗?介绍一下?
11.sort join和hash join的shuffle区别?
12除了join,还有哪些操作会引起shuffle?
13.spark shuffle过程中有sort和没有sort的区别?
14.熟悉非等值连接吗?
15.sql题:求次日、三日、七日留存率
16.如果是日增量的分区表数据量很大,如何进一步处理?
16.需要用distinct吗?代码能否优化?
17.反问环节
2.介绍-下spark的内存模型?
3.动态内存管理中存储内存和执行内存的区别?
4.对堆外内存有了解吗?
5.有了解过oom的几种类型吗?
6.治理过数据吗?举个具体的优化案例?
7.除了提高shuffle并发,还有什么方法能优化?
8.平时在公司平台上使用的大数据组件有哪些?
9.spark是完全基于内存吗?
10.spark的几种join有了解吗?介绍一下?
11.sort join和hash join的shuffle区别?
12除了join,还有哪些操作会引起shuffle?
13.spark shuffle过程中有sort和没有sort的区别?
14.熟悉非等值连接吗?
15.sql题:求次日、三日、七日留存率
16.如果是日增量的分区表数据量很大,如何进一步处理?
16.需要用distinct吗?代码能否优化?
17.反问环节
全部评论
没有手撕,还以为大厂都有手撕
这么晚面试啊
相关推荐
2025-12-28 13:23
中南大学 Java 小肥罗:合格的产出,是写明白你做了啥,掌握了啥,解决了什么困难,怎么解决的。做啥不是你能决定的,所以表达才关键。牛客上有一篇教“偷”产出的可以看看,或许对你有帮助。
点赞 评论 收藏
分享
2025-12-25 16:41
浙江师范大学 前端工程师 点赞 评论 收藏
分享
查看2道真题和解析