百度数据开发一面

1.自我介绍
2.介绍一下spark的内存模型?
3.动态内存管理中存储内存和执行内存的区别?
4.对堆外内存有了解吗?
5.有了解过oom的几种类型吗?
6.治理过数据吗?举个具体的优化案例?
7.除了提高shuffle并发,还有什么方法能优化?
8.平时在公司平台上使用的大数据组件有哪些?
9.spark是完全基于内存吗?
10.spark的几种join有了解吗?介绍一下?
11.sort join和hash join的shuffle区别?
12除了join,还有哪些操作会引起shuffle?
13.spark shuffle过程中有sort和没有sort的区别?
14.熟悉非等值连接吗?
15.sql题:求次日、三日、七日留存率。
16.如果是日增量的分区表数据量很大,如何进一步处理?
16.需要用distinct吗?代码能否优化?
17.反问环节。
全部评论

相关推荐

03-03 23:12
已编辑
北京邮电大学 Java
书海为家:我来给一点点小建议,因为毕竟还在学校不像工作几年的老鸟有丰富的项目经验,面试官在面试在校生的时候更关注咱们同学的做事逻辑和思路,所以最好在简历中描述下自己做过项目的完整过程,比如需求怎么来的,你对需求的解读,你想到的解决办法,遇到困难如何找人求助,最终项目做成了什么程度,你从中收获了哪些技能,你有什么感悟。
你的简历改到第几版了
点赞 评论 收藏
分享
评论
3
9
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务