大数据开发面经

-- 我的论文相关、spark

1、网格怎么划分的
2、基于spark做的吗,使用了哪些算子?
这个转换类的:map、flatmap、mapPartitions、filter、reduceByKey
action: reduce、collect、count(eg分发到各个节点网格数目统计)
3、spark有哪些组件?组件之间怎么进行数据联通的?
回答了,master、DAG生成、依赖关系、worker等等。答得不是很好
4、yarn资源管理的工作机制
(简历自己写的给忘了)
5、yarn那些resouce manager、node manager 、application master、container角色?他们之间什么关系?每一个组件起的什么作用?
6、spark有哪些shuffle?什么场景下用哪些shuffle?
回答的hash shuffle和sort based shuffle。主要是中间文件太多。好像偏题了
7、spark中出现数据倾斜,怎么解决?
背的这个 https://blog.csdn.net/Aaron_ch/article/details/122224043
两阶段聚合没说清楚。

-- sql

1、班级表、学生表;统计每个班级的平均分
不需要考虑班级表left join学生表,只考虑学生表即可,班级表是一个迷惑条件。
我中间意识到好像不用班级表,但是有一个班级名称重复的情况,面试官赞同了。
面试官很好,还跟我讲了一下班级表是没用的。

-- java基础

1、线程安全保证的方式。答的四种关键字修饰 synchronized、volatile、atomic、final
2、讲一下synchronized和volatile区别。
没答上
3、共享屏幕写一下synchronized单例模式。
4、final、finally、finalize区别。
只说了final修饰的变量必须初始化,后面不能被赋值;其他没打上来┭┮﹏┭┮,java基础忘背了。。。
5、java线程池是什么,有哪些优势?
没答上
6、java8的lambda表达式是什么,说明一下优点、应用场景
只回答了lambda匿名函数,方便...
全部评论

相关推荐

刚刷到字节跳动官方发的消息,确实被这波阵仗吓了一跳。在大家还在纠结今年行情是不是又“寒冬”的时候,字节直接甩出了史上规模最大的转正实习计划——ByteIntern。咱们直接看几个最硬的数,别被花里胡哨的宣传词绕晕了。首先是“量大”。全球招7000多人是什么概念?这几乎是把很多中型互联网公司的总人数都给招进来了。最关键的是,这次的资源分配非常精准:研发岗给了4800多个Offer,占比直接超过六成。说白了,字节今年还是要死磕技术,尤其是产品和AI领域,这对于咱们写代码的同学来说,绝对是今年最厚的一块肥肉。其次是大家最关心的“转正率”。官方直接白纸黑字写了:整体转正率超过50%。这意味着只要你进去了,不划水、正常干,每两个人里就有一个能直接拿校招Offer。对于2027届(2026年9月到2027年8月毕业)的同学来说,这不仅是实习,这简直就是通往大厂的快捷通道。不过,我也得泼盆冷水。坑位多,不代表门槛低。字节的实习面试出了名的爱考算法和工程实操,尤其是今年重点倾斜AI方向,如果你简历里有和AI相关的项目,优势还是有的。而且,转正率50%也意味着剩下那50%的人是陪跑的,进去之后的考核压力肯定不小。一句话总结: 27届的兄弟们,别犹豫了。今年字节这是铁了心要抢提前批的人才,现在投递就是占坑。与其等到明年秋招去千军万马挤独木桥,不如现在进去先占个工位,把转正名额攥在手里。
喵_coding:别逗了 50%转正率 仔细想想 就是转正与不转正
字节7000实习来了,你...
点赞 评论 收藏
分享
03-11 23:33
已编辑
曲阜师范大学 后端工程师
牛客68808588...:果真开发过12306购票系统吗,这不是一眼就被看穿了
点赞 评论 收藏
分享
评论
14
55
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务