一个云计算小公司面经:

1、介绍项目
2、spark的内存模型?sparkonyarn的两种部署方式?区别?
3、flink的任务调度过程?如何处理乱序数据?水印怎么定义怎么实现?最终迟到的数据要怎么处理?
4、jvm那一套、多线程那一套、如何自己设计一个hashmap?
5、问了一堆项目中具体问题和场景
6、100万条数据,内存很小只有1.5MB,要排序怎么办?能使用哪些排序方法?用哪种好?
7、何时发生内存泄漏(内存溢出OOM)?使用过什么工具观察过spark、flink任务执行时的内存运行情况?这两个框架内存溢出异常时分别是什么情况?
8、spark数据倾斜怎么办?使用sample算子的时候,三个参数分别代表什么含义?答数据抽取是否放回,打分值,随机数种子值。是否放回有什么区别?调用的什么算法?
#面经##大数据开发工程师##社招#
全部评论
问一下楼主,想转大数据开发,找个实习。是熟悉Hadoop还是Spark好呢?有哪些实践项目可以做吗
点赞 回复 分享
发布于 2020-03-05 02:29
点赞 回复 分享
发布于 2020-01-21 16:19

相关推荐

当年还在美团那个倒霉的 Peppr 团队工作时,我一直有个疑问:这群人每天到底在自嗨什么。每次开会一堆人围着一堆“看起来很高级”的文档转,模板统一、名词复杂、页数感人,每一页都在暗示一件事:“你不懂,是因为你不专业。”但现实是——代码照样写在 💩 山上,该出问题还是会出问题,这真的很逗,系统一出问题,文档的唯一作用就是证明:“我们当初确实认真写过文档。”所以本质区别到底是什么?是代码质量提升了,还是大家在精神层面完成了一次“工程师 cosplay”?有句话说得好潮水退去才知道谁在裸泳。还记得当时的马哥、明哥(图 1 左)最爱反复强调一句话:“所有场景一定要想到。”、“这个场景为什么没考虑到?”不过他们这些话我是真的听进去了。不然我也不会在一年多前就说:这个项目活不过两年。顺带一提,那段时间还有个固定节目。每次下楼,总能听见我明哥在吐槽不同的人。我从他身后绕过去,经常能听到他一边抽烟一边说:“xx 这小子太坑了,回头我一定要跟马哥说说。”于是深谙人情世故但真不会抽烟的我也会从口袋掏出一支低尼古丁含量的烟给自己点上,假意自己什么都没听到什么都不知道,只是来抽烟的。后来我才明白,这可能也是团队文化的一部分:问题永远在别人身上,而我们,永远在复盘里😂。
秋招白月光
点赞 评论 收藏
分享
评论
4
25
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务