一个云计算小公司面经:

1、介绍项目
2、spark的内存模型?sparkonyarn的两种部署方式?区别?
3、flink的任务调度过程?如何处理乱序数据?水印怎么定义怎么实现?最终迟到的数据要怎么处理?
4、jvm那一套、多线程那一套、如何自己设计一个hashmap?
5、问了一堆项目中具体问题和场景
6、100万条数据,内存很小只有1.5MB,要排序怎么办?能使用哪些排序方法?用哪种好?
7、何时发生内存泄漏(内存溢出OOM)?使用过什么工具观察过spark、flink任务执行时的内存运行情况?这两个框架内存溢出异常时分别是什么情况?
8、spark数据倾斜怎么办?使用sample算子的时候,三个参数分别代表什么含义?答数据抽取是否放回,打分值,随机数种子值。是否放回有什么区别?调用的什么算法?
#面经##大数据开发工程师##社招#
全部评论
问一下楼主,想转大数据开发,找个实习。是熟悉Hadoop还是Spark好呢?有哪些实践项目可以做吗
点赞 回复 分享
发布于 2020-03-05 02:29
点赞 回复 分享
发布于 2020-01-21 16:19

相关推荐

钱嘛数字而已:拖拉机被发明出来之后,就不需要农民了吗?农民还是需要的,但不需要这么多了,另外对农民的要求也变高了,需要会开拖拉机。
点赞 评论 收藏
分享
03-24 17:57
门头沟学院 Java
yakuso:你这头像哈哈哈
点赞 评论 收藏
分享
评论
4
25
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务