腾讯 数据工程一面

1. 自我介绍
2. 用Hive还是Spark,比较了解哪个
3. spark问题定位流程,以及解决方法
4. 现在有一个任务跑的很慢,你如何去定位
5. 介绍一下广播和Shuffle的区别,以及Shuffle为什么会比广播慢?
你这里面之前说到的大部分都是在数据传输上,包括涉涉及到一些网络会导致它传数据量大比较慢嘛。
6. Shuffle将各个节点的数据传输到另一个节点之后,会做什么操作呢?
7. 小文件导致任务运行缓慢,是在Spark读的环节还是哪个环节?
8. 用过二级分区吗?用Spark写Hive二级分区时有没有遇到过什么问题?
9. flink的滑动窗口,以滑动窗口为例子啊,就是每5分钟统计过去一小时的那个行为流水,100万一分钟的,然后你5分钟去输做这种滑动窗口所计算的时候,怎么去预估它可能会产生多大的输出,以及计算量。
10. flink 的就它发完了,它在重写的时候有个问题,我想问一下。它能基于checkpoint,我们可能说是checkpoint来重启嘛。那我数据从kafka里面消费的时候,我们可以某个精确到某一秒的时间点,能回溯对应的数据吗?
11. 那有没有哪里有性能问题?换一种更好的方式写的话,你会怎么写?
12. 如何优化你写的这两个sql
13. 这两段sql在spark里面是如何运行的
全部评论
哪个事业群呀
点赞 回复 分享
发布于 昨天 16:46 广东
没有写算法吗佬
点赞 回复 分享
发布于 昨天 12:21 美国

相关推荐

评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务