字节大数据开发一面面试题(有点意思)

1.自我介绍,项目介绍

2.详细讲一下DWM、DWT、DWS这些层的具体职责和它们之间的数据流向

3.如果你的DWS层的某个指标突然不准了,你会怎么排查定位问题?你平常怎么做血缘追踪?用的是哪套工具

4.能不能举个具体业务场景,说一下是怎么解耦的,带来了哪些好处

5.ODS到DWS的过程中你如何保证数据质量

6. 在Hive上处理过什么级别的数据量?任务最长耗时是多少?怎么优化的

7.如果Hive一个任务执行特别慢,你会怎么排查问题

8.你说你熟悉Flink-sql,那你讲讲Flink是如何实现Exactly Once的?Flink的状态是怎么管理的

9.Kafka异常数据你是怎么处理的?如果某个topic滞后严重你会怎么排查?KafkaPartition多了或少了会对下游消费有什么影响

10.ClickHouse用在什么场景?说说你对MergeTree表引擎的理解

11.看你做过一些广告投放场景的建模,说说你理解的AIPL 模型和RFM模型分别适用于什么场景?一般是怎么落地这些模型的

12.比如我们是做某短视频平台运营的,现在需要建一个“高价值留存用户”标签体系,你会从哪些数据出发,怎么设计数仓和模型

13.CDP客户标签系统中,同一个用户在多个渠道行为不同,你会如何实现统一ID或统一标签体系?你会怎么处理冲突标签

14.如果业务突然要求增加一个“7天未激活用户”的标签,落在DWS层,你会从哪层开始设计?指标怎么算?

15.你提到用Sqoop导数据,有没有遇到导入失败或字段类型不匹配的问题?你是怎么做的

16.说一下对YARN 的资源调度的理解

17.DataX和Sqoop你更推荐哪个?在什么场景下你选DataX 而不是Sqoop

18.一个Hive脚本出现了数据倾斜你怎么定位哪个key倾斜

19. 有没有在Hive中实现过多级指标的联动,比如一个核心指标拆成多个维度指标

20.业务方经常临时变需求,比如说改了一个口径你要全量回溯一年数据,你的数仓怎么设计才能快速响应这种变更

21.有没有实际遇到某个数据对不上业务预期?你最后是怎么查出来是哪个环节出问题的?你是怎么和业务沟通的

22.Hive中处理 NULL 值有哪些方式,join时NULL导致数据丢失怎么避免

23.反问

#发面经攒人品#
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务