字节大数据开发一面面试题(有点意思)
1.自我介绍,项目介绍
2.详细讲一下DWM、DWT、DWS这些层的具体职责和它们之间的数据流向
3.如果你的DWS层的某个指标突然不准了,你会怎么排查定位问题?你平常怎么做血缘追踪?用的是哪套工具
4.能不能举个具体业务场景,说一下是怎么解耦的,带来了哪些好处
5.ODS到DWS的过程中你如何保证数据质量
6. 在Hive上处理过什么级别的数据量?任务最长耗时是多少?怎么优化的
7.如果Hive一个任务执行特别慢,你会怎么排查问题
8.你说你熟悉Flink-sql,那你讲讲Flink是如何实现Exactly Once的?Flink的状态是怎么管理的
9.Kafka异常数据你是怎么处理的?如果某个topic滞后严重你会怎么排查?KafkaPartition多了或少了会对下游消费有什么影响
10.ClickHouse用在什么场景?说说你对MergeTree表引擎的理解
11.看你做过一些广告投放场景的建模,说说你理解的AIPL 模型和RFM模型分别适用于什么场景?一般是怎么落地这些模型的
12.比如我们是做某短视频平台运营的,现在需要建一个“高价值留存用户”标签体系,你会从哪些数据出发,怎么设计数仓和模型
13.CDP客户标签系统中,同一个用户在多个渠道行为不同,你会如何实现统一ID或统一标签体系?你会怎么处理冲突标签
14.如果业务突然要求增加一个“7天未激活用户”的标签,落在DWS层,你会从哪层开始设计?指标怎么算?
15.你提到用Sqoop导数据,有没有遇到导入失败或字段类型不匹配的问题?你是怎么做的
16.说一下对YARN 的资源调度的理解
17.DataX和Sqoop你更推荐哪个?在什么场景下你选DataX 而不是Sqoop
18.一个Hive脚本出现了数据倾斜你怎么定位哪个key倾斜
19. 有没有在Hive中实现过多级指标的联动,比如一个核心指标拆成多个维度指标
20.业务方经常临时变需求,比如说改了一个口径你要全量回溯一年数据,你的数仓怎么设计才能快速响应这种变更
21.有没有实际遇到某个数据对不上业务预期?你最后是怎么查出来是哪个环节出问题的?你是怎么和业务沟通的
22.Hive中处理 NULL 值有哪些方式,join时NULL导致数据丢失怎么避免
23.反问
#发面经攒人品#