大数据面试经验

#面试经验谈#
1 在介绍数仓模型时大概分下面介绍
数仓分层有哪些层,每一层的作用和构建原理,有哪些数据域和主题,对于域和主题是怎么划分的,数仓命名规范怎么定的,ads层主要是怎么设计的,数据怎么对外运用,数仓不能跨层依赖,dwd必须要有ods的所有字段,不能聚合操作,dws一般都是轻度聚合,比如用户和订单的聚合,ads通常不能直接来源dwd,只能从dim和dws来,dim层快照和非快照的区分
2 实时任务如何做到不延迟
我认为该这样答,首先确保source端消费能及时消费,要评估一下数据的QPS,然后中间计算阶段并行度要够,在规定时间需要计算完成,最后sink阶段需要及时落表,还有就是任务失败要从checkpoint拉起任务,并且消费kafka的偏移量要从最新的地方拉起,防止重复消费导致延迟,
全部评论

相关推荐

评论
2
6
分享

创作者周榜

更多
牛客网
牛客企业服务