快手本地生活数据研发二面0916
60分钟,收获较多。
40分钟怼实习
1.实习项目a的业务逻辑
2.项目a的复盘难点
3.项目a小文件治理
4.项目a维表用了哪些
5.项目a是星型模型和雪花模型
6.如何保障项目a数据质量
7.针对具体的应用层模型,说出项目a中的dqc配置
8.sla怎么预防告警的呢
9.项目b具体做了哪些
10.项目b用到的spark3函数
11.项目b如何归因
12.dwd产出晚原因和解决办法
13.主题域
20分钟手撕sql
Q:已知有个表t,其中字段:直播间id、user_id、status(in表示用户进来,out表示出去),ts(毫秒级别时间戳),
需要求出每个直播间用户人数的最大峰值peak和对应时刻ts。
14.讲讲代码逻辑:使用多个cte和sum() over()
15.使用sum全局排序开销很大,优化办法。
反问
15答案,答:你说的算法层次可以先不考虑,先考虑数据量,user_id可以先去掉,他算无效字段(当时忘记了,没使用user_id)
可以提升的点,面试官答:数仓建模为什么这样建模,情景考虑不深,只会应用缺少思考
作息,答:早10晚10(要避雷了,北京还早10晚10,雷上雷)
业务,答:团购