快手本地生活数据研发二面0916

60分钟,收获较多。

40分钟怼实习

1.实习项目a的业务逻辑

2.项目a的复盘难点

3.项目a小文件治理

4.项目a维表用了哪些

5.项目a是星型模型和雪花模型

6.如何保障项目a数据质量

7.针对具体的应用层模型,说出项目a中的dqc配置

8.sla怎么预防告警的呢

9.项目b具体做了哪些

10.项目b用到的spark3函数

11.项目b如何归因

12.dwd产出晚原因和解决办法

13.主题域

20分钟手撕sql

Q:已知有个表t,其中字段:直播间id、user_id、status(in表示用户进来,out表示出去),ts(毫秒级别时间戳),

需要求出每个直播间用户人数的最大峰值peak和对应时刻ts。

14.讲讲代码逻辑:使用多个cte和sum() over()

15.使用sum全局排序开销很大,优化办法。

反问

15答案,答:你说的算法层次可以先不考虑,先考虑数据量,user_id可以先去掉,他算无效字段(当时忘记了,没使用user_id)

可以提升的点,面试官答:数仓建模为什么这样建模,情景考虑不深,只会应用缺少思考

作息,答:早10晚10(要避雷了,北京还早10晚10,雷上雷)

业务,答:团购

全部评论

相关推荐

落贝贝:同学,瞅瞅我司,医疗独角兽,校招刚开,名额有限,先到先得,我的主页最新动态,绿灯直达,免笔试~
查看18道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务