字节集团信息数据开发一面0922
70分钟
1.自我介绍
2.业务复盘和收获
3.spark的reduce阶段
4.核心表和拓展表的建设
5.模型的健康度
6.数据治理
7.应用层直接引用ods层会有什么问题?怎么解决?
8.对于spark的参数调优
9.对于数据倾斜,spark自身的优化有哪些
10.提到的AQE会对占比70%这种的极端数据倾斜做哪些处理
11.这个过程叫什么join
20分钟手撕
会话日志表(未按时间戳排序),两个字段:user_id,create_ts(时间戳),时间戳间隔小于30秒的为有效会话,超过30秒会认为是无效会话,如果是单个记录会认为是1秒的会话。请输出表,记录有效会话信息,user_id,keep_ts(会话时长),start_ts(开始时间),end_ts(结束时间)。
例子:
user_id,create_ts
1,1000
1,1010
1,1003
1,1070
2,1000
2,1005
输出:
user_id,keep_ts(会话时长),start_ts(开始时间),end_ts(结束时间)。
1,10,1000,1010
1,1,1070,1070
2,5,1000,1005