字节集团信息数据开发一面0922

70分钟

1.自我介绍

2.业务复盘和收获

3.spark的reduce阶段

4.核心表和拓展表的建设

5.模型的健康度

6.数据治理

7.应用层直接引用ods层会有什么问题?怎么解决?

8.对于spark的参数调优

9.对于数据倾斜,spark自身的优化有哪些

10.提到的AQE会对占比70%这种的极端数据倾斜做哪些处理

11.这个过程叫什么join

20分钟手撕

会话日志表(未按时间戳排序),两个字段:user_id,create_ts(时间戳),时间戳间隔小于30秒的为有效会话,超过30秒会认为是无效会话,如果是单个记录会认为是1秒的会话。请输出表,记录有效会话信息,user_id,keep_ts(会话时长),start_ts(开始时间),end_ts(结束时间)。

例子:

user_id,create_ts

1,1000

1,1010

1,1003

1,1070

2,1000

2,1005

输出:

user_id,keep_ts(会话时长),start_ts(开始时间),end_ts(结束时间)。

1,10,1000,1010

1,1,1070,1070

2,5,1000,1005

全部评论
请问是base哪里的
点赞 回复 分享
发布于 昨天 16:27 江苏

相关推荐

评论
1
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务