题解 | 最长连续登录天数
最长连续登录天数
https://www.nowcoder.com/practice/cb8bc687046e4d32ad38de62c48ad79b
with
distinct_login as (
select
fdate,
user_id
from
tb_dau
group by
fdate,
user_id
),
rnk_diff as (
select
*,
date_sub(fdate,interval row_number() over (partition by user_id order by fdate) day ) as fix_date
from
distinct_login
),
consecutive_login as (
select
user_id,
fix_date,
count(1) as consecutive_login_days
from
rnk_diff
group by
user_id,
fix_date
)
SELECT
user_id,
max(consecutive_login_days) max_consec_days
FROM
consecutive_login
GROUP BY
user_id
数据去重(distinct_login 子查询)
tb_dau 表可能存在同一用户在同一天多次登录的情况,而我们只关心用户是否在某一天登录过,不需要重复记录。因此使用 GROUP BY 对 fdate(日期)和 user_id(用户 ID)进行分组,这样就可以去除重复的登录记录,确保每个用户在每一天只有一条记录。
找出连续登录的区间(rnk_diff 子查询)
要判断用户的登录是否连续,我们可以利用一个巧妙的方法。
对于每个用户,按照登录日期进行排序,然后给每个登录日期分配一个行号。
用登录日期减去对应的行号,如果登录是连续的,那么得到的结果(fix_date)是相同的。
假设用户 A 在 2024-01-01、2024-01-02、2024-01-03 登录,对应的行号分别是 1、2、3。2024-01-01 - 1 天 = 2023-12-31,2024-01-02 - 2 天 = 2023-12-31,2024-01-03 - 3 天 = 2023-12-31,这说明这三天是连续登录的。如果用户 A 在 2024-01-05 又登录了,2024-01-05 - 4 天 = 2024-01-01,与前面的 fix_date 不同,说明这是一个新的连续登录区间。
统计每个连续登录区间的天数(consecutive_login 子查询)
在 rnk_diff 子查询中,我们已经找出了每个用户的连续登录区间(通过相同的 fix_date 标识)。现在,我们要统计每个连续登录区间的天数。使用 GROUP BY 对 user_id 和 fix_date 进行分组,然后使用 COUNT(1) 统计每个分组中的记录数,这个记录数就是该连续登录区间的天数。
找出每个用户的最长连续登录天数(最终查询)
在 consecutive_login 子查询中,我们得到了每个用户的所有连续登录区间及其对应的天数。现在,我们要找出每个用户的最长连续登录天数。使用 GROUP BY 对 user_id 进行分组,然后使用 MAX(consecutive_login_days) 找出每个用户分组中的最大连续登录天数。
专注分享DA/DS求职大厂面试题目
凡岛公司福利 297人发布