三石大数据

昨天 09:54 门头沟学院大数据开发工程师发布于北京

关注

row_number数据倾斜的最佳解决方案

需求背景

来自京东外卖-数据研发二面

已知一张京东外卖骑手收入表 dws_jd_emp_salary_1d，存放各地区各骑手当日的外卖收入情况，计算各地区骑手当日收入前三的名单

BJ	001	300
BJ	002	100
BJ	003	200
BJ	004	150
BJ	005	120
BJ	006	500
BJ	007	380
BJ	008	300
SH	009	600
SH	010	360

SQL代码如下：

select 
  area_id,
  emp_id,
  salary
from 
(  
  select 
    area_id,
    emp_id,
    salary,
    row_number() over(partition by area_id order by salary desc) rk
  from dws_jd_emp_salary_1d
  where dt = '20250523'
) t
where rk <= 3

面试官继续问：真实场景中，这个代码运行的非常慢，如何优化？

问题分析

回答：如果真实场景运行的非常慢，那么我认为可能是由两种原因导致的

第一、员工收入表数据量非常大
第二、ROW_NUMBER按照area_id分组时发生了数据倾斜

综合来看，第一种原因的可能性并不是很大，外卖业务是一个新业务，同时数据源是一张天级别汇总表，数据量不会太大，那么我接下来主要说一下第二种情况如何解决

解决方案

-- 1、将同一个区域的员工分散到10个桶中分别进行排序，并且获取对应的前三名
with t1 as (
  select 
    area_id,
    emp_id,
    salary
  from 
  (  
    select 
      area_id,
      emp_id,
      salary,
      row_number() over(partition by area_id, round(rand()*10）order by salary desc) rk
    from dws_jd_emp_salary_1d
    where dt = '20250523'
  ) t
  where rk <= 3
)
-- 2、对同一个区域的员工再次进行排序，然后获取前三名即为所求
select 
  area_id,
  emp_id,
  salary
from 
(  
  select 
    area_id,
    emp_id,
    salary,
    row_number() over(partition by area_id order by salary desc) rk
  from t1
) t
where rk <= 3

思考：为什么这样就可以提升代码运行效率？

#数据人的面试交流地##京东美团大战，你怎么看？#

大数据开发面试笔记文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章：大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块；计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块；计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块；算法刷题篇包括大厂高频算法题、刷题速成计划等模块面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论

推荐最新楼层

昨天 20:50

已编辑

门头沟学院 Java

六月份还有机会吗？

投票

牛客已经是27的天下了吗？看到好多人都进大厂了感觉狠狠焦虑了。鼠鼠基本情况是27大二，然后java后端。两段小厂经历。鼠鼠现在各种大一些的公司投了没回应。小厂不想去大厂高攀不起简历直接筛中厂已读不回。目前小厂是只要面就大概率oc但是不太想去。六月份情况会好一些吗？还是沉淀一下暑假再待个中小厂沉淀一下顺便go瓦双修一下到快九月份再投？求指导   

牛客在线求职答疑中心找工作，你会甘心进小厂还是猛冲大厂

点赞评论收藏

分享

04-28 10:50

得物app_安卓开发工程师(准入职员工)

得物内推-得物内推码

给点经验 印象中的进度：6.14夜里投递 6.15中午电话沟通约面6.16面试（一个小时收到口头offer电话）6.20正式发offer 6.21入职 得物面经（其实没什么面经）因为得物岗位很多： 1.自我介绍的时候在在jd上贴合匹配度 2.表示出自信和想去的态度（因为毕竟现在实习生鸽公司的现象也很多，你在用你摇摆的态度去面试，其实mentor也会用这种态度对你） 3.对自己的简历要熟悉（因为确实会深挖一下） 投递Tips： 1.今年暑假真的很卷。可以适当降低自己的预期 2.投递一定要看哪家公司最近在招人！看最近，而不是看到什么岗位投什么。这样查看率会比较高（我感觉基本在***我的简历被查看的...

点赞评论收藏

分享

昨天 20:15

门头沟学院 Java

佬们，征求一下大家的意见

目前是大专大二，大数据专业的。只熟悉一个苍穹外卖的项目，想再一步提升自己的能力，该怎么去做？目前在刷八股文，力扣0题，别的不知道干嘛了，想做Java方向😮  

简历中的项目经历要怎么写投了多少份简历才上岸

点赞评论收藏

分享

04-27 17:51

游卡_运营_HR

游卡春招内推

很多同学进入了工作后，朋友圈就没有更新过了，所以大家在签约的时候一定要打听清楚！ 目前的重点还是先尽量投，尽量拿到！offer就和抢演唱会票一样，抢完第一波之后等回流了，大佬拿着再多意向书，最后也只能签一个，，越厉害的，拿的offer越多，且都是非线性增长的，只要上面的人释放完意向，紧接着链式反应，大家都会有有offer的入职游卡也有段时间了了，说说卡子的上班感受，毕竟如果我自己都感受不好，也没啥动力推荐大家来了大家可能更熟悉它的“三国杀”，在游戏圈里也算是个老牌子了。公司总部在上海闵行区虹桥国际商务广场，办公环境还不错，交通也挺方便。工作时间是早上9点到下午6点，双休，弹性工作制。福利方面，...

游卡公司福利 173人发布

点赞评论收藏

分享

今天 07:23

已编辑

安克创新 Anker_ATIT_后端开发(实习员工)

辱骂中伤嘲讽和看不起我的都会成为我的动力

骂吧骂吧，尽情辱骂我吧，尽管看不起我吧，我一定会证明自己……ps:时间会证明一切   

心爱的idea：这人怎么跟个跳梁小丑似的

我的实习日记牛客激励计划

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

华泰证券Fintech星战营

国央企投递合集（含实习）

26届投递链接合集

快手

25届补录+26届实习

26届实习内推合集

京东TGT

海信集团

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 我的求职总结 #

40329次浏览 622人参与

# 你收到了团子的OC了吗 #

1319093次浏览 11656人参与

# 一人一个landing小技巧 #

42013次浏览 736人参与

# 你觉得专业和学校哪个对薪资影响最大 #

56202次浏览 464人参与

# 机械人值得去的国央企 #

60861次浏览 414人参与

# 国企vs私企，怎么选？ #

21838次浏览 175人参与

# 应届生第一份工作最好去大厂吗？ #

17518次浏览 434人参与

# 考公还是考研，你怎么选？ #

25033次浏览 129人参与

# 选完offer后，你后悔学本专业吗 #

43742次浏览 227人参与

# 安利/避雷我的专业 #

72263次浏览 508人参与

# 大厂还是考编 #

87082次浏览 1314人参与

# 如果重来一次你还会读研吗 #

169782次浏览 1767人参与

# 怎么防止在试用期被辞退 #

119196次浏览 897人参与

# 辞职之后最想做的一件事 #

13632次浏览 177人参与

# 联想工作体验 #

24460次浏览 166人参与

# 薪资一样，你会选择去大厂还是小公司 #

18134次浏览 106人参与

# 工作中的卑微时刻 #

9742次浏览 58人参与

# 校招第一份工作你干了多久？ #

69058次浏览 338人参与

# 为了秋招你都做了哪些准备？ #

12259次浏览 183人参与

# 工作丧失热情的瞬间 #

278082次浏览 2337人参与

牛客网
牛客企业服务