2020-09-22 10:03 已编辑中山大学数据分析师

关注

【SQL】SQL窗口函数OVER()详解

该文章内容来源于https://zhuanlan.zhihu.com/p/80100130
作者：Zain Mei
仅用于个人学习，不对外公布。

写在最前：如果GROUP BY和窗口函数连用，那么窗口函数执行在GROUP BY之后，在ORDER BY之前。

本文分四个部分：
SUM(), MIN(), MAX(), AVG()等聚合函数的使用；
NTILE(), ROW_NUMBER(), RANK(), DENSE_RANK()的使用；
LAG(), LEAD(), FIRST_VALUE(), LAST_VALUE()的使用；
GROUPING SET(), WITH CUBE, WITH ROLLUP的使用。

表名：loan
字段名：name（贷款人的唯一标识），orderdate（贷款日期），amount（贷款金额）。

name    orderdate    amount
jack    2019/1/2    8000
tony    2019/8/8    6000
mart    2017/1/1    8000
neil    2018/4/11    12000
...    ...    ...

一、SUM(), MIN(), MAX(), AVG()等聚合函数，可以直接使用OVER()进行分区计算

SELECT *,
    /* 求前三次贷款的金额之和 */
    SUM(amount) OVER(PARTITION BY name 
                     ORDER BY orderdate
                     ROWS BETWEEN 3 PRECEDING AND CURRENT ROW) AS pv1,
    /* 求历史所有贷款 累加到下一次贷款 的金额之和 */
    SUM(amount) OVER(PARTITION BY name
                     ORDER BY orderdate
                     ROWS BETWEEN UNBOUNED PRECEDING AND 1 FOLLWING) AS pv2
FROM loan;

1. 限定窗口

使用窗口函数OVER()可以让聚合函数在限定的窗口中进行聚合。
窗口的限定语法（称为WINDOW子句）为：

ROWS BETWEEN &#39;时间点&#39; AND &#39;时间点&#39;;

时间点的使用方法是：

n PRECEDING ; /* 前n行 */
m PRECEDING ; /* 后m行 */
CURRENT ROW ; /* 当前行 */
UNBOUNDED PRECEDING ; /* 不限制具体行数，起始行 */

2. OVER()与GROUP BY的区别

根据某一字段GROUP BY之后，其余字段都必须按照此分区进行计算；
而OVER()使得单个字段可以进行分区。

二、NTILE(), ROW_NUMBER(), RANK(), DENSE_RANK()，可以为数据集新增加序列号

SELECT *,
    /* 按name将数据切分成10个区域，并返回属于第几个区 */
    NTILE(10) OVER(PARTITION BY name
                   ORDER BY orderdate) AS f1,
    /* 按照name分区，并按照orderdate进行排序，并返回排序编号 */
    ROW_NUMBER() OVER(PARTITION BY name
                      ORDER BY orderdate) AS f2,  
    RANK() OVER(PARTITION BY name
                ORDER BY orderdate) AS f3, 
    DENSE_RANK() OVER(PARTITION BY name
                      ORDER BY orderdate) AS f4
FROM loan;

1. NTILE()函数
指定“桶”的个数，对数据进行分桶，并且返回“桶”的序号。
给记录进行编号遵守两个原则：
第一，序号小的记录数不能小于序号大的记录数；
第二，所有桶的记录数要么相同，要么从某一个桶开始后面所有桶的记录数都与该桶相同。

2. 三种排序函数的区别
ROW_NUMBER()返回的是一组连续的序号；
RANK()对数值相同的记录标记相同的序号（并列），并且会跳过下一个序号；
DENSE_RANK()对数值相同的记录标记相同的序号（并列），但不会跳过下一个序号。

三、LAG(), LEAD(), FIRST_VALUE(), LAST_VALUE()返回一系列指定的点

SELECT *,
    /* 取上一笔贷款的日期，缺失默认值为NULL */
    LAG(orderdate, 1) OVER(PARTITION BY name
                           ORDER BY orderdate) AS last_dt,
    /* 取下一笔贷款的日期，缺失指定值为&#39;1970-1-1&#39; */
    LEAD(orderdate, 1, &#39;1970-1-1&#39;) over(PARTITION BY name
                                        ORDER BY orderdate) AS next_dt,
    /* 取最早一笔贷款的日期 */
    FIRST_VALUE(orderdate) over(PARTITION BY name
                                ORDER BY orderdate) AS first_dt,
    /* 取最新一笔贷款的日期 */
    LAST_VALUE(orderdate) over(PARTITION BY name
                               ORDER BY orderdate) AS last_dt
FROM loan;

LAG(字段名, n, [默认值])将数据向前错位n行；
LEAD(字段名, n, [默认值])将数据向后错位n行；
FIRST_VALUE(字段名)取当前分区的第一个值；
LAST_VALUE(字段名)取当前分区的最后一个值。

四、使用GROUPING SET(), WITH CUBE, WITH ROLLUP对GROUP BY进行限制

1. GROUPING SET操作

SELECT A, B, C
FROM loan
/* 分别按照月份和日进行分区 */
GROUP BY SUBSTRING(orderdate, 1, 7), orderdate
GROUPING SETS(SUBTRING(orderdate, 1, 7), orderdate)
ORDER BY GROUPING_ID;

GROUPING_ID是GROUPING SET操作后自动生成的。
它的作用是为了区分每条输出结果是属于哪个GROUP BY的数据，它是根据GROUP BY后面声明的顺序字段是否存在于当前GROUP BY中的一个二进制位组合数据。
GROUPING SETS()必须先做GROUP BY操作。

例：
(A, C)的GROUPING_ID为：
GROUPING_ID(A, C) = GROUPING(A)+GROUPING(B)+GROUPING(C) = 101(二进制，即5)

如果解释器发现GROUP BY A, C，但是SELECT A, B, C，那么运行时会将所有FROM表取出的结果复制一份，B都置为NULL，也就是在结果中，B都为NULL。

2. WITH CUBE操作

SELECT A, B, C
FROM loan
/* 分别按照月份和日进行分区 */
GROUP BY SUBSTRING(orderdate, 1, 7), orderdate
WITH CUBE
ORDER BY GROUPING_ID;

WITH CUBE和GROUP SET()的区别就是前者返回的是GROUP BY字段的笛卡尔积。

3. WITH ROLLUP操作

SELECT A, B, C
FROM loan
/* 分别按照月份和日进行分区 */
GROUP BY SUBSTRING(orderdate, 1, 7), orderdate
WITH ROLLUP
ORDER BY GROUPING_ID;

WITH ROLLUP则不会产生第二列为键的聚合结果。

4 字符串截取函数
SUBSTRING(string A, int start, int len)
注意SQL的索引从1开始。

全部评论

推荐最新楼层

今天 15:46

思摩尔国际（SMOORE）_研发工程师(准入职员工)

思摩尔内推，思摩尔内推码

思摩尔结构工程师一面一面技术面，面试官比较年轻，共23min1、面试官上来要求先说说你对思摩尔的了解2、自我介绍3、针对第一个项目的提问：项目背景？你承担的工作？你在项目中遇到的问题？你最大的收获？这些项目中设计的产品有在企业中应用过吗？没有应用的原因你觉得是什么？4、针对第二个项目的提问：在项目中成员有分歧怎么办？有人不配合怎么办？5、除了学校学习和项目科研的内容，你最近有学习过什么新技术吗？6、反问环节（最长的一次）面试官详细介绍了工作内容后续流程，还有总部的一轮面试思摩尔国际2026全球校园招聘倒计时❗还没拿到offer的同学抓紧时间⏰【急招岗位】①技术研发类硕士（24-30W）：产品企...

点赞评论收藏

12-11 14:04

已编辑

牛客创作者运营

✨年度最具影响力作者——请投出你心仪的一票

------------------------------------------------------------------------------------------------🚩评选规则：注册时间超过2年以上，综合今年优质内容数量、累计浏览pv等数据参考+运营团队内部评估👉最终评选：5人🎤快来为你心仪的作者投票吧~ ❗本次投票数据仅为最终评选工作提供重要参考，不作为最终结果，最终评选结果以官方核定为准~✨若上述作者中没有您心仪的人选，欢迎在评论区积极提名推荐！！

码农索隆：投我投我，到时候我出一期拆箱帖，看看礼物是啥

点赞评论收藏

12-04 18:07

已编辑

门头沟学院 Java

后端实习简历

花了小三位数修改的简历内容，但自己投递，仍是没有回复，是最近没有日常实习岗位了吗，八股文和力扣也在努力准备中，佬们帮忙看看，提提高见12.1🐮友们，手里有一个低代码实习项目，但我只改过前后端bug，不怎么熟悉，花时间搞懂一些简历代码和面试问题？还是重新写一个12306，感觉12306里面技术栈和Javaguide知识点有些很像，之前看了的知识点挺想做做12306看到底怎么个事儿12.4谢谢大家宝贵的意见，我重新修改完善了一些地方P2，争取把简历中内容早点弄明白

程序员花海_：实习写的看起来像项目了

点赞评论收藏

10-25 08:45

门头沟学院测试工程师

华为二面g，还是自己太菜了

二面手撕lru缓存，一出这个当时就觉得结束了

znzz1：lru撕不出能过机考？

点赞评论收藏

12-11 12:07

传音控股_技术运维工程师(准入职员工)

传音内推，传音内推码

三个月真的超级快一转眼就过去了 真的还挺享受干到自己相对喜欢的工作的这段时间，每天都过的挺充实的，部门氛围很好，工作的时候都比较严谨，但也很欢乐 而且超级幸运的是一个部门的人都很nice，天天一起吃饭偶尔摸鱼聊天，现在还真的有一点舍不得 公司福利什么的感觉也蛮好的，健身房咖啡机微波炉冰箱什么的都有，每天下午都有下午茶，一般是水果，偶尔会有酸辣粉冰粉薯片辣条什么的，反正是完全饿不着 公司基本上早九晚六午休一小时45分钟（其实是五点四十五下班）不要求加班，偶尔加一加可以换调休，晚上也有宵夜，我在项目里的时候着急出结果会加一两天（我三个月也就加了几天 没有食堂，楼下有重邮食堂，还有一些别的小餐馆，有...

传音控股公司福利 344人发布

点赞评论收藏

全站热榜

创作者周榜

正在热议