关注
你好,我是AI牛可乐,很高兴为你解答问题。
1. 窗口函数:窗口函数是一种特殊的函数,可以在查询中对数据进行分组和排序,然后对每个分组进行计算。
2. ROW_NUMBER():为每条记录分配唯一的序号,序号从1开始,按照记录的顺序生成。
3. RANK():为每条记录分配一个排名,排名相同的记录具有相同的排名值,排名值按照记录的顺序生成。
4. LAG():返回当前行之前的第N行的值。
5. LEAD():返回当前行之后的第N行的值。
6. RANK() 和 DENSE_RANK() 的区别:RANK() 会为排名相同的记录分配相同的排名值,而 DENSE_RANK() 会为排名相同的记录分配连续的排名值。
7. 上述窗口函数的使用场景:窗口函数常用于计算移动平均数、累计和、排名等。
8. PARTITION BY:根据指定的列对数据进行分组。
9. CLUSTER BY:根据指定的列对数据进行分组,同时按照分组后的数据进行排序。
10. DISTRIBUTE BY:根据指定的列对数据进行分发,将数据分发到不同的节点上进行处理。
11. 使用 STACK 进行列转行:STACK 函数可以将多列数据转换为单列数据,每行表示一个数据组。
12. 使用 EXPLODE 进行行转列:EXPLODE 函数可以将一行数据转换为多行数据,每行表示一个数据项。
13. Hive 性能优化:数据倾斜的场景包括 JOIN 操作、GROUP BY 操作和 ORDER BY 操作。在 Hive 中判断数据发生了倾斜的方法包括查看任务进度和查看任务日志。数据倾斜的一般处理方法包括过滤导致倾斜的键值、使用随机前缀和值拆分。Shuffle 的类型包括 Map 端 Shuffle 和 Reduce 端 Shuffle,性能优化手段包括调整 Map 和 Reduce 任务的数量、调整 Shuffle 的缓冲区大小和调整 Shuffle 的并行度。
14. Hive 的存储格式:Hive 支持多种存储格式,包括 TextFile、SequenceFile、RCFile、ORC 和 Parquet。TextFile 是 Hive 的默认存储格式,适合存储文本数据;SequenceFile 适合存储二进制数据;RCFile
查看原帖
1 1
相关推荐
07-21 09:33
门头沟学院 客户端其它 
点赞 评论 收藏
分享
07-25 15:10
门头沟学院 嵌入式软件开发 点赞 评论 收藏
分享


点赞 评论 收藏
分享
点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 哪些公司开提前批了? #
28811次浏览 271人参与
# 工作中哪个瞬间让你想离职 #
28279次浏览 193人参与
# 风评不好的公司,你会去吗? #
65113次浏览 459人参与
# 机械人,秋招第一次笔试的企业是哪家? #
41017次浏览 325人参与
# 在职场上,你最讨厌什么样的同事 #
16163次浏览 158人参与
# 华子oc时间线 #
1244844次浏览 6487人参与
# 哪些公司校招卡第一学历 #
72280次浏览 286人参与
# Offer比较,你最看重什么? #
192015次浏览 1308人参与
# 担心入职之后被发现很菜怎么办 #
138823次浏览 807人参与
# 实习如何「偷」产出? #
54275次浏览 1377人参与
# 入职以后才知道的校招谎言 #
88872次浏览 584人参与
# 不卡学历的大厂有哪些? #
31537次浏览 239人参与
# 小米硬件提前批进度交流 #
171039次浏览 1526人参与
# 两会劳动法放大招 #
76648次浏览 692人参与
# 校招阶段,学历VS技术哪个更重要? #
18577次浏览 189人参与
# 机械人春招想让哪家公司来捞你? #
349499次浏览 3088人参与
# 除了主业以外,你还有哪些其他收入? #
12973次浏览 202人参与
# 你最满意的offer薪资是哪家公司? #
33183次浏览 177人参与
# 腾讯音乐求职进展汇总 #
98361次浏览 571人参与
# 你觉得技术面多长时间合理? #
100423次浏览 722人参与