数据倾斜都有哪些原因?

#hive#数据倾斜都有哪些原因?分别从spark、hive的角度分析。
1、spark中的数据倾斜:包括spark streaming和sparkSQL。
主要表现为:
1)executor lost,OOM.shuffle 过程出错;
2)Driver OOM;
3)单个executor执行时间特别久,整个仍然任务卡在某个阶段不能结束;
4)正常运行的任务突然失败。
2、hive中常见的数据倾斜:
1)key分布不均衡
2)业务问题后者业务数据本身的问题,某些数据比较集中
3)建表的时候考虑不周
4)某些sql语句本身就有数据倾斜,例如:
(1)大表join小表:其实小表的key集中,分发到某一个或者几个reduce上的数据远远高于平均值
(2)大表join大表:空值或无意义值:如果缺失的项很多,在做join时这些空值就会非常集中,拖累进度。
(3)group by: group by的时候维度过小,某值的数量过多,处理某值的reduce非常耗时间。
(4)Count distinct:某特殊值过多,处理此特殊值的reduce耗时。
3、解决思路:
1)业务逻辑方面:
  从业务逻辑层面来优化数据倾斜(比如两个城市突然做推广活动,导致两个城市的数据猛烈增长100000%,其余的城市的数据量不变的情况下,然后对不同的城市做group的数据统计,这时久会产生数据倾斜。如果我们这时对两个城市单独做count,可能用到两次MR,第一次是打散计算,第二次则是聚合,完成之后再和其他城市做最后的整合)
2)程序方面:
可以先group by, 再在外面套一层count
3)调参
4)从业务和数据上解决数据倾斜

#大数据##spark#
全部评论
非常有帮助
点赞 回复 分享
发布于 2023-02-23 07:45 北京

相关推荐

2025-12-06 01:10
已编辑
哈尔滨工程大学 Java
一面问的真细,二面不知为啥变双机位。9.29快手主站平时怎么学习 AI 的,国内外知名大模型,实习公司都用的什么大模型,怎么评估效果的java池化思想,线程池构造方法的核心参数,线程池中阻塞队列注意事项,submit方法参数和执行逻辑,shutdown和shutdownnow,核心线程允许过期吗threadlocal底层,为什么key是弱引用,key回收了再get或者set这个value会怎样aqs,如何保证公平性java代理java堆划分,新生代还有别的晋升老年代的情况吗,什么时候触发gc,gc失败抛什么异常,如何排查oom,导出dump命令redis数据结构,哪个底层是跳表,和其他数据结构对比布隆过滤器会出现大key问题吗,你咋实现的布隆过滤器你怎么实现redis分布式锁,可重入,续期聚簇索引非聚簇索引select语句会加锁吗,怎么实现的不加锁undolog redolog binlog怎么能让select加锁,update这个范围加的什么锁,update一条呢手撕简单01背包,接雨水10.10快手主站意图识别用的哪个大模型,走到意图和rag的比例,faq是点击的吗自然语言怎么识别的gap一年干啥了,转正怎么样没跟组里提意向吗,研究生研究方向是传统算法吗,会大模型微调吗注册场景为什么用布隆过滤器,原理分布式锁底层的key怎么拼的,value里是什么redis持久化zset底层mysql索引结构,一个表三个字段有主键唯一索引和没索引的字段会有几个b+树,聚簇索引非聚簇索引存的啥无手撕
点赞 评论 收藏
分享
评论
7
27
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务