#hive##优化Hive配置
设置hive.merge.mapfiles和hive.merge.mapredfiles为true
调整hive.merge.size.per.task和hive.merge.size.smallfiles.avgsize参数
使用更大的hive thrift socket time out
数据处理优化
减少数据倾斜,避免全表扫描
避免笛卡尔积产生,减少不必要的计算
分区粒度设计更细,减少后续任务处理数据量
JVM重用与优化
开启JVM重用,特别是在处理小文件或Task数量多的情况下
Job执行模式调整
将Job交给Yarn执行,以提高效率
SQL查询优化
不要使用MapReduce进行查询
避免在SQL字符串中配对操作
使用Parquet或ORC格式存储数据,提高读写速度
数据导入策略
确保Hive采取读时模式(Schema On Read),以提高导入速度
解决特定问题
对于map阶段缓慢,考虑开启map端聚合等优化措施
解决任务执行进度卡在99%的问题,通过调整Counters平均值来优化
设置hive.merge.mapfiles和hive.merge.mapredfiles为true
调整hive.merge.size.per.task和hive.merge.size.smallfiles.avgsize参数
使用更大的hive thrift socket time out
数据处理优化
减少数据倾斜,避免全表扫描
避免笛卡尔积产生,减少不必要的计算
分区粒度设计更细,减少后续任务处理数据量
JVM重用与优化
开启JVM重用,特别是在处理小文件或Task数量多的情况下
Job执行模式调整
将Job交给Yarn执行,以提高效率
SQL查询优化
不要使用MapReduce进行查询
避免在SQL字符串中配对操作
使用Parquet或ORC格式存储数据,提高读写速度
数据导入策略
确保Hive采取读时模式(Schema On Read),以提高导入速度
解决特定问题
对于map阶段缓慢,考虑开启map端聚合等优化措施
解决任务执行进度卡在99%的问题,通过调整Counters平均值来优化
全部评论
相关推荐
沉淀小子:能力就是大于title的,支持楼主。你的室友吃方面你还得跟他学 点赞 评论 收藏
分享
04-03 10:26
中国矿业大学 Java 二十岁的编程男神王大...:兄弟,到岗时间你说的多少呀,我们导师只能要求六月走,感觉说六月会不会给挂了offer
查看4道真题和解析 点赞 评论 收藏
分享