#hive##优化Hive配置
设置hive.merge.mapfiles和hive.merge.mapredfiles为true
调整hive.merge.size.per.task和hive.merge.size.smallfiles.avgsize参数
使用更大的hive thrift socket time out
数据处理优化
减少数据倾斜,避免全表扫描
避免笛卡尔积产生,减少不必要的计算
分区粒度设计更细,减少后续任务处理数据量
JVM重用与优化
开启JVM重用,特别是在处理小文件或Task数量多的情况下
Job执行模式调整
将Job交给Yarn执行,以提高效率
SQL查询优化
不要使用MapReduce进行查询
避免在SQL字符串中配对操作
使用Parquet或ORC格式存储数据,提高读写速度
数据导入策略
确保Hive采取读时模式(Schema On Read),以提高导入速度
解决特定问题
对于map阶段缓慢,考虑开启map端聚合等优化措施
解决任务执行进度卡在99%的问题,通过调整Counters平均值来优化
设置hive.merge.mapfiles和hive.merge.mapredfiles为true
调整hive.merge.size.per.task和hive.merge.size.smallfiles.avgsize参数
使用更大的hive thrift socket time out
数据处理优化
减少数据倾斜,避免全表扫描
避免笛卡尔积产生,减少不必要的计算
分区粒度设计更细,减少后续任务处理数据量
JVM重用与优化
开启JVM重用,特别是在处理小文件或Task数量多的情况下
Job执行模式调整
将Job交给Yarn执行,以提高效率
SQL查询优化
不要使用MapReduce进行查询
避免在SQL字符串中配对操作
使用Parquet或ORC格式存储数据,提高读写速度
数据导入策略
确保Hive采取读时模式(Schema On Read),以提高导入速度
解决特定问题
对于map阶段缓慢,考虑开启map端聚合等优化措施
解决任务执行进度卡在99%的问题,通过调整Counters平均值来优化
全部评论
相关推荐
点赞 评论 收藏
分享
01-06 16:32
广东科技学院 软件测试
哞客37422655...:兄弟别慌!💪 民办本找实习确实难点,但不是没机会。100+简历才2个面试,可能简历需要优化下:
项目经历写具体点,突出测试用例、bug数量等
技能栏把测试工具/方法论写清楚
可以考虑降低预期,先进小厂积累经验
测试岗相对好进,坚持投!现在才半个月,有人投3个月才上岸的😭 加油,offer在路上了🚀 点赞 评论 收藏
分享

腾讯成长空间 6030人发布