关注
set hive.auto.convert.join=true; set hive.mapjoin.smalltable.filesize=300000000; set hive.auto.convert.join.noconditionaltask=true; set hive.auto.convert.join.noconditionaltask.size=300000000; INSERT INTO TABLE ArticleFeatures PARTITION(dt='${etl_dt}') SELECT articleid AS articleid ,concat_ws(',',collect_set(t2.url_feature)) AS url_features FROM (SELECT DISTINCT articled AS articled ,image_urls AS image_url FROM Articles LATERAW VIEW explode(splite(image_urls,',')) ) t1 LEFT JOIN (SELECT url ,concat_ws(':',url,feature) as url_feature FROM ImageFeatures) t2 ON t1.image_url = t2.url group by articleid 直接手写的没跑过,肯定有问题(PS:我基本每条sql都要测试几遍,很少会有一边通过的样子不知道你们是不是一样),但是思路基本都是一样的,就是行转列再拼起来。关键是这个调优怎么做,很想知道一下大神的思路 个人调优思路:1、提前去重,减少数据量。数据本身较少,直接使用distinct 2、在设置中开启mapjoin,把小表直接加载进内存中join 感觉除此之外没啥要优化的了
查看原帖
点赞 评论
相关推荐
07-04 16:47
山东理工大学 营销 点赞 评论 收藏
分享

点赞 评论 收藏
分享
牛客热帖
更多
正在热议
更多
# 哪些公司开提前批了? #
27847次浏览 268人参与
# 入职以后才知道的校招谎言 #
88659次浏览 581人参与
# 风评不好的公司,你会去吗? #
63534次浏览 450人参与
# 华子oc时间线 #
1244562次浏览 6485人参与
# 哪些公司校招卡第一学历 #
70359次浏览 280人参与
# 校招第一份工作你干了多久? #
95306次浏览 423人参与
# 实习如何「偷」产出? #
52896次浏览 1355人参与
# 除了主业以外,你还有哪些其他收入? #
12597次浏览 202人参与
# 不卡学历的大厂有哪些? #
30589次浏览 232人参与
# 机械人,你的第一份感谢信是谁给的 #
30605次浏览 310人参与
# 校招阶段,学历VS技术哪个更重要? #
18231次浏览 188人参与
# 职场新人体验 #
27224次浏览 251人参与
# 研究所笔面经互助 #
78582次浏览 483人参与
# 工作丧失热情的瞬间 #
294147次浏览 2372人参与
# 腾讯音乐求职进展汇总 #
98266次浏览 570人参与
# 你的秋招第一场笔试是哪家 #
148260次浏览 1485人参与
# 社恐入职新公司如何融入团队 #
12052次浏览 63人参与
# 华为开奖那些事 #
4094566次浏览 24608人参与
# 校园里的破防时刻 #
11994次浏览 128人参与
# Offer比较,你最看重什么? #
191879次浏览 1308人参与