Hive 改表结构的两个坑|避坑指南

Hive 在大数据中可能是数据工程师使用的最多的组件,常见的数据仓库一般都是基于 Hive 搭建的,在使用 Hive 时候,遇到了两个奇怪的现象,今天给大家聊一下,以后遇到此类问题知道如何避坑!

坑一:改变字段类型后更新数据不成功

关于 hive 插入数据的一个小坑,今天插入一个表中数据,插入时写的是常数,比如 0.01 ,表中的字段也是 DECIMAL(5,2),按照常理插入的应该是 0.01,但是插入后查询是 0,为甚!



遇到问题,咱也不能退缩!就分析呀,看语句没问题啊!还是上网查查有没有坑友。查了一圈发现还是观望最靠谱!上 hive 官网查,呀~ 发现了原因!


https://cwiki.apache.org/confluence/display/Hive/LanguageManual+Types#LanguageManualTypes-Decimals


根据官网描述,发现在插入分区表时会出现这种情况,此时需要对之前的分区处理下~:


那就测试一下 按照官网的说法:


先建表:


CREATE TABLE `tb_dw_test`(
复制代码


然后插入数据:


insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);
复制代码


然后查询:


hive> select * from tb_dw_test;
复制代码


发现结果跟想象中的一样~


然后修改表字段:


ALTER TABLE tb_dw_test REPLACE COLUMNS (a DECIMAL(5,2))
复制代码


然后再次插入数据:


insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);
复制代码


查询:


hive> select * from tb_dw_test;
复制代码


发现有问题啦!



那么按照官网处理:


Determine what precision/scale you would like to set for the decimal column in the table. For each decimal column in the table, update the column definition to the desired precision/scale using the ALTER TABLE command:


ALTER TABLE foo CHANGE COLUMN dec_column_name dec_column_name DECIMAL(38,18);
复制代码


If the table is a partitioned table, then find the list of partitions for the table:If the table is not a partitioned table, then you are done. If the table has partitions, then go on to step 3


SHOW PARTITIONS foo;
复制代码


This can be done with a single ALTER TABLE CHANGE COLUMN by using dynamic partitioning (available for ALTER TABLE CHANGE COLUMN in Hive 0.14 or later, with HIVE-8411):Each existing partition in the table must also have its DECIMAL column changed to add the desired precision/scale.


SET hive.exec.dynamic.partition = true;
复制代码


所以参照官网,这里对表作如下处理:


ALTER TABLE tb_dw_test PARTITION (statis_date) CHANGE COLUMN a a DECIMAL(5,2);
复制代码


再次插入数据:


insert overwrite table tb_dw_test partition (statis_date=20160501) values(1.02);
复制代码


然后查询:


hive> select * from tb_dw_test;
复制代码


发现结果跟想象中的一样了。这个坑算是过去了~


坑二:增加字段后更新数据不成功


还是上面的例子那张表,再增加一个字段:


alter table tb_dw_test add COLUMNS (b varchar(5))
复制代码


然后查询


hive> select * from tb_dw_test;
复制代码


发现新增的字段默认的值是 NULL,现在我重新覆盖一下元数据,给增加的字段一个值:


insert overwrite table tb_dw_test partition(statis_date=20160501) values (2.01,0371);
复制代码


然后查询:


hive> select * from tb_dw_test;
复制代码



不是我们想象的结果,查看一下官方文档说明发现了问题的所在:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+DDL#LanguageManualDDL-Add/ReplaceColumns




靠谱的官网用红色框框提示我们!那就这样处理:


alter table tb_dw_test replace COLUMNS (a  decimal(5,2),b varchar(5)) CASCADE;
复制代码


直接查询,发现数据显示的数据已经发生了变化了~


hive> select * from tb_dw_etst;
复制代码

避坑指南

官方文档!!官方文档!!官方文档!!


综上发现,我们是按照 Oracle 这样的标准在考虑 HiveSQL,但是通过阅读官方文档发现二者之间还是有很大不同的,底层原理差别还是有点大!通过这两次踩坑发现,仔细阅读官方文档的重要性!!!


所以,以后大家遇到大数据开源组件的报错问题,第一就是去找官方文档,然后就去找社区,总能发现惊喜!

#大数据开发##数据仓库工程师##大数据开发工程师##面试题目#
全部评论
学长好
点赞 回复 分享
发布于 2022-06-08 17:46
有用的话,大家点个赞
点赞 回复 分享
发布于 2022-05-22 17:25
学到了,太实用了,感谢大佬分享
点赞 回复 分享
发布于 2022-05-22 16:20

相关推荐

xdm 早上喝奶茶差点喷出来。事情是这样的,我们班有个哥们儿,简称 L,去年秋招拿了字节sp,专业方向是后端。我们当时都震惊:这哥们儿平时课上从来不发言,期末小组作业基本是划水的那种,刷题平台 commit记录我点进去看过,绿格子稀稀拉拉。但他面试一路绿灯。一面二面三面 hr 面,全过,给的还是sp。当时班级群里恭喜他的、问他经验的、约饭的,热闹了一周。他说自己"运气好,准备充分"。我们都信了,直到三月初他入职。入职第二周开始,班里另一个进字节的同学W(在隔壁组的)开始跟我他的不对劲。一开始是写代码慢,后来写不出来,再后来是组里 mentor 让他fix 一个简单 bug 都搞了一下午没动静。最离谱的是上周。W 说他们大部门搞了个新人分享会,让新人讲一下自己负责模块的设计思路。L 上去讲了 20分钟,全程念稿子,问答环节别人随便问一个"那你这里为什么用 Redis 不用 Memcached",他直接卡 30秒说"这个我回去再确认一下"。会后他 mentor 直接找 leader 谈,leader 找 hr 谈,hr调出了他面试录像,全程对比口型和回答节奏,发现他二三面有大量时长在偷偷看屏幕外(推测开了双机位 AI 答题)。(这段是 W后来转述给我的,他自己也是听他组里同事八卦来的)昨天下班前,W 告诉我L 被辞退了,让他自己走,不走就走仲裁但会发函到学校。L 现在已经回学校了,朋友圈仅三天可见。我说真的,我不是个心眼小的人,但是我看到这个消息的时候真的有种"嗯,挺好"的感觉。去年秋招我投字节后端,简历挂。我准备了八个月,背 八股 + 刷 500 题 +项目改了三版,连面试机会都没拿到。班里这哥们儿凭着一个外挂上岸,最后还是被甩出来了。不是说作弊就一定会被发现,但是当面试拿到的 offer远远超出真实能力的时候,迟早会有这一天。试用期三个月不是给你过家家的,是真的要写代码、要在会议上回答问题、要扛需求的。我现在反而有点同情他。同情他相信"上岸就是终点"。发出来不是为了嘲笑谁,就是想说给那些正在被身边作弊上岸的同学搞得很 emo 的 uu 们听——别急,回旋镖很长,但它一定会回来。你继续刷你的题,写你的项目,背你的八股。该是你的迟早是你的,不是你的早晚还得还回去。xdm 共勉。
牛客12588360...:我不想评论面试方式,作弊是绝对不对的,但是你八股加刷题也不过是个做题小子,他穿帮纯粹是他菜,你也没有高明到哪里去
点赞 评论 收藏
分享
05-09 12:10
济宁学院 Java
程序员小白条:丰富下简历,有点少了,中小厂反正看运气海投
点赞 评论 收藏
分享
评论
16
28
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务