2023-07-12 17:37 郑州大学大数据开发工程师

关注

Hive面试简单26问

1. hadoop中两个⼤表实现join的操作，简单描述。

（1）Hive中可以通过分区来减少数据量；

（2）还可以通过优化HQL语句，⽐如只查询需要的字段，尽量避免全表、全字段查询；

2. Hive中存放是什么？

表。存的是和hdfs的映射关系，hive是逻辑上的数据仓库，实际操作的都是hdfs上的⽂件，HQL就是⽤sql语法来写的mr程序。

3. Hive与关系型数据库的关系？

没有关系，hive是数据仓库，不能和数据库⼀样进⾏实时的CURD操作。是⼀次写⼊多次读取的操作，可以看成是ETL⼯具。

4. Hive中的排序关键字有哪些？

sort by ，order by ，cluster by ，distribute by

（1）sort by ：不是全局排序，其在数据进⼊reducer前完成排序

（2）order by ：会对输⼊做全局排序，因此只有⼀个reducer(多个reducer⽆法保证全局有序).只有⼀个reducer,会导致当输⼊规模较⼤时，需要较⻓的计算时间。

（3）cluster by ：当distribute by 和sort by的字段相同时，等同于cluster by.可以看做特殊的distribute + sort

（4）distribute by ：按照指定的字段对数据进⾏划分输出到不同的reduce中

5. ⼤表和⼩表join

Map side join。将⼩表存⼊内存中，将⼩表复制多份，让每个map task内存中保留⼀份(⽐如存放到hash table中)，这样只需要扫描⼤表。对于⼤表中的每⼀条记录key/value，在hash table中查找是否有相同的key，如果有，则连接后输出即可。

6. 数据清洗怎么做的？怎么⽤spark做数据清洗

数据清洗的⽬的是为了保证数据质量，包括数据的完整性、唯⼀性、⼀致性、合法性和权威性。数据清洗的结果是对各种脏数据进⾏对应的处理⽅式，从⽽得到标准的、⼲净的、连续的数据，提供给数据统计和数据挖掘使⽤。

解决数据的完整性问题：(1) 通过其他信息不全；(2) 通过前后数据不全；(3) 如果实在⽆法不全，虽然可惜，但是还是要剔除掉进⾏统计。但是没必要删除，后续其他分析可能还需要。
解决数据的唯⼀性问题： (1) 根据主键进⾏去除，去除重复数据； (2) 制定⼀系列规则，保证根据某种规则下只保存⼀条数据。
解决数据权威性的问题：（1）选择最权威的数据作为统计和挖掘。
解决合法性的问题：（1）设定判定规则，通过特定的规则来判断字段或者值来确定数据是否需要被清洗。

7. Hadoop中⼆次排序怎么做？

在hadoop中⼀般都是按照key进⾏排序的，但是有时候还需要按照value进⾏排序。有两种办法进⾏⼆次排序：buffer and int memory sort和value-to-key conversion。

（1）Buffer and in memory sort主要是在reduce()函数中,将每个key对应的value值保存下来，进⾏排序。但是缺点在于可能会出现out of memory。

（2）Value-to-key conversion主要思想是将key和value拼接成⼀个组合key，然后进⾏排序，这样reduce()函数获取的结果就实现了先按照key排序，然后按照value进⾏排序。需要注意的是，⽤户需要⾃⼰实现paritioner，以便只按照key进⾏数据划分。

8. hadoop常见的join操作？

(1) reduce side join：是最简单的join操作，主要是在reduce端进⾏join操作；

(2) Map side join：之所以存在reduce side join，是因为在map端不能获得需要连接的全部的字段。Reduce side join⽐较低效，因为shuffle传输数据需要消耗⼤量的性能。

(3) Semijoin：半连接，对于reduce side join，跨机器的数据传输量特别⼤，成为join的⼀个瓶颈。如果能在map端过滤掉不会参加join的数据，那么可以⼤⼤节省⽹络IO。

9. hive优化有哪些？

(1) 数据存储及压缩。针对hive中表的存储格式通常有orc和parquet，压缩格式⼀般使⽤snappy。相⽐与textfile格式表，orc占有更少的存储。因为hive底层使⽤MR计算架构，数据流是hdfs到磁盘再到hdfs，⽽且会有很多次，所以使⽤orc数据格式和snappy压缩策略可以降低IO读写，还能降低⽹络传输量，这样在⼀定程度上可以节省存储，还能提升hql任务执⾏效率；

(2) 通过调参优化。并⾏执⾏，调节parallel参数；调节jvm参数，重⽤jvm；设置map、reduce的参数；开启strict mode模式；关闭推测执⾏设置。

(3) 有效地减⼩数据集将⼤表拆分成⼦表；结合使⽤外部表和分区表。

(4) SQL优化⼤表对⼤表：尽量减少数据集，可以通过分区表，避免扫描全表或者全字段；⼤表对⼩表：设置⾃动识别⼩表，将⼩表放⼊内存中去执⾏。

10. 分析函数？

row_number() over(partition by regionX order by nameX desc) as tn 
1 93;
2 90;
3 90 
排名是连续的，相同的分数会有排名先后，前100名只有100个

rank() over(partiition by regionX order by nameX desc) as tn 
1 93;
2 90;
2 90;
4 89 
排名不是连续的，相同的分数是同名次，前100名只有100个

dense_rank() over() 
1 93;
2 90;
2 90;
3 89
排名是连续的，相同的分数是同名次，前100名可能多于100个

11. 分析下hive数据倾斜问题，有什么解决⽅案？

倾斜原因： map输出数据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点。等原因造成的reduce上的数据量差异过⼤。（1)key分布不均匀

（2)业务数据本身的特性

（3)SQL语句造成数据倾斜

解决⽅案：（1）参数调节：

hive.map.aggr=true
hive.groupby.skewindata=true

有数据倾斜的时候进⾏负载均衡，当选项设定为true,⽣成的查询计划会有两个MR Job。第⼀个MR Job中，Map的输出结果集合会随机分布到Reduce中，每个Reduce做部分聚合操作，并输出结果，这样处理的结果是相同GroupBy Key有可能被分发到不同的Reduce中，从⽽达到负载均衡的⽬的；第⼆个MR Job在根据预处理的数据结果按照Group By Key 分布到Reduce中(这个过程可以保证相同的 Group By Key 被分布到同⼀个Reduce中)，最后完成最终的聚合操作。（2）SQL语句调节： 1)选⽤join key 分布最均匀的表作为驱动表。做好列裁剪和filter操作，以达到两表join的时候，数据量相对变⼩的效果。

2)⼤⼩表Join：使⽤map join让⼩的维度表（1000条以下的记录条数）先进内存。在Map端完成Reduce。

3)⼤表Join⼤表：把空值的Key变成⼀个字符串加上⼀个随机数，把倾斜的数据分到不同的reduce上，由于null值关联不上，处理后并不影响最终的结果。

4)count distinct⼤量相同特殊值：count distinct时，将值为空的情况单独处理，如果是计算count distinct，可以不⽤处理，直接过滤，在做后结果中加1。如果还有其他计算，需要进⾏group by，可以先将值为空的记录单独处理，再和其他计算结果进⾏union.

12. 请说明hive中 sort by ，order by ，cluster by ，distribute by各代表什么意思？

order by ：会对输⼊做全局排序，因此只有⼀个reducer(多个reducer⽆法保证全局有序).只有⼀个reducer,会导致当输⼊规模较⼤时，需要较⻓的计算时间。

sort by ：不是全局排序，其在数据进⼊reducer前完成排序

distribute by ：按照指定的字段对数据进⾏划分输出到不同的reduce中

cluster by ：除了具有distribute by 的功能外还兼具sort by 的功能

13. 描述数据中的null,在hive底层如何存储？

null在hive底层默认是⽤"\N"来存储的，所以在sqoop到mysql之前需要将为null的数据加⼯成其他字符，否则sqoop提示错误

14. Hive中 split、coalesce以及collect_list函数的⽤法？

split将字符串转化为数组

coalesce(T v1,T v2,...) 返回参数中的第⼀个⾮空值；如果所有值都为null,那么返回null

collect_list列出该字段所有的值,不去重 select collect_list(id) from table;

15. 如何将⽂件导⼊到hive表中？

load data local inpath '/a.txt' overwrite into table test partition(xx='xx')

16. Hive的排序分组⽅式？

row_number() 是没有重复值的排序(即使两天记录相等也是不重复的),可以利⽤它来实现分⻚

dense_rank() 是连续排序,两个第⼆名仍然跟着第三名

rank() 是跳跃排序的,两个第⼆名下来就是第四名

17. 请把下⼀语句⽤hive⽅式实现？

SELECT a.key,a.value
FROM a
WHERE a.key not in (SELECT b.key FROM b)

答案：

select a.key,a.value from a where a.key not exists (select b.key from b)

18. Hive内外部表的区别

删除表是否影响外部数据内部表影响，外部表不影响

19. Hive如何做到权限管理

hive下可以修改配置后创建⽤户管理,但是仅仅是为了防⽌误操⽽已,如果要真的为了安全操作建议使⽤Kerberos（和Hadoop相同）

20. 说说对桶表的理解

对数据的细化取模分开存储数据,提⾼查询效率

21. hive有哪些保存元数据的⽅式，有什么特点

（1）Single User Mode：默认安装hive，hive是使⽤derby内存数据库保存hive的元数据，这样是不可以并发调⽤hive的，这种模式时hive默认的存储模式。

（2）Multi User Mode：通过⽹络连接到⼀个数据库中，是最经常使⽤到的模式。假设使⽤本机mysql服务器存储元数据。这种存储⽅式需要在本地运⾏⼀个mysql服务器，并作如下配置（需要将mysql的jar包拷⻉到$HIVE_HOME/lib⽬录下）。

（3）Remote Server Mode：在服务器端启动⼀个 MetaStoreServer，客户端利⽤ Thrift 协议通过 MetaStoreServer 访问元数据库。

22. hive能建多个库吗

可以

23. 请谈⼀下hive的特点是什么？hive和RDBMS有什么异同？

hive是基于Hadoop的⼀个数据仓库⼯具，可以将结构化的数据⽂件映射为⼀张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进⾏运⾏。其优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计，不必开发专⻔的MapReduce应⽤，⼗分适合数据仓库的统计分析。