大数据工程师面试 - 字节跳动 Hive 面试考点!

我是大数据欧老师,曾在互联网某大厂任大数据负责人,从业大数据领域近 10 年,全网粉丝 5000+,从很多候选人的面试和咨询中复盘了大数据工程师的面试全流程,如果你有求职大数据工程师的计划,欢迎找我聊一聊!

直接拿走去复习!!!

Hive 知识点(上)- HSQL 语法

  1. 什么是窗口函数?
  2. ROW_NUMBER() / RANK() / LAG() / LEAD() 的含义?
  3. RANK() 和 DENSE_RANK() 的区别?
  4. 上述窗口函数的使用场景?
  5. PARTITION / CLUSTER BY / DISTRIBUTE BY 的含义和区别?
  6. 使用 STACK 进行列转行?
  7. 使用 EXPLODE 进行行转列?

Hive 性能优化

  1. 数据倾斜的场景有哪些?
  2. 如何在 Hive 中判断数据发生了倾斜?
  3. 数据倾斜一般如何处理?
  4. Shuffle 的类型和性能优化手段?
  5. Hive 的存储格式有哪些?有什么优劣势?
#牛客在线求职答疑中心##机械人晒出你的简历##机械人的春招flag##牛客解忧铺##大数据#

解决职场真实面试问题,分享同学真实成功案例,欢迎订阅关注!

全部评论
你好,我是AI牛可乐,很高兴为你解答问题。 1. 窗口函数:窗口函数是一种特殊的函数,可以在查询中对数据进行分组和排序,然后对每个分组进行计算。 2. ROW_NUMBER():为每条记录分配唯一的序号,序号从1开始,按照记录的顺序生成。 3. RANK():为每条记录分配一个排名,排名相同的记录具有相同的排名值,排名值按照记录的顺序生成。 4. LAG():返回当前行之前的第N行的值。 5. LEAD():返回当前行之后的第N行的值。 6. RANK() 和 DENSE_RANK() 的区别:RANK() 会为排名相同的记录分配相同的排名值,而 DENSE_RANK() 会为排名相同的记录分配连续的排名值。 7. 上述窗口函数的使用场景:窗口函数常用于计算移动平均数、累计和、排名等。 8. PARTITION BY:根据指定的列对数据进行分组。 9. CLUSTER BY:根据指定的列对数据进行分组,同时按照分组后的数据进行排序。 10. DISTRIBUTE BY:根据指定的列对数据进行分发,将数据分发到不同的节点上进行处理。 11. 使用 STACK 进行列转行:STACK 函数可以将多列数据转换为单列数据,每行表示一个数据组。 12. 使用 EXPLODE 进行行转列:EXPLODE 函数可以将一行数据转换为多行数据,每行表示一个数据项。 13. Hive 性能优化:数据倾斜的场景包括 JOIN 操作、GROUP BY 操作和 ORDER BY 操作。在 Hive 中判断数据发生了倾斜的方法包括查看任务进度和查看任务日志。数据倾斜的一般处理方法包括过滤导致倾斜的键值、使用随机前缀和值拆分。Shuffle 的类型包括 Map 端 Shuffle 和 Reduce 端 Shuffle,性能优化手段包括调整 Map 和 Reduce 任务的数量、调整 Shuffle 的缓冲区大小和调整 Shuffle 的并行度。 14. Hive 的存储格式:Hive 支持多种存储格式,包括 TextFile、SequenceFile、RCFile、ORC 和 Parquet。TextFile 是 Hive 的默认存储格式,适合存储文本数据;SequenceFile 适合存储二进制数据;RCFile
1 回复 分享
发布于 2024-02-27 21:56 AI生成

相关推荐

04-25 18:13
五邑大学 Java
后来123321:大二两段实习太厉害了,我现在大二连面试都没有
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
05-29 22:21
Offer1:小马智行,深圳,测试开发工程师,17.0k*16.0,Offer2:追觅科技,深圳,嵌入式工程师,18.0k*15.0,
嵌软狗都不学:各位base深圳的同事,作为也是并肩作战的一员,今天想站在管理视角,和大家开诚布公地聊一聊:从近几个月的上下班数据对比看来,我们发现一个明显的差异:深圳同事的在岗时间普遍比苏州同事短。很多深圳同事早上9点之后才到公司,晚上不到 20 点就下班了;而总部那边,20点半甚至 22 点后还有不少同事在办公室忙碌,特别是研发团队,加班更是常态。相信去过苏州的同事,对这种场景都不陌生。我很好奇,这是因为苏州工作任务太重还是咱们深圳同事效率真的高到能在更短时间内完成工作?MOVA在深圳成立分公司是为了吸引更优秀的人才贡献更多更高质的价值,公司管理层给我反馈的是深圳招到的多是行业的专家大拿,大部分都是薪资比苏州高的,而且我们办公的租金等也远高于苏州的..MOVA虽脱胎于强壮的集团母体不久,各业务板块尚未实现全面盈利,虽说公司管理层目光长远,不纠结当下的人才投入,但行业内的普遍标准是,员工创造的价值要达到公司雇佣成本的 15 倍以上。大家不妨自我审视一下,自己是否达到了这个标准?如果是抱着划水、按时打卡走人拿毛爷爷的心态那不适合来MOVA,那样过下去不但自己过得尴尬也会影响MOVA这个大船的攻城略地的速度.我并非鼓励大家盲目加班,而是倡导高效工作,拒绝无效忙碌,不要让项目进度因低效受影响,也别把精力浪费在和苏州同事拼打卡时长上,提倡更高的人效比;考虑到两地地域和交通差异,相信大家会找最适合自己发挥的工作方式(比如按时下班后1小时到家晚饭后继续未竟工作等..)大家在遵守公司规章的情况下尽情地体现自己的能力价值,为MOV!和深圳公司争光我们在这边才能更安心更有信心的工作下去;请客BU长、名部门长、项目管理和各业务单元负责人,全面梳理团队情况,及时评估成员工作负荷与成果质量,坚决清退划水害虫痕疫,践行公司价值观,相互监督,防止管理漏洞及渎职。感谢人家的理解,也请人家多担待我的直言不讳……
点赞 评论 收藏
分享
评论
4
45
分享

创作者周榜

更多
牛客网
牛客企业服务