每日一题:hive on spark和spark on hive的区别

  • Hive on Spark: 这是Hive 主导的集成方式。本质上是将 Spark 作为 Hive 的执行引擎(替代 MapReduce 或 Tez)。用户提交的是标准的HQL语句,Hive 负责 SQL 解析、优化,最终将生成的执行计划提交给 Spark 集群去执行,强依赖 Hive Metastore 来管理元数据。主要目的是让现有的Hive任务运行在更快的Spark引擎上。
  • Spark on Hive:这是Spark主导 的集成方式。用户编写的是 Spark 应用程序,其可以选择性地连接Hive Metastore,目的是让Spark 能够方便地读写Hive中定义的表。Hive Metastore 在这里是一个可配置的元数据服务,并不是必须的,但生产环境通常集成以实现元数据共享。主要目的是让Spark能够访问Hive中的数据。

#数据人的面试交流地##牛客创作赏金赛#
大数据开发面试笔记 文章被收录于专栏

包括大数据篇、计算机语言篇、计算机基础篇、算法刷题篇、面试经验篇等五大篇章: 大数据篇包括框架原理、源码解析、调优技巧、大数据场景题、项目实战、数仓理论等模块;计算机语言篇包括Java、Linux、大厂常考SQL面试题等模块;计算机基础篇包括计算机网络、操作系统、数据库、数据结构等模块;算法刷题篇包括大厂高频算法题、刷题速成计划等模块 面试经验篇包括BAT、美团、字节、快手、京东等大厂的面经合集

全部评论

相关推荐

昨天 17:21
已编辑
华中科技大学 Java
牛客39712426...:华科✌🏻略微**就是我的极限
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务