今日面经题目分享_牛客网

老欧讲职场

字节跳动_大数据工程师

关注

每日一练，面试真题，欢迎关注！

@老欧讲职场：今日面经题目分享

欢迎私信我获取更多面经知识！!Hadoop 中 fsimage 和 edit 的区别是什么?在Hadoop中，fsimage和edit是两个关键的组件，用于存储和管理文件系统的元数据。fsimage：fsimage是一个静态的文件，用于存储Hadoop文件系统的整体状态。它包含了文件和目录的层次结构、文件和目录的属性信息、权限和访问控制列表等。fsimage文件在NameNode启动时加载到内存中，并用于响应客户端的元数据请求。edit：edit是一个动态的文件，用于记录Hadoop文件系统的变化操作。当有文件系统操作（如创建、删除、重命名文件或目录）时，edit文件会记录这些操作的细节。edit文件不断地增长，记录了文件系统的历史变化。NameNode在启动时会将fsimage文件加载到内存中，然后再将edit文件的操作应用于内存中的fsimage文件，以保持文件系统的最新状态。区别：fsimage是一个静态的文件，用于存储文件系统的整体状态，而edit是一个动态的文件，用于记录文件系统的变化操作。fsimage文件在NameNode启动时加载到内存中，用于响应客户端的元数据请求，而edit文件的操作会被应用到已加载的fsimage文件中，以保持文件系统的最新状态。fsimage文件相对较大，而edit文件相对较小，只记录了变化操作的细节。fsimage文件的加载和应用较慢，而edit文件的处理速度较快。总结：fsimage是文件系统的静态状态，而edit是文件系统的动态变化记录。两者共同作用于文件系统元数据的管理和维护。Hbase ColumnFamily 的概念是什么？HBase是一个分布式的列式数据库，其数据存储在HDFS（Hadoop分布式文件系统）中。在HBase中，数据以表格形式存储，每个表格被分割成多个行和列族（Column Family）。Column Family是HBase中的一个重要概念，它是表格的逻辑分组。每个Column Family可以包含多个列限定符（Column Qualifier）。在物理存储上，HBase会将同一Column Family的数据存储在一起，以提高读写性能。Column Family的定义在创建表格时进行，一旦创建后，无法对Column Family进行修改。每个Column Family可以独立地设置存储策略和压缩算法，以满足不同的数据需求。在HBase中，通过指定表格名称和Column Family的名称，可以访问和操作特定的数据。这种设计使得HBase能够高效地存储和查询大规模的结构化数据。Hive 中 Sort By,Order By,Cluster By,Distribute By 分别是什么意思？在Hive中，Sort By、Order By、Cluster By和Distribute By是用于对表进行排序和分区的关键词。Sort By: Sort By用于在查询结果中对列进行排序。它会按照指定的列对查询结果进行排序，默认为升序排序，也可以通过DESC关键词进行降序排序。Order By: Order By也用于对查询结果进行排序，但不同于Sort By，Order By会在最终的查询结果中对所有的行进行全局排序。这意味着Order By会将整个结果集加载到内存中进行排序，适用于小规模数据集。Cluster By: Cluster By用于将表的数据按照指定的列进行分区存储。它类似于数据库中的分区表概念，可以提高查询性能。使用Cluster By时，Hive会根据指定的列值进行数据分区，并将相同值的行存储在同一个分区中。Distribute By: Distribute By用于将表的数据按照指定的列进行分发。它用于控制数据在不同的Reducer任务中的分布情况。Distribute By确保具有相同分发列值的行都被发送到同一个Reducer任务中，但并不保证在Reducer任务内部的排序。这些关键词可以在Hive查询中使用，以便对数据进行排序和分区，从而提高查询性能和优化数据存储。Hbase 的读写流程是什么样子？HBase的读写流程如下：写流程：客户端向HBase的Master节点发送写请求。Master节点接收到写请求后，根据表的region分布信息，将请求转发给对应的RegionServer节点。RegionServer节点接收到写请求后，将数据写入内存缓存（MemStore）中，并同时写入WAL（Write Ahead Log）日志文件。当MemStore的数据达到一定阈值后，会触发刷写操作，将数据写入磁盘上的HFile文件。同时，RegionServer节点会将写请求的结果返回给Master节点，Master节点再返回给客户端。读流程：客户端向HBase的Master节点发送读请求。Master节点接收到读请求后，根据表的region分布信息，将请求转发给对应的RegionServer节点。RegionServer节点首先检查内存缓存（MemStore）中是否包含需要读取的数据，如果有，则直接返回给客户端。如果内存缓存中没有需要的数据，则从磁盘上的HFile文件中读取数据，并返回给客户端。同时，RegionServer节点会将读请求的结果返回给Master节点，Master节点再返回给客户端。值得注意的是，HBase还有一种读取数据的方式是通过Scan操作，它可以按照指定的条件范围从HBase中批量读取数据。在Scan操作中，读取的流程与上述读流程类似，只是会涉及到多个Region的读取。Hbase 有什么特点？Hbase是一个开源的分布式列存储数据库，具有以下特点：高可靠性：Hbase采用Hadoop HDFS作为底层存储，支持数据的冗余备份和自动恢复，保证数据的高可靠性。高扩展性：Hbase可以在成百上千台服务器上存储海量数据，并能够实现水平扩展，通过增加服务器节点来提升存储能力和吞吐量。高性能：Hbase采用稀疏存储结构，只存储有值的数据，减少了磁盘IO，同时支持快速随机读写，适用于大规模数据的实时访问。高并发性：Hbase支持多线程并发访问，可以同时处理大量的读写请求，适用于高并发的应用场景。灵活的数据模型：Hbase使用列族-列-行的数据模型，支持动态添加列和列族，可以根据需求灵活调整数据结构。支持数据分片：Hbase将数据按照Rowkey进行分片存储，每个Region Server负责管理一部分数据，实现数据的负载均衡和并行处理。支持数据版本控制：Hbase支持数据的多版本存储，可以根据时间戳或版本号获取历史数据，方便进行数据分析和回溯。总的来说，Hbase具有高可靠性、高扩展性、高性能、高并发性、灵活的数据模型和数据分片等特点，适用于大规模数据存储和实时查询的场景。Hbase 中 Region 太大或者太小会有什么问题？Hbase 中Region过大或过小都会引发一些问题。如果Region过大，可能会导致以下问题：写入热点：当Region过大时，所有的写入操作都会集中在一个Region上，导致该Region成为写入热点，造成写入性能瓶颈。延迟增加：由于Region过大，读取操作需要扫描大量的数据，导致读取延迟增加。不均衡的负载：Region过大可能会导致负载不均衡，使得某些Region服务器上的负载较重，而其他服务器上负载较轻。如果Region过小，可能会引发以下问题：资源浪费：每个Region都需要占用一定的资源，包括内存和磁盘空间。当Region过小时，可能会导致资源的浪费。元数据开销：Region边界的变动需要更新Hbase的元数据，当Region过小时，元数据更新的频率会增加，可能会影响Hbase的整体性能。负载不均衡：Region过小可能导致负载不均衡，某些Region服务器上的负载较轻，而其他服务器上负载较重。因此，合理设置Region的大小是非常重要的，以提高Hbase的性能和可靠性。Spark 中的 persist 是什么原理？在Spark中，persist()是一种用于持久化RDD的方法。它通过将RDD的数据存储在内存中或磁盘上，以便后续的操作可以更快地访问数据。当调用persist()方法时，Spark会将RDD的数据分片并存储在集群中的多个节点上。具体的存储位置可以通过配置选项进行指定，包括内存、磁盘或者两者的组合。persist()方法使用了懒计算的机制，也就是只有在需要使用RDD数据时才会进行计算和持久化。一旦RDD被持久化，后续的操作可以直接从存储中读取数据，而不需要再次计算。Spark中的persist()方法提供了多个存储级别，包括MEMORY_ONLY、MEMORY_AND_DISK、MEMORY_ONLY_SER等。每个级别都具有不同的优点和适用场景。例如，MEMORY_ONLY级别将数据存储在内存中，适用于对性能要求较高的场景，而MEMORY_AND_DISK级别将数据存储在内存和磁盘上，适用于数据量较大的情况。总之，persist()方法通过将RDD的数据存储在内存或磁盘上，提供了更高效的数据访问方式，从而提升了Spark的计算性能。

点赞 0

评论 1

全部评论

推荐最新楼层

今天 12:11

已编辑

京东_销售部_超体销售岗

从 0 offer 到拿下 3 个央国企 offer，秋招逆袭全靠这套 AI 工具

参考来源:求职精灵 官网入口：https://m.finsight.work/pages/activePage/general/index?pageCode=49B59368 前言秋招，是每个应届生都绕不开的一场硬仗。我曾和无数应届生一样，在秋招初期陷入无尽的焦虑与内耗：海投超过 150 份简历，石沉大海；参加十几场笔试，无一进入面试；好不容易拿到一次面试机会，却因为准备不足、表达混乱，当场被刷。那段时间，我每天睁眼就刷招聘网站，闭眼就梦到被拒邮件，看着身边同学陆续收到意向通知，自己却始终停留在0 offer的状态，甚至开始怀疑自己四年大学白读了。我不是没有努力过，每天泡在图书馆刷行测题，对着...

秋招，不懂就问

点赞评论收藏

分享

03-21 16:42

门头沟学院 Java

MySQL 与 Redis 一致性保证方案

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花MySQL 作为持久化关系型数据库，具备强一致性特性；Redis 作为内存型缓存，具备高性能优势。二者作为异构存储，强一致性难以实现（需承担极高的性能损耗），因此绝大多数业务场景均以「最终一致性」为核心目标。以下将对主流一致性保证方案的执行流程、优缺点及适用场景进行详细解析，排序遵循「应用广泛程度+一致性强度」原则。核心背景：一致性问题的根源读写顺序异常：例如先更新缓存再更新数据库，在并发场景下易产生缓存脏数据；网络及系统故障：例如数据库更新成功，但缓存删除操作失败（如网络中...

点赞评论收藏

分享

03-10 17:28

吉首大学测试工程师

这个简历可以弄到实习吗？双非一本，测试，男生

点赞评论收藏

分享

03-23 20:49

网易游戏雷火_游戏服务器开发实习生(实习员工)

刚看到到了初试，还没面就流程结束，有没有知道什么情况的

点赞评论收藏

分享

03-21 21:26

已编辑

北京体育大学测试工程师

自动化测试用AI来做的小方案

#把自己当AI，现在最消耗你token的问题是什么？#https://developer.chrome.com/blog/chrome-devtools-mcp-debug-your-browser-session?hl=zh-cn谷歌把调试模式打开chrome://inspect/#remote-debugging配上mcp{ "mcpServers": { "chrome-devtools": { "command": "npx", "args": [ "chrome-devtoo...

测试开发知识汇总

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI面会问哪些问题？ #

17606次浏览 362人参与

# 找AI工作可以去哪些公司？ #

4990次浏览 120人参与

# 米连集团26产品管培生项目 #

12342次浏览 283人参与

# 你的实习产出是真实的还是包装的？ #

15681次浏览 267人参与

# 从事AI岗需要掌握哪些技术栈？ #

5023次浏览 159人参与

# 春招至今，你的战绩如何？ #

49699次浏览 451人参与

# 厦门银行科技岗值不值得投 #

6219次浏览 136人参与

# 你做过最难的笔试是哪家公司 #

20979次浏览 134人参与

# 聊聊这家公司值得去吗 #

914040次浏览 4736人参与

# 一张图晒出你司的标语 #

2801次浏览 50人参与

# 长得好看会提高面试通过率吗？ #

19186次浏览 213人参与

# AI时代，哪个岗位还有“活路” #

8686次浏览 265人参与

# 沪漂/北漂你觉得哪个更苦？ #

7631次浏览 134人参与

# HR最不可信的一句话是__ #

4533次浏览 89人参与

# 阿里笔试 #

170127次浏览 1222人参与

# 春招你拿到offer了吗 #

824721次浏览 9960人参与

# 学历对求职的影响 #

658491次浏览 4219人参与

# 快手年终开大包 #

13191次浏览 101人参与

# 实习的你做了哪些离谱的工作 #

38657次浏览 253人参与

# 一人说一家双休的公司 #

69308次浏览 384人参与

# 你的秋招白月光和意难平公司 #

93128次浏览 343人参与

# 工作压力大，你会干什么？ #

69034次浏览 698人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务