2022-06-22 15:14 湖南大学 Java

关注

阿里P8专家，熬夜整理239道zookeeper+Redis+kafka大数据面试题

前言

今天给大家分享一波大数据面试题吧！主要包括三部分内容：zookeeper，Redis和kafka，共239道，希望大家能够喜欢！

第二版: Kafka 17道

1.Kafka的设计时什么样的呢?

2.数据传输的事物定义有哪三种?

3.Kafka判断一个节点是否还活着有那两个条件?

4.producer是否直接将数据发送到broker 的leader(主节点)?

5、Kafa consumer是否可以消费指定分区消息?

6、Kafka 消息是采用Pull 模式,还是Push模式?

7.Kafka存储在硬盘上的消息格式是什么?

8.Kafka高效文件存储设计特点:

9.Kafka与传统消息系统之间有三个关键区别-

10.Kafka创建Topic 时如何将分区放置到不同的Broker 中-..

11.Kafka新建的分区会在哪个目录下创建

12.partition的数据如何保存到硬盘

13.kafka的ack机制

14.Kafka的消费者如何消费数据

15.消费者负载均衡策略

16.数据有序

17.kafaka生产数据时数据的分组策略

第二版: kafka18 道

1.如何获取topic主题的列表

2.生产者和消费者的命令行是什么?

3. consumer 是推还是拉?

4、讲讲kafka维护消费状态跟踪的方法

5.讲一下主从同步**

6.为什么需要消息系统，mysql 不能满足需求吗?

1.解耦:
2.冗余:
3.扩展性:
4.灵活性&峰值处理能力:
5.可恢复性:
6.顺序保证:
7.缓冲:
8.异步通信:

7. Zookeeper 对于Kafka的作用是什么?

8、数据传输的事务定义有哪三种?

9. Kafka 判断一个节点是否还活着有那两个条件?

10、Kafka 与传统MQ消息系统之间有三个关键区别-

11、讲-讲kafka的ack的三种机制-

12、消费者如何不自动提交偏移量，由应用提交?

13.消费者故障，出现活锁问题如何解决?

14、如何控制消费的位置

15、 kafka分布式(不是单机)的情况下，如何保证消息的顺序消费?

16. kafka 的高可用机制是什么?

17. kafka如何减少数据丢失

18、kafka 如何不消费重复数据?比如扣款，我们不能重复的扣。

第二版: Kafka 50道

1:什么是Apache Kafka?.

2: Kafka中有哪几个组-.....

3:解释偏移的作用。

4:什么是消费者组?

5: ZooKeeper 在Kafka中的作用是什么?

6:没有ZooKeeper可以使用Kafka吗?

8:为什么Kafka技术很重要?

9: Kafka 的主要API有哪些?

10:什么是消费者或用户?

二、比较棘手的Kafka面试###和答案:

11:解释领导者和追随者的概念。

12:是什么确保了Kafka中服务器的负载平衡? ---

13:副本和ISR扮演什么角色?

14:为什么Kafka的复制至关重要?

15:如果副本长时间不在ISR中，这意味着什么?

16:启动Kafka服务器的过程是什么?

17:在生产者中,何时发生QueueFullException?

18:解释Kafka Producer API的作用。

19: Kafka和Flume之间的主要区别是什么?

20: Apache Kafka是分布式流处理平台吗?如果是，你能用它做什么? ---

三、高级Kafka面试##..

21:你能用Kafka做什么?

22:在Kafka集群中保留期的目的是什么?

23:解释Kafka可以接收的消息最大为多少?

24:传统的消息传递方法有哪些类型?

25: ISR在Kafka环境中代表什么?

26:什么是Kafka中的地域复制?

27:解释多租户是什么?

28:消费者API的作用是什么?

29:解释流API的作用?

30:连接器API的作用是什么?

31:解释生产者是什么?

32:比较RabbitMQ与Apache Kafka-

33:比较传统队列系统与Apache Kafka

34:为什么要使用Apache Kafka集群?

35:解释术语"Log Anatomy"

36: Kafka 中的数据日志是什么?

37: 解释如何调整Kafka以获得最佳性能。

38: Apache Kafka的缺陷-

39:列出所有Apache Kafka业务

40:解释Apache Kafka用例?

四、基于特征的Kafka面试##

41: Kafka 的一些最显著的应用。

42: Kafka 流的特点。

43: Kafka的流处理是什么意思?

44:系统工具有哪些类型?

45: 什么是复制工具及其类型?

46: Java在Apache Kafka中的重要性是什么?

47:说明Kafka的一个最佳特征。

48:解释术语" 主题复制因子”.

49:解释-些Kafka流实时用例。

50: Kafka提供的保证是什么?

第二版: Redis27 道

1、什么是Redis?简述它的优缺点?

2. Redis 与memcached相比有哪些优势?

3. Redis 支持哪几种数据类型?

4、Redis 主要消耗什么物理资源?

5、Redis 有哪几种数据淘汰策略?

6. Redis 官方为什么不提供Windows版本?

7. -个字符串类型的值能存储最大容量是多少?

8、为什么Redis需要把所有数据放到内存中?

9. Redis集群方案应该怎么做?都有哪些方案?

10、Redis 集群方案什么情况下会导致整个集群不可用?

11、MySQL里有2000w数据，redis 中只存20w的数据,如何保证redis中的数据都是热点数据?

12、Redis 有哪些适合的场景?

(1)会话缓存(Session Cache)

(2)全页缓存(FPC)

(3)队列.

(4)排行榜/计数器

(5)发布/订阅

13. Redis 支持的Java户端都有哪些?官方推荐用哪个?

14、Redis 和Redisson有什么关系?

15. Jedis 与Redisson对比有什么优缺点?

16.说说Redis哈希槽的概念?

17. Redis 集群的主从复制模型是怎样的?

18、Redis 集群会有写操作丢失吗?为什么?

19. Redis 集群之间是如何复制的?

20、Redis 集群最大节点个数是多少?

21. Redis 集群如何选择数据库?

22、Redis 中的管道有什么用?

23.怎么理解Redis事务?

24、Redis 事务相关的命令有哪几个?

25、Redis key的过期时间和永久有效分别怎么设置?

26、Redis 如何做内存优化?

27. Redis 回收进程如何工作的?

第二版: Redis 40道

1.什么是Redis?.

2. Redis 的数据类型?

3、使用Redis有哪些好处?

4、Redis相比Memcached有哪些优势?

5. Memcache 与Redis的区别都有哪些?

6. Redis 是单进程单线程的?

7. -一个字符串类型的值能存储最大容量是多少?

8、Redis的持久化机制是什么?各自的优缺点?

9. Redis 常见性能问题和解决方案:

10、redis 过期键的删除策略?

11. Redis 的回收策略(淘汰策略) --__..

12、为什么edis需要把所有数据放到内存中?

13. Redis 的同步机制了解么?

14、Pipeline 有什么好处，为什么要用pipeline?

15、是否使用过Redis集群，集群的原理是什么?

16、Redis 集群方案什么情况下会导致整个集群不可用?

17、Redis 支持的Java客户端都有哪些?官方推荐用哪个?

18、Jedis 与Redisson对比有什么优缺点?

19. Redis 如何设置密码及验证密码?

20、说说Redis哈希槽的概念?

21. Redis 集群的主从复制模型是怎样的?

22. Redis 集群会有写操作丢失吗?为什么?

23. Redis 集群之间是如何复制的?

24、Redis 集群最大节点个数是多少?

25、Redis 集群如何选择数据库?

26、怎么测试Redis的连通性?

27.怎么理解Redis事务?

28、Redis 务相关的命令有哪几个?

29. Redis key的过期时间和永久有效分别怎么设置?

30、Redis 如何做内存优化?

31. Redis 回收进程如何工作的?

32、都有哪些办法可以降低Redis的内存使用情况呢?

33. Redis 的内存用完了会发生什么?

34、一个Redis 实例最多能存放多少的keys? List. Set, Sorted Set他们最多能存放多少元素?

35、MySQL里有2000w数据，redis 中只存20w的数据，如何保证redis中的数据都是热点数据?

36、Redis 最适合的场景?

1、会话缓存(Session Cache)

2、全页缓存(FPC)

3、队列.

4,排行榜/计数器

5、发布/订阅

37.假如Redis里面有1亿个key,其中有10w个key是以某个固定的已知的前缀开头的,如

果将它们全部找出来?

38、如果有大量的key需要设置同一时间过期，一般需要注意什么?

39、使用过Redis做异步队列么,你是怎么用的? -

40、使用过Redis分布式锁么，它是什么回事?

第二版: ZooKeeper 23道

1.ZooKeeper是什么?

2.ZooKeeper提供了什么?

1、文件系统

2、通知机制

3.Zookeeper文件系统

4.四种类型的znode-

1、PERSISTENT-持久化目录节点

2、PERSISTENT SEQUENTIAL-持久化顺序编号目录节点

3、EPHEMERAL -临时目录节点-

4、EPHEMERAL SEQUENTIAL -临时顺序编号目录节点

5.Zookeeper通知机制-

6.Zookeeper做了什么?

7.zk的命名服务(文件系统)

8.zk的配置管理(文件系统、通知机制)

9.Zookeeper集群管理(文件系统、通知机制)

10.Zookeeper分布式锁(文件系统。通知机制)

11获取分布式锁的流程

12.Zookeeper队列管理(文件系统、通知机制)

13.Zookeeper数据复制-

14.Zookeeper工作原理

15.zookeeper是如何保证事务的顺序一致性的?

16.Zookeeper下Server 工作状态

17.okeeper是如何选取主leader的?

1、Zookeeper 选主流程(basic paxos)

2. Zookeeper 选主流程(basic paxos)

18.Zookeeper同步流程

19.分布式通知和协调-

20.机器中为什么会有leader?

21.zk节点宕机如何处理?

22.zookeeper负载均衡和nginx负载均衡区别-

23.zookeeper watch机制

第二版: ZooKeeper28道-

1. ZooKeeper面试题?

2. ZooKeeper提供了什么?

1、文件系统

2.通知机制

3. Zookeeper文件系统

4. ZAB协议?

5.四种类型的数据节点Znode-

1、PERSISTENT-持久节点

2、EPHEMERAL-临时节点

3、PERSISTENT_ SEQUENTIAL-持久顺序节点

4、EPHEMERAL. SEQUENTIAL-临时顺序节点

6. Zookeeper Watcher机制-数据变更通知-

7.客户端注册Watcher实现.

8.服务端处理Watcher实现:

1、服务端接收Watcher并存储

2、Watcher 触发

3、调用process方法来触发Watcher

9.客户端回调Watcher

10. ACL权限控制机制

11. Chroot特性

12.会话管理

13.服务器角色.

14. Zookeeper下Server工作状态:

15.数据同步.

16. zookeeper是如何保证事务的顺序一致性的?

17.分布式集群中为什么会有Master?

18. zk节点宕机如何处理?

19. zookeeper负载均衡和nginx负载均衡区别

20. Zookeeper有哪几种几种部署模式?

21.集群最少要几台机器，集群规则是怎样的?

22.集群支持动态添加机器吗?

23. Zookeeper对节点的watch监听通知是永久的吗?为什么不是永久的?

24. Zookeeper的java客户端都有哪些?

25. chubby是什么,和zookeeper比你怎么看?

26.说几个zookeeper常用的命令。

27. ZAB和Paxos算法的联系与区别?

28. Zookeeper的典型应用场景

第二版: ZooKeeper 36道

ZooKeeper是什么?

(1)顺序一致性-

(2)原子性-

(3)单一视图.

(4)可靠性:

(5)实时性(最终- 致性)

ZooKeeper提供了什么?

Zookeeper文件系统

Zookeeper怎么保证主从节点的状态同步?

恢复模式

广播模式

四种类型的数据节点Znode-

Zookeeper Watcher机制- 数据变更通知

(1)客户端注册watcher-

(2)服务端处理watcher-

(3)客户端回调watcher-

Watcher特性总结

客户端注册Watcher实现

服务端处理Watcher实现-

客户端回调Watcher-

ACL权限控制机制

Chroot特性

会话管理

服务器角色

(1)事务请求的唯-调度和处理者，保证集群事务处理的顺序性-

(2)集群内部各服务的调度者

(1) 处理客户端的非事务请求，转发事务请求给Leader 服务器

(2)参与事务请求Proposal 的投票.

(3)参与Leader 选举投票

Zookeeper下Server 工作状态

数据同步

(1)直接差异化同步(DIFF 同步)

(2)先回滚再差异化同步(TRUNC+DIFF 同步)

(3)仅回滚同步(TRUNC同步)

(4)全量同步(SNAP 同步)

zookeeper是如何保证事务的顺序一致性的?

分布式集群中为什么会有Master 主节点?

zk节点宕机如何处理?

zookeeper负载均衡和nginx 负载均衡区别

Zookeeper有哪几种几种部署模式?

集群最少要几台机器，集群规则是怎样的?集群中有3台服务器.其中一个节点宕机。这个时候Zookeeper还可以使用吗?

集群支持动态添加机器吗?

Zookeeper对节点的watch监听通知是永久的吗?为什么不是永久的?-

Zookeeper的java客户端都有哪些? ...

chubby是什么，和zookeeper比你怎么看?

说几个zookeeper常用的命令.

ZAB和Paxos算法的联系与区别?

Zookeeper的典型应用场景

(1)数据发布/订阅

(2)负载均衡

(3)命名服务

(4)分布式协调/通知-

(5)集群管理-

(6) Master 选举.

(7)分布式锁

(8)分布式队列-

1数据发布/订阅-

介绍.

目的

设计模式

数据(配置信息)特性

基于Zookeeper 的实现方式

2负载均衡

分布式通知和协调

zk的命名服务(文件系统)

zk的配置管理(文件系统、通知机制)

Zookeeper集群管理(文件系统、通知机制)

Zookeeper分布式锁(文件系统、通知机制)

Zookeeper队列管理(文件系统、通知机制)

Zookeeper都有哪些功能?

说一下Zookeeper的通知机制?

Zookeeper和Dubbo的关系?

总结

因为内容过多，小编就不一一介绍了，希望这239道面试题能够帮助到大家找到好工作！

话不多说了，需要这些大数据面试题的小伙伴，点击这里即可。

全部评论

推荐最新楼层

05-06 14:46

河南科技大学前端工程师

华为OD，最后offer审批没给通过，请问有赔偿吗，谁是内部人士解答一下？

问问题：华为OD，最后offer审批没给通过，请问有赔偿吗，谁是内部人士能解答一下？

点赞评论收藏

04-15 18:11

中国人民大学前端开发其它

面试官角度谈谈还要刷力扣吗

上周组里招人，我面了六个候选人，回来跟同事吃饭的时候聊起一个让我挺感慨的现象。前三个候选人，算法题写得都不错。第一道二分查找，五分钟之内给出解法，边界条件也处理得干净。第二道动态规划，状态转移方程写对了，空间复杂度也优化了一版。我翻他们的简历，力扣刷题量都在300以上。后三个呢，就有点参差不齐了。有的边界条件没处理好，有的直接说这道题没刷过能不能换个思路讲讲。其中有一个女生，我印象特别深——她拿到题之后没有马上写，而是先问我：“面试官，我能先跟你确认一下我对题目的理解吗？”然后她把自己的思路讲了一遍，虽然最后代码写得不是最优解，但整个沟通过程非常顺畅。这个女生的代码不是最优的，但当我问她“如果这里是线上环境，你会怎么设计’的时候，她给我讲了一套完整的方案——异常怎么处理、日志怎么打、怎么平滑发布。她对这是之前在实习的时候踩过的坑。”我在想LeetCode到底在筛选什么？我自己的经历可能有点代表性。我当年校招的时候，也是刷了三百多道题才敢去面试。那时候大家都刷，你不刷就过不了笔试关。后来工作了，前三年基本没再打开过力扣。真正干活的时候，没人让你写反转链表，也没人让你手撕红黑树。更多的是：这个接口为什么慢了、那个服务为什么OOM了、线上数据对不上了得排查一下。所以后来我当面试官，慢慢调整了自己的评判标准。算法题我还会出，但目的变了。我出算法题，不是想看你能不能背出最优解。而是想看你拿到一个陌生问题的时候，是怎么思考的。你会先理清题意吗？你会主动问边界条件吗？你想不出来的时候会怎么办？你写出来的代码，变量命名乱不乱、结构清不清楚？这些才是工作中真正用得到的能力。LeetCode是一个工具，不是目的。它帮你熟悉数据结构和常见算法思路，这没问题。但如果你刷了三百道题，却说不清楚自己的项目解决了什么问题、遇到了什么困难、你是怎么解决的，那这三百道题可能真的白刷了。所以还要不要刷LeetCode？要刷，但别只刷题。刷题的时候，多问自己几个为什么：为什么用这个数据结构？为什么这个解法比那个好？如果换个条件，解法还成立吗？把刷题当成锻炼思维的方式，而不是背答案的任务。毕竟面试官想看到的，从来不是一台背题机器，而是一个能解决问题的人。

牛客51274894...：意思是光刷力扣还不够卷

AI时代还有必要刷lee...

点赞评论收藏

04-22 17:17

太原理工大学 Java

28届求锐评简历

投了三天boss了，就两三个要简历的，java实习都这么难找了吗

点赞评论收藏

05-05 11:47

三江学院 C++

AI Agent面经 1（持续更新）

Q1：⼀句话说明什么是 AI Agent？答案：AI Agent 是以⼤模型为认知核⼼，结合规划、记忆与⼯具调⽤，能在多步交互中根据环境反馈持续决策并完成任务的系统；其本质是 闭环的感知—思考—⾏动 循环，⽽不仅是单次⽂本⽣成。Q2：为什么说 Agent = LLM + Planning + Memory + Tools？缺⼀块会怎样？答案：缺 Planning：容易变成「只会接话」的聊天，⻓任务易跑偏或⼀步登天完不成。缺 Memory：⻓对话会丢线索，多会话⽆法延续⽤户偏好与任务状态。缺 Tools：只能「空谈」，⽆法查实时信息、执⾏代码、改系统状态。LLM 仍是中枢，但单靠 LLM 没有外...

查看3道真题和解析

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 联宝杯大学生创新大赛，你的技术值得产业级答案 #

# 大学四年该怎么过，才不算浪费时间？ #