腾讯校招大数据开发面经

1.WordCount 具体是怎么跑的?比如怎么分片、map 阶段做了啥、shuffle 是咋回事、reduce 最后怎么汇总的
2.MapReduce和Spark 到底差在哪儿?适用场景这些都得对比着说
3.Spark 提交任务时,Client模式和集群模式有啥不一样?比如 Driver 在哪跑、日志在陖瞎圈看、适合啥场景
4.同一条 SQL,为啥 SparkSQL 跑起来比HiveSQL 快?得从执行引擎、优化器这些底层说说原因
5.自定义 UDF 怎么实现?比如在 Hive 或Spark 里,具体步骤是啥,有没有踩过坑
6.设计 HBase 表得注意啥?rowkey 怎么设计才合理、列族要不要分、版本数怎么设,这些睪腘狐旨を曽斷纰可能问到
7.HBase 里的 HLog 是干嘛的?跟数据持久化、故障恢复有关系吗
8.都是存在 HDFS 上的数据,为啥 HBase 能支持在线实时查询,Hive 就不行?底层存储结构不一样在哪
9.用 SparkSQL 操作 Hive 数据时,有没有縈区堠浓ゴ壮攥到过兼容性问题?比如某些函数不支持、数据格式读不对之类的,怎么解决的
10.Spark Streaming、Storm、Flink 这几个流处理框架,区别在哪?各自的优缺点和适用场景得搞明白
场景题:
11.数据量特别大,要用三个 Map 和一个Reduce 来做 Top10,哪种方法效率最高?得考虑怎么减少数据传输、避免倾斜
全部评论
大佬有手撕吗,难度如何
点赞 回复 分享
发布于 03-31 23:14 湖北
楼主简历是有hbase么,我到现在还没遇到过hbase的问题
点赞 回复 分享
发布于 2025-11-17 17:40 安徽
祝楼主早日收到offer!
点赞 回复 分享
发布于 2025-11-14 11:39 广东
面试结果什么时候出?
点赞 回复 分享
发布于 2025-11-14 11:38 北京
腾讯还是有难度
点赞 回复 分享
发布于 2025-11-13 12:02 上海

相关推荐

04-23 17:30
门头沟学院 Java
继续来分享下最近的面经~欢迎友好讨论,信息共享1. 你有没有接触过自动化测试?了解哪些测试框架(Python 或其他语言)?2. 你在A公司做的 AI 平台整体是干什么的?3. 你说的孤儿资源清理具体是怎么实现的?4. 你是怎么判断一个资源是孤儿资源的?5. 这个过程是基于全量扫描,还是事件驱动?具体怎么做的?6. Watch 和数据库同步这一套是怎么设计的?有没有一致性问题?7. 你的事件处理链路是怎样的?有没有用 Kafka?为什么用 / 不用?8. 你在B公司做的 Agent 核心是做什么的?解决了什么问题?9. 这个 Agent 实际是在部署什么?是服务、脚本还是其他东西?10. Agent 是中心化部署还是每台机器一个?为什么这么设计?11. Agent 和 Jenkins 的关系是什么?谁负责调度,谁负责执行?12. Agent 的所有动作是不是最终都是通过 Jenkins 来执行的?13. Jenkins 执行完之后,怎么和 Agent 做状态同步或结果回传?14. 既然 Jenkins 本身就能做自动化,为什么还要做一个 Agent?15. 用户在 Jenkins 上最容易填错哪些参数?为什么?16. 能不能完全不让用户填参数,让系统自动完成?为什么做不到?17. 如果 Jenkins 已经可以完成这些事情,引入 Agent / AI 的价值在哪里?18. 如果让你设计一个自动拉日志的 Agent,你整体流程是怎样的?19. 有3台Linux机器,日志路径不统一,而且是二进制日志,需要解析,你怎么设计?20. IP/Port 固定,但 SSH 密码会随软件版本变化,这个你怎么处理?21. 不同业务的人要不同日志路径,你怎么做管理?22. 用户不愿意维护配置表,你怎么让用户输入,同时系统自动沉淀规则?23. 日志解析涉及不同格式、工具、版本,这一块怎么设计?24. 如果这个 Agent 要扩展到自动检测、排障、自动化能力,架构怎么演进?25. 在完全没有规范流程、系统很混乱的情况下,你怎么落地这个 Agent?手撕:第二大的数字,不能用既有函数。
查看26道真题和解析
点赞 评论 收藏
分享
评论
6
26
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务