腾讯校招大数据开发面经

1.WordCount 具体是怎么跑的?比如怎么分片、map 阶段做了啥、shuffle 是咋回事、reduce 最后怎么汇总的
2.MapReduce和Spark 到底差在哪儿?适用场景这些都得对比着说
3.Spark 提交任务时,Client模式和集群模式有啥不一样?比如 Driver 在哪跑、日志在陖瞎圈看、适合啥场景
4.同一条 SQL,为啥 SparkSQL 跑起来比HiveSQL 快?得从执行引擎、优化器这些底层说说原因
5.自定义 UDF 怎么实现?比如在 Hive 或Spark 里,具体步骤是啥,有没有踩过坑
6.设计 HBase 表得注意啥?rowkey 怎么设计才合理、列族要不要分、版本数怎么设,这些睪腘狐旨を曽斷纰可能问到
7.HBase 里的 HLog 是干嘛的?跟数据持久化、故障恢复有关系吗
8.都是存在 HDFS 上的数据,为啥 HBase 能支持在线实时查询,Hive 就不行?底层存储结构不一样在哪
9.用 SparkSQL 操作 Hive 数据时,有没有縈区堠浓ゴ壮攥到过兼容性问题?比如某些函数不支持、数据格式读不对之类的,怎么解决的
10.Spark Streaming、Storm、Flink 这几个流处理框架,区别在哪?各自的优缺点和适用场景得搞明白
场景题:
11.数据量特别大,要用三个 Map 和一个Reduce 来做 Top10,哪种方法效率最高?得考虑怎么减少数据传输、避免倾斜
全部评论
楼主简历是有hbase么,我到现在还没遇到过hbase的问题
点赞 回复 分享
发布于 2025-11-17 17:40 安徽
祝楼主早日收到offer!
点赞 回复 分享
发布于 2025-11-14 11:39 广东
面试结果什么时候出?
点赞 回复 分享
发布于 2025-11-14 11:38 北京
腾讯还是有难度
点赞 回复 分享
发布于 2025-11-13 12:02 上海

相关推荐

2025-12-29 12:05
已编辑
门头沟学院 Java
timeline: 8/16投递,9/9一面, 之后挂了,9/26被另一个部门捞一面第一次一面:先项目拷打八股:Java中有哪些数据结构Java中的基本数据类型了解Java的线程吗?线程池有哪些方法?LRU Cache怎么实现?了解大数据框架吗,如Hadoop, HiveMysql 中UNION和UNION ALL的区别不同join类型的区别Mysql底层数据结构B树和B+树的区别Mysql索引的原理是什么Mysql索引类型有哪些SQL题:类似lc185. 部门工资前三高的所有员工,考OVER用法算法题:lc704. 二分查找第二次一面:开放性问题:为什么选数据开发方向?了解想在这个方向就业需要学哪些知识吗?对于没有接触过的东西你是怎么学的?八股:JVM的内存结构你了解哪些垃圾回收算法,如何运作?多线程实现的方式有哪些?有什么手段能保证线程安全?具体用过的有哪些?什么场景下用的?为什么要用?解决了什么问题?数据库的事务是什么?解决了什么问题?MySQL中是如何实现事务的?MySQL有哪些引擎,区别是什么?MySQL中有哪些索引,结构是什么样的,怎么实现的?如何优化慢SQL?如何判断索引是否命中?如果用分库分表的方式查询,该怎么组织查询结果?如何找到要查询的数据库?SQL题:sales表有product_name, date, sales_amount字段,计算销售额最高的3个商品如何把排名显示出来如何计算每周销售额前三的产品算法题:lc8. 字符串转换整数 (atoi),要考虑各种情况(正负整数,浮点数,NaN,科学计数法,百分数等)因为项目做的内容是偏数据的,以为投数据开发也行,但是对大数据框架、SQL题并不了解岗位不匹配,两面都挂了,白白用掉了投递机会家人们还是老老实实投Java开发,不要投错岗了
点赞 评论 收藏
分享
评论
2
14
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务