百度数据工程拷打
又是超过一小时的拷打,感觉这次挺综合的,八股、语言、大数据全都问了一遍
1. 项目拷打,主要问我的项目为什么采用Hive Transform这种比较小众的方案,我的回答感觉他还是比较满意的
2. 简述至少3种常见的排序算法,时间复杂度,稳定性
3. 关系型数据库的索引的常用数据结构是?选择这种数据结构的原因是?
4. MySQL中什么时候会导致索引失效?
5. Java线程安全的数据结构有哪些?
6. ConcurrentHashMap是怎么实现的?相比于在直接在HashMap外边加锁有什么区别?
7. HashMap的key可以是什么类型?有什么要求?
8. 处理金额相关的数据的时候,应该如何存储?在Java中和MySQL中应该选择什么数据类型?
9. Linux下如何用一条命令统计某个目录下各个子目录的占用空间大小?
10. 如果把Linux换成HDFS呢?如何统计?
11. 对于一个超大的HDFS系统,会有什么性能风险?有什么优化手段?
12. Spark的并发度是如何控制的?在一个任务中什么情况会导致并发度变化?
13. 考虑以下场景:某电商网站有一个用户表(用户id,用户所在城市)和一个订单表(订单id,下单用户id,订单金额),请(1)统计总销售额前十的城市和这些城市对应的销售额(2)统计总销售额在10万元至20万元之间的城市
14. 一个表有年、月、pv三个列,要求写行专列代码,转成年、一月、二月、三月……
#面经##实习##校招##数据工程##大数据##互联网##百度#
1. 项目拷打,主要问我的项目为什么采用Hive Transform这种比较小众的方案,我的回答感觉他还是比较满意的
2. 简述至少3种常见的排序算法,时间复杂度,稳定性
3. 关系型数据库的索引的常用数据结构是?选择这种数据结构的原因是?
4. MySQL中什么时候会导致索引失效?
5. Java线程安全的数据结构有哪些?
6. ConcurrentHashMap是怎么实现的?相比于在直接在HashMap外边加锁有什么区别?
7. HashMap的key可以是什么类型?有什么要求?
8. 处理金额相关的数据的时候,应该如何存储?在Java中和MySQL中应该选择什么数据类型?
9. Linux下如何用一条命令统计某个目录下各个子目录的占用空间大小?
10. 如果把Linux换成HDFS呢?如何统计?
11. 对于一个超大的HDFS系统,会有什么性能风险?有什么优化手段?
12. Spark的并发度是如何控制的?在一个任务中什么情况会导致并发度变化?
13. 考虑以下场景:某电商网站有一个用户表(用户id,用户所在城市)和一个订单表(订单id,下单用户id,订单金额),请(1)统计总销售额前十的城市和这些城市对应的销售额(2)统计总销售额在10万元至20万元之间的城市
14. 一个表有年、月、pv三个列,要求写行专列代码,转成年、一月、二月、三月……
#面经##实习##校招##数据工程##大数据##互联网##百度#
全部评论
相关推荐
查看11道真题和解析