字节 数仓实习 面经(已挂)

岗位:数仓实习

时间:8月15日

面试题:

1.过往经历集中在数据分析,如何看待自己的职业发展,对数仓这个岗位如何能确定自己是能长期做下去的

2.介绍一下过往项目,要求详细说明项目的背景,做了什么,怎么做的,结果如何

3.一个比较抽象的问题:如果目前有很多视频,有用户id,视频id,开始播放时间,结束播放时间,怎么计算某个时间点最大的视频播放量,不用写sql,口述即可

4.在这个过程中遇到数据倾斜的问题,比如某个视频播放量特别大,该如何做分桶,针对哪个字段

5.spark中造成数据倾斜的原因是什么(落在shuffle)

6.spark中的stage和task是并行还是串行的?spark中有哪些算子会造成数据倾斜?解决数据倾斜的手段有哪些

7.了解索引吗?什么是聚集索引和非聚集索引?聚集索引可以有几个?B树,B+树,哈希索引的区别?

8.数据清洗面对缺失值,异常值如何处理(谈到数据标准化,比如对性别的缺失值打上未知标签)

9.用户画像如何进行标签的构建?10.如何保证数据的质量?11.写sql的时候from的表如何找到?数据地图知道吗12.SQL题 列转行

#秋招笔面试记录#
全部评论
全会,感觉我又行了,字节冲冲冲。最后问一点:项目挖得深不深,挖项目的时间占全场面试多少
点赞 回复 分享
发布于 昨天 12:23 广东

相关推荐

点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务