字节 数仓实习 面经(已挂)
岗位:数仓实习
时间:8月15日
面试题:
1.过往经历集中在数据分析,如何看待自己的职业发展,对数仓这个岗位如何能确定自己是能长期做下去的
2.介绍一下过往项目,要求详细说明项目的背景,做了什么,怎么做的,结果如何
3.一个比较抽象的问题:如果目前有很多视频,有用户id,视频id,开始播放时间,结束播放时间,怎么计算某个时间点最大的视频播放量,不用写sql,口述即可
4.在这个过程中遇到数据倾斜的问题,比如某个视频播放量特别大,该如何做分桶,针对哪个字段
5.spark中造成数据倾斜的原因是什么(落在shuffle)
6.spark中的stage和task是并行还是串行的?spark中有哪些算子会造成数据倾斜?解决数据倾斜的手段有哪些
7.了解索引吗?什么是聚集索引和非聚集索引?聚集索引可以有几个?B树,B+树,哈希索引的区别?
8.数据清洗面对缺失值,异常值如何处理(谈到数据标准化,比如对性别的缺失值打上未知标签)
9.用户画像如何进行标签的构建?10.如何保证数据的质量?11.写sql的时候from的表如何找到?数据地图知道吗12.SQL题 列转行
#秋招笔面试记录#