字节数仓实习面试 (凉凉版)

1.过往经历集中在数据分析,如何看待自己的职业发展,对数仓这个岗位如何能确定自己是能长期做下去的

2.介绍一下过往项目,要求详细说明项目的背景,做了什么,怎么做的,结果如何

3.一个比较抽象的问题:如果目前有很多视频,有用户id,视频id,开始播放时间,结束播放时间,怎么计算某个时间点最大的视频播放量,不用写sql,口述即可

4.在这个过程中遇到数据倾斜的问题,比如某个视频播放量特别大,该如何做分桶,针对哪个字段

5.spark中造成数据倾斜的原因是什么(落在shuffle)

6.spark中的stage和task是并行还是串行的?spark中有哪些算子会造成数据倾斜?解决数据倾斜的手段有哪些

7.了解索引吗?什么是聚集索引和非聚集索引?聚集索引可以有几个?B树,B+树,哈希索引的区别?

8.数据清洗面对缺失值,异常值如何处理(谈到数据标准化,比如对性别的缺失值打上未知标签)

9.用户画像如何进行标签的构建?

10.如何保证数据的质量?

11.写sql的时候from的表如何找到?数据地图知道吗12.SQL题 列转行

#发面经攒人品#
全部评论

相关推荐

昨天 00:24
门头沟学院 Java
为什么面试八股文总是能被问道不会的地方。1.第一次乐读面试官问假如有十个线程对一个值为一成员变量执行加一操作,怎么能保证他的最终结果是11,我嘴角微微上扬,这不就是一个简单的线程安全问题吗,我直接说可以用synchronizated锁,结果面试官说除了锁呢(下去直接恶补了多线程并发的一系列问题包括原子变量 Volatile关键字这些)2.第二次shoopee面试,面试官问怎么保证消息队列的顺序消费,当时我嘴角微微上扬心想终于问道我会的了,我直接说生产者根据业务id将消息路由到同一个队列上,队列是天然有序的,消费者单线程消费这个队列。面试官直接追问我说假如我想消费端进行异步消费呢?又给我问懵了,下去再恶补顺序消费这一块(原来可以在消费端进行二次路由,根据业务id将消息路由到相同的线程进行处理)3.第三次拼多多面试,面试官问redis的持久化策略。我嘴角依然微微上扬,心想这不就是AOF和RDB吗一个追加写一个快照写,我刚开口,面试官就打断我说什么时候进行持久化,我又懵了,我心想我项目里面也没进行过持久化啊。4.第四次科大讯飞面试,面试官问我服务之间的通讯方式吗,我嘴角依然上扬,这不就是openfign吗,这次我不仅知道,还经常用,谁知道我刚说完openfign,面试官就问我他用的什么协议,我说了http,他又问为什么用http,我说http稳定,他说还有别的吗?我懵了,我说别的不太清楚,他又问服务之间通讯还有别的协议吗?我说还可以用WebSocket,我看到面试官失望的表情,仿佛知道了我的面试结果。这周恶补了netty,dubbo,RPC,明天面试,希望可以回答的游刃有余。
小小:用最少的精力准备最有效的八股:https://m.nowcoder.com/mianshi/top
查看9道真题和解析
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务