首页 / 数据开发
#

数据开发

#
182892次浏览 1506人互动
此刻你想和大家分享什么
热门 最新
2024-09-29 16:20
已编辑
华东理工大学 数据仓库
滴滴 数据开发 凉经
一面 经典的自我介绍我看你实习经历挺多的,你挑一个项目讲讲看吧?我希望听到的是背景,目的以及你做了什么balabala嗯嗯,这么看我了解你的业务背景了,那你觉得你项目的目的是什么呢?我:balabala,为了看a,b,这几个指标拆解之后是看这些内容,但是主要是为了什么呢?是不是为了提升用户的体验(面试官真的一步步引导)再说说你做了哪些表吧,涉及到哪些层?有哪些比较重要的指标。balabala所以你怎么理解这些内容之间的关系呢?你觉得为什么要存在ads这一层?不能直接从dws取数据吗?看你有说到这个cdm覆盖率跟ods穿透率,这两个指标是什么意思?那你讲讲你认为各层的作用?什么情况下中间层是可以不要的?有做过数据治理的内容吗?都写过什么DQC?UDF写过吗?举个例子sql写的怎么样?开窗熟悉吗?举几个例子反问:问了下负责的业务,有哪些数据二面经典自我介绍 被打断我比较关心你在饿了么的实习,你讲下这个吧我balabala讲了下我负责的业务系统,然后接触了哪两块的数据所以可以理解的是,你在这三个环节里,负责第一个跟第三个是吗?那你讲讲第一个都有些什么内容好的,我了解了,感觉第三个环节更为复杂,你聊聊这个?balabala所以你一共是建了三张表是吧?那这些涉及到哪些层呢?你们的需求都是直接来自产运团队吗?项目看中些什么呢?工作会考虑北方吗?有做过数据治理的内容吗?你怎么保证时效性跟准确性这些的?手撕:连续一小时在线男用户人数,急了没撕出来。想到最后准备写60个lag(),面试官就让我写成在线人数就好。你有了解hive跟spark吗?一个sql任务会有多少次shuffle?我:取决于map跟reduce的数量?有做过数据倾斜的处理吗?打散大键大小表这种呢?mapjoin广播小表小文件呢?我:预聚合。追问除了预聚合呢?我:不太记得。面试官:可以调整块大小,我:哦block,对不起有点忘了。反问三面经典自我介绍看你不是大数据这个方向的,怎么想了做这个?balabala挑一个你实习期间比较难的问题讲讲吧?你是怎么思考的?怎么沉淀的?怎么学习新东西的?大部分都是些场景题和一些发散的问题,没有专业知识的拷打。反问:没什么问题,一面二面都问过了。--------timeline---------------------9.23 5点10开始一面 38分钟左右结束了,10分钟约了二面9.23 6点30开始二面 7点10的样子结束的,就问了20分钟吧9.24下午约三面9.25晚7点三面 6点58开始的,面了45分钟9.29检查官网 三面已挂
点赞 评论 收藏
分享
2025-07-02 15:29
已编辑
江汉大学 大数据开发工程师
字节数据开发timeline
6.20一面自我介绍,项目拷打,数据倾斜的发现,以及如何做的,计算过哪些指标,场景题:计算2024-01-01至今商品的点击率,为了计算该指标,dwd层和dws层该如何构建sql题:将连续的时间展开user_id,s_date,e_date,输出user_id  date_time,求三日内留存率与三日留存率耗时40分钟6.23二面,自我介绍,项目拷打 这里感觉面试官 认为我对项目的理解不够深入,聊了一半开始做题,sql:连续登陆领金币问题,直播间峰值做完题又随便聊了聊,耗时40分钟6.26 加面三面,被面试官狠狠拷打,先拷打项目,先问数据倾斜,join产生数据倾斜该怎么处理,两个小表之间join,产生数据倾斜你有什么好办法,然后延展,两个大表之间join,产生数据倾斜你又有什么好办法。在问spark对比hadoop好在那里,一不小心答到了sparkAQE,在延伸小文件问题,小文件问题除了查询比较慢还有什么其他的坏处这里答道元数据过多,会引起查询慢,直接延伸目录树的存储方式,再来一个场景题 给你1t的内存存储800个g的元数据,你有什么疑问,reduceByKey、groupByKey、combineByKey等几个ByKey算子的区别,并且 combineByKey需要传入几个参数,然后spark 火焰图了解吗?count(distinct user_id) 用spark 怎么写,一道sql题,编程题看我没有刷过力扣直接没出,面试很有难度,特别多场景题,预估是挂掉了,被面试官面到一半汗都出来了,期间穿插各种spark源码相关问题,以及问我有没有看过spark源码。耗时80分钟oc
查看19道真题和解析
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务