首页 / 数据开发
#

数据开发

#
127746次浏览 1210人互动
此刻你想和大家分享什么
热门 最新
字节数据开发timeline
6.20一面自我介绍,项目拷打,数据倾斜的发现,以及如何做的,计算过哪些指标,场景题:计算2024-01-01至今商品的点击率,为了计算该指标,dwd层和dws层该如何构建sql题:将连续的时间展开user_id,s_date,e_date,输出user_id  date_time,求三日内留存率与三日留存率耗时40分钟6.23二面,自我介绍,项目拷打 这里感觉面试官 认为我对项目的理解不够深入,聊了一半开始做题,sql:连续登陆领金币问题,直播间峰值做完题又随便聊了聊,耗时40分钟6.26 加面三面,被面试官狠狠拷打,先拷打项目,先问数据倾斜,join产生数据倾斜该怎么处理,两个小表之间join,产生数据倾斜你有什么好办法,然后延展,两个大表之间join,产生数据倾斜你又有什么好办法。在问spark对比hadoop好在那里,一不小心答到了sparkAQE,在延伸小文件问题,小文件问题除了查询比较慢还有什么其他的坏处这里答道元数据过多,会引起查询慢,直接延伸目录树的存储方式,再来一个场景题 给你1t的内存存储800个g的元数据,你有什么疑问,reduceByKey、groupByKey、combineByKey等几个ByKey算子的区别,并且 combineByKey需要传入几个参数,然后spark 火焰图了解吗?count(distinct user_id) 用spark 怎么写,一道sql题,编程题看我没有刷过力扣直接没出,面试很有难度,特别多场景题,预估是挂掉了,被面试官面到一半汗都出来了,期间穿插各种spark源码相关问题,以及问我有没有看过spark源码。耗时80分钟oc
查看19道真题和解析
点赞 评论 收藏
分享
2024-09-29 16:20
已编辑
华东理工大学 数据仓库
滴滴 数据开发 凉经
一面 经典的自我介绍我看你实习经历挺多的,你挑一个项目讲讲看吧?我希望听到的是背景,目的以及你做了什么balabala嗯嗯,这么看我了解你的业务背景了,那你觉得你项目的目的是什么呢?我:balabala,为了看a,b,这几个指标拆解之后是看这些内容,但是主要是为了什么呢?是不是为了提升用户的体验(面试官真的一步步引导)再说说你做了哪些表吧,涉及到哪些层?有哪些比较重要的指标。balabala所以你怎么理解这些内容之间的关系呢?你觉得为什么要存在ads这一层?不能直接从dws取数据吗?看你有说到这个cdm覆盖率跟ods穿透率,这两个指标是什么意思?那你讲讲你认为各层的作用?什么情况下中间层是可以不要的?有做过数据治理的内容吗?都写过什么DQC?UDF写过吗?举个例子sql写的怎么样?开窗熟悉吗?举几个例子反问:问了下负责的业务,有哪些数据二面经典自我介绍 被打断我比较关心你在饿了么的实习,你讲下这个吧我balabala讲了下我负责的业务系统,然后接触了哪两块的数据所以可以理解的是,你在这三个环节里,负责第一个跟第三个是吗?那你讲讲第一个都有些什么内容好的,我了解了,感觉第三个环节更为复杂,你聊聊这个?balabala所以你一共是建了三张表是吧?那这些涉及到哪些层呢?你们的需求都是直接来自产运团队吗?项目看中些什么呢?工作会考虑北方吗?有做过数据治理的内容吗?你怎么保证时效性跟准确性这些的?手撕:连续一小时在线男用户人数,急了没撕出来。想到最后准备写60个lag(),面试官就让我写成在线人数就好。你有了解hive跟spark吗?一个sql任务会有多少次shuffle?我:取决于map跟reduce的数量?有做过数据倾斜的处理吗?打散大键大小表这种呢?mapjoin广播小表小文件呢?我:预聚合。追问除了预聚合呢?我:不太记得。面试官:可以调整块大小,我:哦block,对不起有点忘了。反问三面经典自我介绍看你不是大数据这个方向的,怎么想了做这个?balabala挑一个你实习期间比较难的问题讲讲吧?你是怎么思考的?怎么沉淀的?怎么学习新东西的?大部分都是些场景题和一些发散的问题,没有专业知识的拷打。反问:没什么问题,一面二面都问过了。--------timeline---------------------9.23 5点10开始一面 38分钟左右结束了,10分钟约了二面9.23 6点30开始二面 7点10的样子结束的,就问了20分钟吧9.24下午约三面9.25晚7点三面 6点58开始的,面了45分钟9.29检查官网 三面已挂
点赞 评论 收藏
分享
六月份还没找到实习怎么办
学院鼠鼠一只耳:说是6个月以上,你想跑他们也拦不住,放心去,骑驴找马
点赞 评论 收藏
分享
百分点科技-数仓开发-二面面经
二面是要求线下面试,这也是我第一次线下,没啥经验,提前半小时到的,填了张面试信息表大概用了十分钟,之后等到两点左右,面试官准时来了。首先是个人介绍,学校、专业、项目、竞赛。看你是26届的,为什么这么早就开始实习,学校还有课吗?既然学的是软件工程,偏向后端开发,为什么要报数仓开发,你觉得一个后端开发的来数仓开发有什么优势?看你既会Java又会Python,这些语言跟数仓开发之间的联系?之后直接挑明了问简历上俩项目就是网上找的用来练手的吧,那么这种练手项目让你从中学到了什么?说一下用过的数据库有哪些,其中哪些是最熟悉的?(MySQL、Redis)你写SQL写得很多吗,你个人更偏向数仓开发还是数据分析?说一下数据治理的概念。(这个问题是全程唯一一个答偏了的,因为这个词接触得太少了,我硬着头皮把数据分析的概念说了一遍,面试官只是笑笑,没多说话,后边结束了问了学哥才知道概念解释错了)看你数仓都是用了五层规划,每层的作用是什么?你说ODS层的数据是不变的,那后续每日更新的数据是怎么获取的?(Maxwell主从复制,增量同步)如果其它层的数据需要进行更新,该怎么办?(周期快照事实表、拉链表)既然提到拉链表了,说一下它是怎么使用的?(我把拉链表的概念说了一遍)你刚才说的是拉链表的概念,如果现在有a表和b表,其中a表是拉链表,b表数据改变,怎么让a表的数据进行更新?请你看一下这个sql语句,说一下它最后取出来的数值的意义。(那是一个写得极其冗余的sql语句,嵌套了好多层,还join了四次同一张表,我最后没表达清楚,说这个语句是为了得到朝阳区最新的日期的数据,面试官说答得有些不对,其实是为了得到朝阳区最新的日期的空气质量。其实我就是这个意思,当时已经面了30分钟,嘴里开始发苦了,脑子想出来了嘴上没说好)实习最久能待几个月?(12个月)反问咱们公司的业务主要是哪些方面的?每天几点下班?你们的数仓团队现在有多少人?需要出差吗?后续流程需要多久,还会有三面吗?最后跟面试官说聊得很开心。出来后才想起来了没谈薪资的事情,虽然初筛的时候HR问过,但是还是有些后怕啊,不再跟我确认一遍吗写面经攒人品,希望能一把过
查看15道真题和解析
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务