美团校招一面数仓

#软件开发笔面经#

美团一面
1. 说一说对Hadoop体系的理解及其核心组件的功能。
2. 数据上传到HDFS时如何划分数据块以及块与文件的对应关系。
3. Hive常见的优化方案以及具体的实施方法。
4. 数据仓库的分层结构DWD和DWS层是必须的吗?它们分别是做什么的。
5. MySQL事务的四个原则(ACID)及其含义。
6. MySQL中索引的分类及其区别(如聚集索引、簇状索引、非簇状索引)。
7. 前缀索引及最左匹配原则的理解。
8. Spark中RDD的宽窄依赖的区分,并举例说明哪些算子属于宽依赖或窄依赖。
9. 简历深挖
10. 遇到的最大的困难
写sql,次日留存率
讲讲你对维度建模的理解
你觉得什么样的数仓是一个比较好的数仓?
写sql,最大连续登录天数
全部评论
我看着似乎不难呢
点赞 回复 分享
发布于 2024-11-21 13:52 北京

相关推荐

作业帮时间是随机的,今天下午测的。作业帮是10道选择题加2到算法题:选择题:考了数据结构排序二叉树,linux命令:awk '$NF' test 这里的test是一个有多行数据的文件,这命令是输出该文件末行的内容。还考了mapreduce优化数据倾斜的办法这里我好像选错了有两个选项一个是把count(distinct ) 替换为sum()group by 还有是将小文件先保存到内存中这两个好像是对的都可以优化数据倾斜此问题。还考了Flink的一些特性不过我还没学过flink,还考了kafka的高性能和低性能的一些问题,这我也是一脸懵。还考了六个盘的汉洛塔要移动几次才通过。然后是算法题,第一个是简单的二分查找,不过我只通过了94%,后面看估计是我对左右指针移动还是有点问题。第二个是leetcode32题,最长有效括号,可惜了我两个月前还写过但是还是没写对,只通过了63%。也不知道能不能过。阅文(寄了,以为是8.30考没想到是8.30结束结果只写了20分钟):这好像是前面是单选题,中间是不定项,后面是问答题单选题:考了hive内置函数,考了hive与spark的对比,hadoop节点默认备份是多少~(还考了斗破苍穹的主角是谁虽然我没看过印像中好像叫萧炎)不定项:有mysql中delete,drop和truncate这三者的区别特点(我对truncate完全没印象),还考了flink的一些知识。问答题:第一个是mapredce工作流程这个还好,第二个是如何解决spark数据倾斜的方法。这里时间不够了我一点没写,也没多少印象。这里我现在写一下加深点印象1.可以增加随机前缀或后缀:来打散数据分布,在后继计算中去除前后缀从而负载均衡2.广播小表,如果是原因是小表与大表join可以将小表广播到每个节点,避免产生数据倾斜。3.salting方法:为倾斜数据填加盐值,打散倾斜数据4.分区策略调整:通过自定义分区器或者合理选择内置分区器来均匀分布数据5.增大并行度:针对只有少量数据造成的倾斜任务,增加并行度可以更快地处理这些小任务6.数据预处理:合并一些小文件,fliter操作等第三四个就是写sql语句,第三个挺简单的就是第四题来不及看了。ok就是这些了,预祝大家都能找到自己想要的工作实现,我还是继续去沉淀去了,这一个月也不知道自己在忙些啥好像就是一直在刷算法题和sql题,八股都没怎么看,对组件的掌握还是太浅了。
查看14道真题和解析 投递阅文集团等公司6个岗位 数据人的面试交流地
点赞 评论 收藏
分享
评论
4
18
分享

创作者周榜

更多
牛客网
牛客企业服务