欢聚 大数据开发实习 面经(已offer)

首先做了三道SQL题,主要涉及分组聚合、窗口函数。


3.3 一面 28min:

1.自我介绍

2.为什么要做这个项目

3.介绍DataX

4.项目问题

5.介绍HDFS

6.Hadoop hive hdfs spark关系

7.职业规划

8.数仓分层

9.窗口函数


3.6 二面 45min:

1.自我介绍

2.项目介绍

3.维度模型

4.一道数仓场景题

5.数仓分层

6.SQL常用函数

7.rank dense_rank row_number区别

8.SQL优化常用手段

9.数据倾斜问题

10.职业规划


3.6 oc

3.8 offer ✅

#数据人的面试交流地##我的实习求职记录##欢聚时代##24届实习##大数据开发实习#
全部评论
还学过datax,可以可以
1 回复 分享
发布于 2023-05-12 00:46 北京
sql做多了就烦
1 回复 分享
发布于 2023-03-20 00:37 广东
老哥二面是在哪里面的?是在牛客网上面的吗
点赞 回复 分享
发布于 2024-03-22 13:34 广东
可以问问场景题是什么吗😂
点赞 回复 分享
发布于 2023-07-05 19:05 四川
请问3道sql是一面手撕吗
点赞 回复 分享
发布于 2023-06-28 18:20 广东
投了他不理😭
点赞 回复 分享
发布于 2023-06-20 14:22 黑龙江
数开目前还有吗?
点赞 回复 分享
发布于 2023-06-05 12:49 广东
欢聚还可以投吗
点赞 回复 分享
发布于 2023-03-21 14:30 四川
楼主,请问一般面大数据离线,一般会现场手撕算法吗
点赞 回复 分享
发布于 2023-03-11 09:43 上海
楼主,请问base是哪里啊
点赞 回复 分享
发布于 2023-03-10 17:57 广东
点赞 回复 分享
发布于 2023-03-09 20:07 湖南
什么时候入职呀
点赞 回复 分享
发布于 2023-03-09 16:40 广东
这个公司咋还在招人,我去年10月12月都见过,一直招到现在中间没断
点赞 回复 分享
发布于 2023-03-09 10:38 河南
可以问下你在哪里投的欢聚吗
点赞 回复 分享
发布于 2023-03-09 08:45 重庆

相关推荐

作业帮时间是随机的,今天下午测的。作业帮是10道选择题加2到算法题:选择题:考了数据结构排序二叉树,linux命令:awk '$NF' test 这里的test是一个有多行数据的文件,这命令是输出该文件末行的内容。还考了mapreduce优化数据倾斜的办法这里我好像选错了有两个选项一个是把count(distinct ) 替换为sum()group by 还有是将小文件先保存到内存中这两个好像是对的都可以优化数据倾斜此问题。还考了Flink的一些特性不过我还没学过flink,还考了kafka的高性能和低性能的一些问题,这我也是一脸懵。还考了六个盘的汉洛塔要移动几次才通过。然后是算法题,第一个是简单的二分查找,不过我只通过了94%,后面看估计是我对左右指针移动还是有点问题。第二个是leetcode32题,最长有效括号,可惜了我两个月前还写过但是还是没写对,只通过了63%。也不知道能不能过。阅文(寄了,以为是8.30考没想到是8.30结束结果只写了20分钟):这好像是前面是单选题,中间是不定项,后面是问答题单选题:考了hive内置函数,考了hive与spark的对比,hadoop节点默认备份是多少~(还考了斗破苍穹的主角是谁虽然我没看过印像中好像叫萧炎)不定项:有mysql中delete,drop和truncate这三者的区别特点(我对truncate完全没印象),还考了flink的一些知识。问答题:第一个是mapredce工作流程这个还好,第二个是如何解决spark数据倾斜的方法。这里时间不够了我一点没写,也没多少印象。这里我现在写一下加深点印象1.可以增加随机前缀或后缀:来打散数据分布,在后继计算中去除前后缀从而负载均衡2.广播小表,如果是原因是小表与大表join可以将小表广播到每个节点,避免产生数据倾斜。3.salting方法:为倾斜数据填加盐值,打散倾斜数据4.分区策略调整:通过自定义分区器或者合理选择内置分区器来均匀分布数据5.增大并行度:针对只有少量数据造成的倾斜任务,增加并行度可以更快地处理这些小任务6.数据预处理:合并一些小文件,fliter操作等第三四个就是写sql语句,第三个挺简单的就是第四题来不及看了。ok就是这些了,预祝大家都能找到自己想要的工作实现,我还是继续去沉淀去了,这一个月也不知道自己在忙些啥好像就是一直在刷算法题和sql题,八股都没怎么看,对组件的掌握还是太浅了。
查看14道真题和解析 投递阅文集团等公司6个岗位 数据人的面试交流地
点赞 评论 收藏
分享
1. 基本情况方向:数据工程,时间:40分钟结束、16:00开始,无手撕,多场景2. 自我介绍3. 一些能够回忆起来的(或许有不正确的地方):(1)提问R:你这个项目是课程作业还是什么?R:那你说说Hive和ClickHouseR:你谈到了OLAP,那和OLTP有啥区别?R:没了?ClickHouse适合那种场景?R:可以用作实时数仓吗?R:课程中有数据库相关的吗?只有数据结构与算法?R:MySQL系统学习过吗?R:数据怎么导入到ClickHouse的?R:直接到ClickHouse?R:数仓分层?四层讲讲。R:那为什么要分层呢?DWS已经差不多了为什么还需要ADS呢?R:场景题:在你的表上新...
牛客861513826号:A场景题:数量统计不说了;退货平均时间:先沟通清楚,月平均退货时间算不算上不退货的用户,不算的话,就只计算退货用户;一个用户的退货时间减去到货时间拿到这件商品的退货时间,然后计算每个退货用户的退货时间,AVG开窗partition by月份,计算出每个月的平均退货时间。如果要算上不退货的用户,也就是让这个用户的退货时间是0,然后对所有用户计算AVG同上。 B场景题:结合下面他提示你再想想数据倾斜,其实这道题是想靠你数据倾斜怎么解决;本来是一个商品购买信息表,记录商品信息和购买者信息,如果给购买者信息加上性别,要求算出每个商品不同性别的购买人数。百分之八十女性用户,所以如果单纯对表进行分组聚合,会产生数据倾斜问题,由分组聚合产生。五种办法可以解决,两种hive参数,三种SQL,往SQL方向聊,以防他追问参数底层,参数这种东西最难聊了,别给自己挖坑
点赞 评论 收藏
分享
评论
25
75
分享

创作者周榜

更多
牛客网
牛客企业服务