作业帮+阅文笔试~数仓/数据开发

#数据人的面试交流地##实习进度记录##数据人的面试交流地#作业帮时间是随机的,今天下午测的。作业帮是10道选择题加2到算法题:
选择题:考了数据结构排序二叉树,linux命令:awk '$NF' test 这里的test是一个有多行数据的文件,这命令是输出该文件末行的内容。还考了mapreduce优化数据倾斜的办法这里我好像选错了有两个选项一个是把count(distinct ) 替换为sum()group by 还有是将小文件先保存到内存中这两个好像是对的都可以优化数据倾斜此问题。还考了Flink的一些特性不过我还没学过flink,还考了kafka的高性能和低性能的一些问题,这我也是一脸懵。还考了六个盘的汉洛塔要移动几次才通过。然后是算法题,第一个是简单的二分查找,不过我只通过了94%,后面看估计是我对左右指针移动还是有点问题。第二个是leetcode32题,最长有效括号,可惜了我两个月前还写过但是还是没写对,只通过了63%。也不知道能不能过。
阅文(寄了,以为是8.30考没想到是8.30结束结果只写了20分钟):
这好像是前面是单选题,中间是不定项,后面是问答题
单选题:考了hive内置函数,考了hive与spark的对比,hadoop节点默认备份是多少~(还考了斗破苍穹的主角是谁虽然我没看过印像中好像叫萧炎)
不定项:有mysql中delete,drop和truncate这三者的区别特点(我对truncate完全没印象),还考了flink的一些知识。
问答题:第一个是mapredce工作流程这个还好,第二个是如何解决spark数据倾斜的方法。这里时间不够了我一点没写,也没多少印象。这里我现在写一下加深点印象
1.可以增加随机前缀或后缀:来打散数据分布,在后继计算中去除前后缀从而负载均衡
2.广播小表,如果是原因是小表与大表join可以将小表广播到每个节点,避免产生数据倾斜。
3.salting方法:为倾斜数据填加盐值,打散倾斜数据
4.分区策略调整:通过自定义分区器或者合理选择内置分区器来均匀分布数据
5.增大并行度:针对只有少量数据造成的倾斜任务,增加并行度可以更快地处理这些小任务
6.数据预处理:合并一些小文件,fliter操作等
第三四个就是写sql语句,第三个挺简单的就是第四题来不及看了。ok就是这些了,预祝大家都能找到自己想要的工作实现,我还是继续去沉淀去了,这一个月也不知道自己在忙些啥好像就是一直在刷算法题和sql题,八股都没怎么看,对组件的掌握还是太浅了。#实习##数据开发工程师实习##暑期实习加油##牛客AI配图神器#
全部评论
我没看到阅文的数开呀
点赞 回复 分享
发布于 09-03 09:34 湖南

相关推荐

09-04 10:10
已编辑
门头沟学院
总计1h 0. 面试官介绍1. 自我介绍2. 深挖项目(这里巨细无比,连怎么开发的,设置什么参数都涉及到了,太狠了)3. 上一段实习经历为什么没转正?这一段实习经历能转正吗?4. spark了解吗?说下spark遇到查询时间过长的时候怎么解决5. 直接问具体表现是什么6. DAG图哪个地方?如何确定是map算子还是shuffle算子时间过长? exchange exchange exchange!7. Flink的时间语义讲一下,最多用在哪个方面?8. Flink的sink了解吗?怎么sink的?9. 为什么选择落到doris中,是什么原因让你们选择了doris?10. Doris的性能优化讲一下11. 用过doris的索引吗?比如bitmap索引12. 你们在计算uv的时候有用到吗?13. 你说doris的多维聚合和分析能力很强,实际用过吗?14.  如何确保实时和离线指标一致? 我差点展开说,被制止了15. 目前秋招进度怎么样了?有意向了吗? 这里我说太多了,有点后悔,不应该具体说细节的手撕:sql:group聚合+lag窗口函数问我会不会java,我答不会,会python,手撕算法作罢反问:1. 业务有哪些?2. 对应届生的技术栈和性格素质的期待?3. 工作强度大吗?最后面试官给我提了个意见/建议,说我话太多了太冗余了,需要精简,确实应该好好思考一下。1h后更新:1面过了
查看19道真题和解析
点赞 评论 收藏
分享
评论
1
7
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务