首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
搜索
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
鱼街
华南农业大学 数据仓库
关注
已关注
取消关注
顶
@来杯冰可乐叭:
数仓/数据开发-零基础入坑(小白学习路径)
烫
这段时间各大公司的春招陆续开始了,但是也有很多同学还在因为刚刚入坑或者还在纠结,对学习路径比较迷茫。(这也是去年的我)所以这边总结一下,一个面向面试的学习路径,后面也会补充上全面的学习路径。面向面试就是掌握到基本能应付暑期实习面试的基本技能和知识,足以在春招实习招聘中应对,但是如果要在秋招里乱杀还是得全面学习的哟[诶嘿]。1 计算机基础1.1 基础八股文《计算机组成原理》《数据结构》《操作系统》《计算机网络》这四门课程是计算机专业的必学,虽然在大数据开发/数仓开发的面试场景中80%的时候并不会问道相关的八股,但是部分大厂(字节、阿里、快手(这是我面试到的))还是会问一些基本知识比如:TCP&UDP、三次握手、四次挥手、http等,所以只要去找一些常见的问题背下来就好1.2 算法基础所谓的算法基础实际上就是数据结构、算法题,盯着牛客、LetCode去刷题就好,每天三道美滋滋,面试手撕不用怕。暑期实习能有个100-150道基本能cover实习面试,如果时间实在来不及直接去做“剑指offer”的系列题,容易碰到原题或者类似题。如果是秋招的话得有个300左右的题量,建议直接刷LetCode题库的前300,不论笔试还是面试都会原题。(一定要总结同类题思路!!!数组、动态规划、DFS、BFS等等)2 编程语言2.1 SQL如果是数仓、数开,SQL 是必备技能(SQL Boy/SQL Gril[牛泪]),笔试面试都会考到,建议直接到牛客刷题。这部分的SQL题要重视,不论是笔试还是面试手撕60%概率是SQL题,如果有一定基础建议直接刷牛客的大厂真题:这里面的SQL题难度基本够了,也比较全面,难度也符合到一些实际生产场景(强力推荐!!👍)2.2 Java&Scala由于很多大数据组件都是由Java编写,所以JAVA也是数开/数仓的基本技能,虽然在实际工作中用到JAVA并不多,大部分时候就是写个UDF等。不过,我们在面试中还是会以JavaSE的要求来提问,所以需要背的八股以及补充的也比较多。不过如果时间不够的话,建议直接背常见Java八股题(面向面试嘛)。但最最基础的还是得会写一些Java,所以建议大家刷Letcode用Java去练习。Spark和Flink的底层有Scala编写,而且相对而言Scala在部分场景较Java更符合大数据场景,所以偶尔用到,但是面试基本不会问到,浅学即可,不要投入太多时间。2.3 Python锦上添花,无也无妨。但是如果会用Python做一个深度学习、机器学习的模型(调包侠也行)在面试官那里会有一定加分,部分团队会有相关的工作,但是还是要保证基础。3 大数据组件大数据组件非常的多,如果是全面学习的话,建议按照尚硅谷的学习路径去进行。如果只是面向面试学这几个Hadoop、Kafka、ZooKeeper、Hive、Hbase、Spark、Mysql即可。但是如果是要做实时开发还需要补充Spark Streaming、Flink,此外全面的学习还需要有Azkaban(任务调度)、clickhouse(OLAP)、redis等组件。3.1 Hadoop数据存储基本上还是使用 HDFS。MapReduce 虽然使用较少,但其思想十分重要,必会,也是调优的基础。Yarn 调度非常常用,但面试中很少考到。常问:HDFS读写流程、MR流程、Shuffle流程3.2 Spark现在的离线计算引擎机会都是 Spark3.0引擎,很少用到 MapReduce 了,所以也是必会。需要掌握与 MapReduce 的区别。常问:spark作业提交流程、Spark宽窄依赖&血缘、spark的持久化&缓存机制、Spark和MR的区别、Sprak和MR的Shuffle的区别3.3 KafkaKafka作为发布订阅消息队列,基本也是常问的,哪怕在Java开发也常常会有kafka的问题:Kafka数据重复、Kafka消息数据积压,Kafka消费能力不足怎么处理?Kafka 零拷贝、Kafka高效读写数据问的频率相对其他几个较少,掌握核心原理即可3.4 MysqlMysql的涉及到数据库的基础知识,基本也是每次面试必问,而且问题常常会从数据库底层原理以知道sql调优常问:Mysql索引、数据库事务、四种隔离级别、MVCC、谓词下推、执行计划等等MySQL一定要多准备一些3.5 Hive作为构建数据仓库的工具,常常会从Hive延伸到数据仓库模型的问题,或者从hadoop的问题延伸到Hive来。有两种方式:Spark on Hive:写 Spark SQL,Spark 读取的数据源是 Hive。就是通过 Spark SQL,加载 Hive 的配置文件,获取到 Hive 的元数据信息。Spark SQL 获取到 Hive 的元数据信息之后就可以拿到 Hive 的所有表的数据。接下来就可以通过 Spark SQL 来操作 Hive 表中的数据。Hive on Spark:写 Hive SQL。Hive 将自己的 MapReduce 计算引擎替换为Spark,当我们执行 HiveSQL(HQL) 时底层不是将 HQL 转换为 MapReduce 任务,而是跑的 Spark 任务。常问问题:Hive的架构、HQL转成MR的流程、数据倾斜、小文件问题(前面两个需要扩展到hadoop和spark的数据倾斜和小文件)、Hive优化、Hive常用调优参数4 数仓模型数据仓库的原理作为数仓开发工程师的核心技能,绝对是我们的高频问题,基本99%的面试官都会提问到相关的问题。完整的数仓架构需要了解。建模理论(星型建模、ER 建模)需要了解。推荐看阿里的《大数据之路》,需要这本书的电子版可以私信我。其中最重要的是,对数据仓库的理解、数仓分层、为什么这么设计、维度建模(既然我单独写了这一部分,足以见得绝对是Top1的重要性)5 数据治理了解一下概念即可。实习招聘考的少,秋招考的多。包括元数据管理、数据质量、血缘等。6 项目经历学完上述内容后,那么必然需要一个数据仓库的项目来完善个人简历,还是推荐尚硅谷。数仓这块如果咱们自己很难有实际项目,这边给推荐两个。第一:B站尚硅谷,可以跟着视频做项目,离线和实时的都有,项目内容也比较贴近真实开发场景,坏处是做的人很多,烂大街。第二:github,找大数据开发的项目,含金量更好,但需要自己投入大量的时间。如果是暑期实习的话我这边建议还是做尚硅谷的项目,只要能吃透,应对实习面试够了。 项目讲解:STAR原则学完以上所有这些(面向面试),根据我个人的经验,大概会在40-60天,其实时间也不短。建议大家在学完Hadoop之后就可以开始投一些简历,然后通过面试去不断磨砺个人技术理解,愈战愈勇。再者,面试之后也会发现,其实知识的深度重要性大于广度,与其花很多时间去把整个大数据链路学完,不如完成基础内容,然后自己去实操去思考问题,再通过一定的面试技巧(简历引导、语言问题引导、面试节奏掌握)等,就可以很顺利的通过大部分的面试。最后!!祝大家都能在春招中拿到满意的Offer!希望能帮到大家!!
点赞 131
评论 52
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
01-16 09:29
用友网络_Java开发
改 Bug 场景:别让 Trae “重写一切”
📢 重要提醒!还没看过上篇的同学,记得先戳专栏补课哦~咱们要按顺序来才能玩转Trae!首先说明下,只要不是让你从零开始写新项目,咱们最常用的就是SOLO Coder和Chat模式啦。今天重点讲讲Bug修复场景怎么玩转这两个模式~🛠️ 修复Bug两步走:第一步:定位Bug 1️⃣ 先用Chat模式让Trae指出Bug的具体位置 2️⃣ 自己review下整个业务流程 3️⃣ 思考解决方案 (PS:如果你对项目代码已经很熟了,这步可以跳过)第二步:Plan模式出击 直接让Trae给出一套修复方案!这里有个小技巧:因为我们之前在项目规则里设置了"最小改动"原则,所以每次对话都...
用 Trae 上班:实习...
点赞
评论
收藏
分享
01-20 08:38
北京邮电大学 嵌入式工程师
秋招结束个人复盘总结反哺
下面就根据我的实际情况,来和大家分享一下技术方面的经验吧。对于Linux方面的知识,就很遗憾没办法帮助到各位了(我就是个小菜鸡/(ㄒoㄒ)/~~)在这里我就只简单提一下需要准备哪些方面的知识,因为把所有内容都写在同一个帖子里太长了。C语言无论是嵌入式单片机还是嵌入式Linux,C语言都是必考的内容,可以说C语言是嵌入式软件工程师吃饭的家伙,相信C语言的重要性不用多说。C语言这块的话,随着不断复习,自己的一个熟练程度也会越来越高,所以最重要的就是多看多练。对于嵌入式工程师来说C语言基本上是要完全掌握并且熟练使用的,下面就先列出在笔试面试中C语言需要掌握的/比较重要的知识点:运算符优先级输入输出操...
点赞
评论
收藏
分享
2025-12-18 11:59
广州南方学院 C++
🤡
路过看一眼不说话都要被踹一脚吗
牛客78682892...:
直接点还好,总比要了简历也不回的强
点赞
评论
收藏
分享
01-04 14:19
已编辑
重庆科技大学 Java
求助,26届双非找不到Java后端开发实习(简历见图)
【个人背景】双非ACMer,大四才艰难拿到区域赛铜,十一月份退役后开始转战Java后端。【学习与项目历程】(项目是边投简历边更新)起初跟风做了苍穹外卖和黑马点评,然后学了微服务后将单体点评项目拆分为微服务架构,并加了几个分布式事务这种功能,最后写了个经典的rpc框架轮子项目把外卖顶掉,八股的话现在背的已经很熟练了。【面试复盘】(十二月份开始投简历,根据时间排序)目前投递反馈越来越差,心态有点崩:简单一点科技:拿到Offer拒了(团队规模太小,担心技术成长)。有赞 / 海致星图:一面挂(感觉八股背得不够深,场景项目题被问懵)。幂律科技:二面挂(反馈实习期短/不稳定,面试经验不足被发现我不想转正)。百望云:三面中(秋招岗位终面需要线下面试,正在纠结)。【目前的困惑】最近一周SSOB上几乎没有面试邀约,感觉简历被卡得厉害(大概?)。是不是我的项目太典了?双非大四现在找实习是不是已经太晚了?应该直接准备春招吗?没有实习春招真能找到合适的工作吗?百望hr给我说线下面试通过率75%,我怕过去一趟被一脚踢死。。。导致又没有offer又没有money起初我是想赶紧找到一份实习填充一下简历,然后春招再升级,现在感觉gg了。
想和你交朋友的秋田犬...:
唉 现在acm已经没那么吃香了
点赞
评论
收藏
分享
01-16 15:04
叮咚买菜_咚力生(管理方向)(准入职员工)
shein内推,shein内推码
业务一面--30mim自我介绍在安克创新的产品运营主要做了什么?未来的职业规划方向?产品经理和产品运营的区别?两者重叠的核心部分是什么?为什么想做产品运营?为什么实习都不超过半年?这次实习的预期时长与到岗时间?需求收集与过滤占比较高,能接受吗?(其余为面试官讲解岗位内容)二面-25min自我介绍未来希望做产品运营还是产品经理?对该产品的哪条业务线感兴趣?B端产品和C端产品的区别?为什么想做B端产品?(过往为电商运营经验)一周出勤时间?英语听说读写水平?英语自我介绍英语问答:能否接受跨国会议的时差?全球超级独角兽SHEIN26届校招网申开启【关于Shein】全球领先的跨境电商,服务于150+个国...
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
备战春招,网申一键填写工具,发布了!!!
3.0W
2
...
27双非非科班4段实习从字节tt到腾讯wxg
4803
3
...
第一次被同事气笑了
3305
4
...
我爸对计算机行业的看法,是否准确?
2981
5
...
字节校招landing实感
2655
6
...
多益可以去吗
2358
7
...
专科工作一年后的心里话
2354
8
...
字节实习规划求助
2135
9
...
在抖音上认识的姐姐太疯狂了
2058
10
...
AI coding时代,前端已死?
2001
创作者周榜
更多
正在热议
更多
#
哪些公司开春招了?
#
4894次浏览
86人参与
#
实习教会我的事
#
50209次浏览
386人参与
#
上班以后,你还有哪些坚持的爱好?
#
4550次浏览
127人参与
#
拼多多工作体验
#
43828次浏览
283人参与
#
你都在哪些场所面过试?
#
12461次浏览
171人参与
#
为了实习逃课值吗?
#
61441次浏览
515人参与
#
工作压力大怎么缓解
#
134991次浏览
1190人参与
#
AI coding的好用工具分享
#
11398次浏览
275人参与
#
实习怎么做才有更好的产出
#
7539次浏览
161人参与
#
找工作以来,你最看不惯__
#
7057次浏览
185人参与
#
实习生工资多少才算正常?
#
8680次浏览
166人参与
#
实习离职怎么跟领导说
#
75096次浏览
417人参与
#
你最近因为什么迷茫?
#
23752次浏览
375人参与
#
你给AI提过哪些离谱的需求?
#
3895次浏览
136人参与
#
领导做过最不靠谱的事
#
8007次浏览
160人参与
#
牛客AI文生图
#
19128次浏览
225人参与
#
工作一周年分享
#
49422次浏览
249人参与
#
机械/制造每日一题
#
84393次浏览
1440人参与
#
实习学不到东西怎么办?
#
270720次浏览
2491人参与
#
AMA
#
12416次浏览
49人参与
牛客网
牛客网在线编程
牛客网题解
牛客企业服务