面试大数据项目怎么准备?
(1)离线数仓:尚硅谷的电商平台v5.0。
感觉难点在于理清业务逻辑,整体下来就是hive写hql, spark一点没用到。这到时候面试怎么包装啊?
(2)实时数仓:尚硅谷的flink实时数仓。
正在学。
本人自然语言处理方向垫底985硕士,准备转大数据,框架看了hadoop,hive,spark,flink,flume,zookeeper,其他的暂时不准备看了,学不完,看了也白看。
翻经验帖子说大数据项目做这两个,但目前做完离线数仓的感觉就纯sql boy,这….自己学的时候数据规模小的离谱,基本也没碰到大bug,做完感觉平平淡淡…
1)单上面两个项目感觉不够?各位大神又啥建议吗。
2)或者还有其他框架需要补? #大数据#
3)需不需要单独找一个spark的项目练一下spark ,比如spark - streaming的项目?
感觉难点在于理清业务逻辑,整体下来就是hive写hql, spark一点没用到。这到时候面试怎么包装啊?
(2)实时数仓:尚硅谷的flink实时数仓。
正在学。
本人自然语言处理方向垫底985硕士,准备转大数据,框架看了hadoop,hive,spark,flink,flume,zookeeper,其他的暂时不准备看了,学不完,看了也白看。
翻经验帖子说大数据项目做这两个,但目前做完离线数仓的感觉就纯sql boy,这….自己学的时候数据规模小的离谱,基本也没碰到大bug,做完感觉平平淡淡…
1)单上面两个项目感觉不够?各位大神又啥建议吗。
2)或者还有其他框架需要补? #大数据#
3)需不需要单独找一个spark的项目练一下spark ,比如spark - streaming的项目?
全部评论
我就做了数仓4.0和flink实时数仓
1)两个项目够了,但是你做了个尚硅谷离线数仓,事实数仓最后别再用尚硅谷的了,烂大街了。时间充足还想学实时的话最好再找找其他实时项目试试。我当时秋招直接没学flink然后有个后端上线的项目,但是主要找的数仓这块的,java也没怎么问我就是。2)kafka也经常被问,最好也去学学。还有些用到的调度工具偶尔也会问问。3)要是准备做flink感觉没必要再做spark的项目。项目主要在于质量,两个项目做完继续深挖各个组件之间的关系,可能碰到的问题之类的就行,很多细节问题经常会被问到
我也是自然语言处理方向转大数据,感觉flink实时数仓还挺重要的
我也愁,看了b站王知无的视频,感觉尚硅谷的项目好像有点low,我也不知道怎么准备了
如果是做大数据平台开发需要再学下Java后端那一套,如果是做数仓把SQL练好就行了
看没用,自己搭个测试环境,从采集到数据管理都搞一下
相关推荐
07-18 20:15
浙江大学 算法工程师 点赞 评论 收藏
分享