大数据面试记录

#数据人的面试交流地#
1.首先自我介绍,一定要加上自己会啥,自己的优势一定要多说出来
2.简历上写的项目一定要自己做的,如果是网上抄的一定要弄懂才能写出来,要不然容易出现问题
3.写自己的技能一定要写自己弄的比较懂的
4.再来说一下我对大数据的理解,大数据讲究计算和存储,对于存储一定要懂hdfs,hive等等技术,对于计算我建议一定要会spark,flink也要会,你可以不用但要会,spark说一下要注意的问题,rdd算子,sparkSQL一定要会,flink对于datestreaAPI一定要会,其中对于定时器,窗口,状态编程要懂使用场景,大数据SQL一定要精通,所有的join操作都要会,对于窗口函数,SQL优化一定要会,其它的比如clickhouse,es都要会,Linux基本命令必须要会,还有就是自己要学会搭建服务器,编程语言建议JAVA,scala,Python都要会,可以不精但要能看懂代码,可以随时改bug,对于爬虫尽量要会点,但一定不要分享代码哈😄,我就写这么多。
全部评论
楼主能请教一下什么是sql优化吗?
2 回复 分享
发布于 2022-11-15 15:02 福建
学习了,给你点赞了
点赞 回复 分享
发布于 2023-08-22 18:00 广东
谢谢
点赞 回复 分享
发布于 2023-01-08 14:46 湖北
说的太棒了,给楼主点了
点赞 回复 分享
发布于 2022-11-10 11:36 广西
干货满满,受教了QUQ
点赞 回复 分享
发布于 2022-11-10 11:32 广西
好详细啊太感恩了!
点赞 回复 分享
发布于 2022-11-10 11:26 广西
感谢分享 刚开始学。楼主今年大数据校招氛围如何呀 寒冬也是嘛
点赞 回复 分享
发布于 2022-11-09 23:23 北京
楼主面试的是哪家公司呀
点赞 回复 分享
发布于 2022-11-09 16:12 北京

相关推荐

09-20 19:53
已编辑
广州商学院 数据采集
公司不大不小给我来说足够了,可惜好像很难转正。说是数据开发实际上是数据采集,能感觉到面试官对数据采集也不是很熟悉问的问题更倾向项目内容,名创优品的爬虫面试就是纯拷打了从基础到深入的技术问题。第一个:playwright跟selenium的区别,因为从一开始就用playwright我只知道一个异步,也回答了因为从一开始就使用了playwright框架所以对selenium也不太了解。第二个:谈谈反爬经历,我主要讲了youtube逆向以及cloudflare的绕过第三个:出现爬不到内容该如何排查,网页结构,ip池,cookies池,u-a头第四个:最难的项目,上份实习的监控系统youtube逆向以及cloudflare的绕过还有一个网页的逆向,最后是crawlab爬虫管理技术第五个:验证码,我实话实说没有接触验证码,因为通常拿playwright指纹绕过会更简单快捷,所以基本没有接触过验证码的绕过。第六个:大规模数据的保存,先用redis保存到一千到五千时再统一存入mysql第七个:mysql的运用,当时说了一个系统的mysql使用逻辑第八个:问我上份实习部署工作是是否为我做的,我说了是自己使用docker部署到服务器的第九个:ai技术如何运用到爬取,我说了使用openai可以很有效的解决爬虫对于数据模糊爬取难的情况,以及crawl4ai的工作原理第十个:爬虫的开发流程,我说主要是根据时间以及爬取的量,短时间可以用自动化工具,如果量大而且有时间则是用逆向加scrapy的协议爬虫,他说我太笼统了,于是我追加了crawlab的爬虫监控技术还有docker的多容器通信这些。后面就没了,面试官也介绍了一下他的团队,3点半左右线上面试结束,4点左右hr就在boss问我一会是否有时间电话沟通确认到岗时间还有薪资情况,说第二天就发offer了
查看10道真题和解析
点赞 评论 收藏
分享
评论
49
133
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务