8.3 快手-数据采集-一面凉经

面试时间:60min

我的方向是数据开发,但感觉数开岗位比较卷,加上之前也有一段网络爬虫的实习经历,投了快手的数据采集岗。面试官人还不错,主要问了爬虫项目和我简历上一些大数据的技能,但好像还是方向不太符合,他们更想要会Java开发、app逆向的,最后还一直安慰我。

面试官介绍部门业务和流程

现在还在实习吗?有其他公司在流程吗?

自我介绍

实习介绍?(公司,部门,项目)

开发的Xpath工具介绍?

分布式爬虫介绍一下?

项目中遇到的最困难问题?

常见的反爬封禁策略?

验证码登录这么解决的?除了使用第三方库有试着用机器学习解决吗?

APP数据采集是这么做的?抓包吗?做过逆向吗?

为什么使用MongoDB存储?和MySQL有什么区别?

Http状态码?

TCP和UDP区别?

post和get区别?

HBase读流程和写流程?有什么差异?那个效率更高?

Kafka的消息投递保证机制?

Java线程池相关?

Hive分区怎么存储?

将Json字段转成一行行数据,Hive怎么实现?(get_json_object+行转列??)

介绍几个Linux命令?

显示进程用那个?

top命令是做什么的?

修改一个文件每行第一个字符,该用什么命令,怎么设计?

MySQL中索引会失效的场景?

有优化过慢查询SQL吗,该这么做?

#快手信息集散地#  #数据人的面试交流地#
全部评论
***这问的和我的一摸一样
点赞 回复 分享
发布于 2023-08-22 17:58 广东
将Json字段转成一行行数据,Hive怎么实现?用炸裂函数吧
点赞 回复 分享
发布于 2023-08-17 18:12 广东
想要app逆向?你一面面试官姓陈的是吗😂
点赞 回复 分享
发布于 2023-08-07 13:59 湖北
难度感觉还行
点赞 回复 分享
发布于 2023-08-06 17:46 北京

相关推荐

09-20 19:53
已编辑
广州商学院 数据采集
公司不大不小给我来说足够了,可惜好像很难转正。说是数据开发实际上是数据采集,能感觉到面试官对数据采集也不是很熟悉问的问题更倾向项目内容,名创优品的爬虫面试就是纯拷打了从基础到深入的技术问题。第一个:playwright跟selenium的区别,因为从一开始就用playwright我只知道一个异步,也回答了因为从一开始就使用了playwright框架所以对selenium也不太了解。第二个:谈谈反爬经历,我主要讲了youtube逆向以及cloudflare的绕过第三个:出现爬不到内容该如何排查,网页结构,ip池,cookies池,u-a头第四个:最难的项目,上份实习的监控系统youtube逆向以及cloudflare的绕过还有一个网页的逆向,最后是crawlab爬虫管理技术第五个:验证码,我实话实说没有接触验证码,因为通常拿playwright指纹绕过会更简单快捷,所以基本没有接触过验证码的绕过。第六个:大规模数据的保存,先用redis保存到一千到五千时再统一存入mysql第七个:mysql的运用,当时说了一个系统的mysql使用逻辑第八个:问我上份实习部署工作是是否为我做的,我说了是自己使用docker部署到服务器的第九个:ai技术如何运用到爬取,我说了使用openai可以很有效的解决爬虫对于数据模糊爬取难的情况,以及crawl4ai的工作原理第十个:爬虫的开发流程,我说主要是根据时间以及爬取的量,短时间可以用自动化工具,如果量大而且有时间则是用逆向加scrapy的协议爬虫,他说我太笼统了,于是我追加了crawlab的爬虫监控技术还有docker的多容器通信这些。后面就没了,面试官也介绍了一下他的团队,3点半左右线上面试结束,4点左右hr就在boss问我一会是否有时间电话沟通确认到岗时间还有薪资情况,说第二天就发offer了
查看10道真题和解析
点赞 评论 收藏
分享
评论
7
32
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务