26届钛动科技数据开发实习,线上一面完30分钟后就发offer了

公司不大不小给我来说足够了,可惜好像很难转正。说是数据开发实际上是数据采集,能感觉到面试官对数据采集也不是很熟悉问的问题更倾向项目内容,名创优品的爬虫面试就是纯拷打了从基础到深入的技术问题。
第一个:playwright跟selenium的区别,因为从一开始就用playwright我只知道一个异步,也回答了因为从一开始就使用了playwright框架所以对selenium也不太了解。
第二个:谈谈反爬经历,我主要讲了youtube逆向以及cloudflare的绕过
第三个:出现爬不到内容该如何排查,网页结构,ip池,cookies池,u-a头
第四个:最难的项目,上份实习的监控系统youtube逆向以及cloudflare的绕过还有一个网页的逆向,最后是crawlab爬虫管理技术
第五个:验证码,我实话实说没有接触验证码,因为通常拿playwright指纹绕过会更简单快捷,所以基本没有接触过验证码的绕过。
第六个:大规模数据的保存,先用redis保存到一千到五千时再统一存入mysql
第七个:mysql的运用,当时说了一个系统的mysql使用逻辑
第八个:问我上份实习部署工作是是否为我做的,我说了是自己使用docker部署到服务器的
第九个:ai技术如何运用到爬取,我说了使用openai可以很有效的解决爬虫对于数据模糊爬取难的情况,以及crawl4ai的工作原理
第十个:爬虫的开发流程,我说主要是根据时间以及爬取的量,短时间可以用自动化工具,如果量大而且有时间则是用逆向加scrapy的协议爬虫,他说我太笼统了,于是我追加了crawlab的爬虫监控技术还有docker的多容器通信这些。
后面就没了,面试官也介绍了一下他的团队,3点半左右线上面试结束,4点左右hr就在boss问我一会是否有时间电话沟通确认到岗时间还有薪资情况,说第二天就发offer了
全部评论

相关推荐

评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务