链家-大数据开发
下午约的的四点,提前过去就直接做笔试了。
五道编程题
第一道是剑指offer原题,
第二括号匹配,
第三是环链表找到最小包含全部颜色的链表长度,
第四是找出一段时间的恶意ip,
第五个是找出模块依赖是否有循环依赖。
一面:
1、介绍下自己。
2、介绍kafka架构
3、介绍spark提交作业运行流程
4、MR过程
5、机器学习,如何理解模型是什么。
6、推导最熟悉的机器学习算法
7、wordcount手写代码
8、RDD内部数据结构
9、为什么不用Hive和SparkSQL查询?
10、和面试官讨论了一会笔试题第四题如何实现。
11、本来想问第五题,看我写了就没问,以为我没做出来。。
12、有什么想问他的
二面:
1、看你简历写的熟悉Java.那我就问你几个Java的知识吧,垃圾回收的结构。(新生代,老年代,正说着新生代的垃圾回收算法就把我打断了,下一题)
2、给你出道题吧,你用Java写个函数。有百万条数据,每行有三列,没列用-隔开第一行可以是abc-123-hsgf,我们假设两条数据中,对应的每列中,若包含的字符个数和种类一样顺序可不一样,将其归为一类。输出每个类有多少条数据。最开始没理解,然后面试官将数据降为一列。😂我说可以用Spark写么,他说可以,说了个什么用Scala也要写函数,我说我用java写,他说那你写吧。。。写的时候我将每行转为字符数组,然后进行排序,因为同类的不管顺序如何,排了以后,顺序会一样的,然后将其放入一个全局的map中,统计几天。(后来想想也就是变相的wordcount嘛)
3、yarn是什么?
4、yarn和spark的关系
5、spark提交到yarn上以后,具体发生了什么?
6、如果一个节点挂掉以后会怎样?
7、失败的任务,会丢失数据么,为什么?我说不会,然后问为什么不会?
8、hadoop架构
9、如果一个新人从根节点删除了HDFS目录,能恢复么?如何恢复?(本来答得HDFS的secondnamenode这方面,面试官说那我中间隔了很久了呢?好像是不能恢复了吧,我说,不太确定。。)
10、根据自我评价问,如果给你分配了一个你没接触过得任务,你怎么做?
11、你怎么证明你说的,你是一个有责任心的人?
三面:HR面
最想去的公司?
为什么选链家?其他的为什么不选?
你了解链家吗?
你期望的公司文化是什么?
你希望你的leader是什么样的人?
你最早什么时候能来实习?
结合两个场景,问怎么去处理。感觉像是在看性格。
感觉最虚的是HR面,问的一脸懵逼,感觉被看的透透的。在等候的时候,谈论到昨天面试卡的可能比较紧。我感觉面试就像判卷子。前期判的比较紧,判的多了要求可能会相对松一点吧。第一次发面经,攒攒运气。