驰骛科技_数开实习_一面

- 腾讯会议,没要求开视频

## 项目

- 没问项目,纯八股

## 八股

- Mapreduce的工作原理

  - 详细讲了三阶段

- Zookeeper的选举原理

  - 只讲了第一次启动,**忘了讲leader挂掉的情况**

- Zookeeper一般用在哪里

  - HA,zookeeper负责监控HA里多个NN的情况(**ZKFC转换NN状态**),一旦NN发生故障,要启动自动故障转移,避免HA出现脑裂情况

- HDFS读写流程

- Spark算子

  - 忘了讲两种算子的作用:
    - Transformation(转换算⼦,即从现有的数据集创建⼀个新的数据集)
    - Action(⾏动算⼦,即在数据集上进⾏计算后,返回⼀个值给 Driver 程序)
  - **还可以延申讲分别有哪些算子,自己用过的算子**

- 讲讲Spark的血缘关系

  - **讲血缘关系应该这样梳理**:

    - 什么是血缘关系:依赖关系反映了 RDD 是如何从其他 RDD 转换而来的,而多个连续的 RDD 的依赖关系,称之为⾎缘关系
    - 为什么要有血缘关系:每个 RDD 记录操作历史,可以根据依赖关系重计算丢失的分区;他是Spark 实现容错和优化计算的重要基础,RDD的弹性一词的依仗也有他
    - 怎么实现的重计算:往前找到宽依赖,宽依赖必有shuffle,有shuffle就有数据落盘,我们就可以避免从数据源开始重新执行计算(顺势提到宽窄依赖)

    - 血缘关系中细分有哪两种:宽窄依赖,然后讲他们俩的区分(宽依赖的父RDD的一个分区的数据会被子RDD的多个分区所依赖,窄依赖的父RDD的一个分区只能被子RDD的一个分区依赖,这也导致窄依赖多分区可以并行计算,而宽依赖不行)

  - 总结:血缘关系是Spark容错恢复的保障之一,也是优化计算的一种方式

    - 有利于数据的重新分布和并⾏处理。通过宽依赖(本质上是通过shuffle),可以将数据按照特定的规则重新分配到不同的节点上进⾏处理,从⽽充分利⽤集群的计算资源。提⾼处理效率,具体而言是以下两点:
    - **满足特定计算需求**:在很多数据处理场景中,需要将具有相同特征的数据集中在一起进行处理。例如,在进行**分组聚合操作**时,需要将相同键的数据分到同一个分区,以便在每个分区内进行聚合计算。宽依赖通过 Shuffle 操作可以实现这种数据的重新分布,将分散在不同节点上的相同键的数据收集到一起,为后续的计算提供便利。
    - **优化数据布局(负载均衡)**:通过重新分布数据,可以使数据在集群中的分布更加均衡,避免某些节点负载过重而其他节点闲置的情况。例如,当数据初始分布不均匀时,通过宽依赖的操作进行 Shuffle,可以将数据均匀地分配到各个节点上,提高集群资源的利用率。

- Kafka原理

  - 只知道使用,并不了解原理,准备和实时的Flink一起学习

- **窗口函数**讲一讲:

  - 排名函数
  - 跨行取值
  - 聚合类

- **Hive中怎么做到⾏转列和列转⾏?**
  - 一下卡住了没答,其实很简单
- 正则表达式知道吗
  - 我只知道去边查边用,不会记规则
全部评论
我是5号面的,一面直接oc不知道要不要去
点赞 回复 分享
发布于 03-06 09:49 重庆

相关推荐

1. 基本情况方向:数据工程,时间:40分钟结束、16:00开始,无手撕,多场景2. 自我介绍3. 一些能够回忆起来的(或许有不正确的地方):(1)提问R:你这个项目是课程作业还是什么?R:那你说说Hive和ClickHouseR:你谈到了OLAP,那和OLTP有啥区别?R:没了?ClickHouse适合那种场景?R:可以用作实时数仓吗?R:课程中有数据库相关的吗?只有数据结构与算法?R:MySQL系统学习过吗?R:数据怎么导入到ClickHouse的?R:直接到ClickHouse?R:数仓分层?四层讲讲。R:那为什么要分层呢?DWS已经差不多了为什么还需要ADS呢?R:场景题:在你的表上新...
牛客861513826号:A场景题:数量统计不说了;退货平均时间:先沟通清楚,月平均退货时间算不算上不退货的用户,不算的话,就只计算退货用户;一个用户的退货时间减去到货时间拿到这件商品的退货时间,然后计算每个退货用户的退货时间,AVG开窗partition by月份,计算出每个月的平均退货时间。如果要算上不退货的用户,也就是让这个用户的退货时间是0,然后对所有用户计算AVG同上。 B场景题:结合下面他提示你再想想数据倾斜,其实这道题是想靠你数据倾斜怎么解决;本来是一个商品购买信息表,记录商品信息和购买者信息,如果给购买者信息加上性别,要求算出每个商品不同性别的购买人数。百分之八十女性用户,所以如果单纯对表进行分组聚合,会产生数据倾斜问题,由分组聚合产生。五种办法可以解决,两种hive参数,三种SQL,往SQL方向聊,以防他追问参数底层,参数这种东西最难聊了,别给自己挖坑
点赞 评论 收藏
分享
05-14 19:32
已编辑
上海大学 Java
更新:一面过了,但通勤有点远,接了另一个中小厂的offer鼠鼠二本,现在大二,项目是苍穹和仿Git,问得还是挺简单的,不过还是有几个没答好公司规模算是中小厂,100-499那个档的,做的业务应该是快消的产业链、信息化这一块一面是线上,如果通过,二面是要线下去的。公司里学校挺远的,地铁要一个半小时,各位牛爷爷给点意见1. 自我介绍2. 从哪里学的CS61B(自我介绍中提到的)3. 学校里学过的专业课中哪门课印象最深刻/收获最多4. 第一个项目就是java程序设计的课程项目吗5. 学习java多久了6. java中常见的规范7. 讲讲Restful规范——没答出来8. 数据库用的什么9. 了解哪些java集合,讲讲它们的原理(LinkedList、ArrayList)10. Hashmap线程安全吗?哪个是线程安全的?介绍一下原理(Hashmap、ConcurrentHashmap)11. 说说mysql优化12. 说说逻辑外键13. 说说mysql的索引优化——没答出来14. 看到你的第二个项目是与git相关的,那么你来说说我们常用的git命令吧15. 数据结构和算法掌握得怎么样16. 口头手撕:非严格单调递增数列如何去重?17. 看你简历上说对前端有一定了解,那就是对前端三件套和vue了解并可以进行开发吗18. 挑一个项目给我简要介绍一下19. 项目中遇到的难点20. bitmap操作的时间复杂度——没答出来21. 常见的排序算法,它们的时间复杂度22. 讲一讲快速排序的具体实现——没答出来23. 看到你项目中第一点写到JWT令牌完成登录,Threadlocal储存用户信息,能讲讲吗24. ThreadLocal是弱引用,那么相比于强引用,弱引用的优势是什么——没答出来25. 实习时长26. 学校在哪27. 未来的职业规划28. 反问
查看27道真题和解析
点赞 评论 收藏
分享
05-10 16:14
已编辑
广东第二师范学院 Java
很短,10多分钟视频面,应该是终面了,如果过了要去吗,业务是医疗有关的,看介绍是给医院做那种小程序app软件的。实习3k,租房吃饭和通勤估计就得干没了timeline:4.29投简历4.30约5.7面试5.7一面技术5.9hr面——————————————————————————1.一分钟自我介绍2.大学期间有无社团,班委经历(我是i人都没有)接着:看起来你大学活动比较单薄(我说初高中课代表当腻了,大学享受享受)有送过外卖等兼职是吧,了解。有游戏代练经历,很爱玩游戏吗(我说不是爱玩,是真穷,代练还方便点)3.绩点不错(其实均分也就85+)4.家庭情况5.工作时间(早九晚六双休,月薪3k,无房补餐补)6.技术部情况(严格前后端分离,你说你有前端经验,可以,我们虽然招的是后端,但希望也能了解前端)技术部30来人,适合去吗7.实习生培养情况(对实习比较重视,类似于管培生,希望能一直实习到毕业转正考核,如果是打算短时间实习,那可能不符合我们期望)8.如果实习期间有更好的公司的面试,你会怎么办,直接说你心中的想法(我说我如果那时候很自信,然后公司又真的很好,那我会去面试)9.还有什么想问的吗(我问我去实习的部门,然后hr讲了整个公司的各种结构,一面面试官好像就是我的mentor)10.好了,感谢你的时间,我还要和面试官那里沟通,可能下周出结果。——————————————————————————有点纠结,找了快2个月就这么一家流程走完了的,但薪资3k又感觉一个月存不了点钱,就算转正估计也没多少(up还有点小野心)。没有敲门砖,摸不到好待遇/含金量高的公司,累了   
查看11道真题和解析 面试问题记录
点赞 评论 收藏
分享
评论
点赞
4
分享

创作者周榜

更多
牛客网
牛客企业服务