文远知行 数据开发/Data Infra 实习 一面

自我介绍

项目介绍

Spark:Stage如何切分?
原因?

倾斜原因?
如何解决?

介绍一下概率算法(HLL、CMS)

Flink vs Spark 容错机制、故障恢复机制 异同?

Flink 窗口处理迟到机制?除了Watermark呢?

Exactly-once

Ray了解吗?

算法:三个数组各取一个数得到 a, b, c
问:min(|a - b| + |b - c| + |a - c|) length < 1e6

问有排序后 ON 做法吗?

#数据开发##实习#
全部评论

相关推荐

三面-两周完成三面流程-后续两周推进oc一面:项目介绍;项目难点介绍;HashMap和TreeMap,安全的Map,锁粒度;ThreadLoacl作用;虚拟内存,映射方式;手撕:实现一个随机访问的集合;long数据存储去重怎么做;位图,16GB内存可以去重多少数据;16&nbsp;GB&nbsp;=&nbsp;16&nbsp;×&nbsp;2³⁰&nbsp;Byte=&nbsp;16&nbsp;×&nbsp;2³⁰&nbsp;×&nbsp;8&nbsp;bit=&nbsp;16&nbsp;×&nbsp;2³&nbsp;×&nbsp;2³⁰&nbsp;bit=&nbsp;2³⁷&nbsp;bitk个有序链表排序怎么做;取10000个数据的前10个数据怎么做;查看占用CPU最高的进程,有哪些工具可以看;fullGC和MinorGC,G1垃圾回收器,怎么限制进程最大内存;死锁以及出现情景;二面:&nbsp;50min项目介绍,挑一个项目详细介绍;前端到后端的调用是怎样的;单体项目到微服务项目是怎么转换的,调用方面有什么不同;Get和Post有什么不同;用户验证怎么做的;高并发分布式锁怎么处理;缓存与数据库一致性怎么处理;Redis内存满了怎么处理;RDB和AOF有什么不同;LRU实际应用怎么实现;怎么排查慢响应;索引数据结构,给所有字段加索引行不行;B+树有什么优点;手撕:Z遍历树;三面:20min自驱力怎么体现,详细说明;工作地点怎么选择,有什么期望;分布式数据库怎么设计,有哪些需要关注的点;hr介绍了业务需要钻研,问候选者自身能不能沉得住气;期望薪资;能不能实习;
点赞 评论 收藏
分享
头像
11-24 19:03
已编辑
门头沟学院 数据仓库
30分钟&nbsp;0.自我介绍1.谈了谈有无考公考研的打算2.回归正题&nbsp;介绍项目(某硅谷的离线实时,还有paimon湖仓)讲了讲ads层指标什么三天登录,用户流向分析之类的,我说这三个项目指标都差不多问了我在哪做的,我说在自己虚拟机上部署的问数据来源,我说是有模拟生成业务库数据和日志数据的jar包,然后讲了一个这两条链路的数据的路径,maxwell,flume,kafka什么的然后问我paimon湖仓&nbsp;怎么做的&nbsp;&nbsp;我说paimon湖仓用官方的mysql-paimon的包直接进行同步,代替了maxwell然后我说paimon的snapshot+tag代替了传统离线的拉链表,感觉很方便,问我什么地方做的拉链,我说的用户表,然后我又讲了讲hdfs的小文件,paimon怎么解决的实时写入的小文件问了有没有遇到过什么问题&nbsp;&nbsp;我说遇到执行任务的时候doris&nbsp;fe节点崩溃,查不到数据,然后我就一直扩大内存,虚拟机也搞得一台25g了3.flink怎么保证数据不丢不重&nbsp;&nbsp;&nbsp;我答了kafka支持事务,checkpoint记录状态和kafka消费位点,又讲了paimon&nbsp;sink的时候自动清除没有snapshot指向的manifest来删除故障前多读的数据,说了一堆paimon相关的,比如lsm树文件结构,checkpoint时产生snapshot,还有paimon写入文件的大概流程4.数据倾斜&nbsp;&nbsp;我说的原因就是比如短视频业务下某个视频火了产生热点key,导致某个分区数据特别多,可以用flink的重分区算子,写代码加盐打散,或者自定义kafka的分区逻辑5.sql优化&nbsp;&nbsp;我说的谓词下推提前过滤,多表join优先join小表,还有starrocks,doris这些olap引擎的CBO优化查询,讲了starrocks物化视图是一个实际读出来的表,可以设置新鲜度来变更读的频率,而且CBO会自动查询sql语句的查询结果是不是某个物化视图的子集,以此来优化,然后这些引擎底层也会帮我们做些优化。6.问我知道paimon的结构化非结构化数据的存储格式吗&nbsp;&nbsp;&nbsp;&nbsp;不知道,没接触过6.1讲一下什么是湖仓一体&nbsp;我说是湖的各种数据都能存和仓的规范的,规定好字段名,类型等元数据便于分析的能力的结合,我自己又说了一些什么schema&nbsp;on&nbsp;write,read之类的7.问我还知道什么数据湖技术&nbsp;&nbsp;我说iceberg,hudi&nbsp;区别我之前看过,但是忘了,我就记得paimon和flink的集成比较好,比较亲儿子,然后就没问了8.怎么看现在很多人都投身大模型行业&nbsp;&nbsp;&nbsp;我说的感觉很正常,因为这个ai本身看着就很吸引人()8.1我说我用过那个阿里云的data什么,面试官说dataworks是吧,就是我们之前做的,问我还用过什么,我说阿里云的flink,fluss都用过,也用过神策,然后面试官讲了讲他们的产品8.2说了说我做过的其他东西,我说我搭建过网站,做过抖音小游戏但是上架太麻烦()9.英语好不好&nbsp;&nbsp;我答:半废&nbsp;&nbsp;&nbsp;面试官说那海外业务就不考虑你了10.怎么看data+ai&nbsp;(因为我简历上写了了解data+ai)我说的就是从前我们用个什么库只能对文字完成基本情感的正负分析,而引入了大模型就可以做出更精确的判断,比如用在用户直播间识别弹幕给主播提建议,或者金融行业智能agent检测到风险实时邮件通知之类的反问&nbsp;15分钟1.flink现实市场上用的多不多2.paimon这类数据湖到底用的多不多当时忘录音了(),有的问题记不清了整场面试也是又说有笑,面试体验给到夯()🤠🤠🤠
查看21道真题和解析
点赞 评论 收藏
分享
评论
1
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务