数新智能 数据开发 一面

30分钟
0.自我介绍
1.谈了谈有无考公考研的打算
2.回归正题 介绍项目(某硅谷的离线实时,还有paimon湖仓)
讲了讲ads层指标什么三天登录,用户流向分析之类的,我说这三个项目指标都差不多
问了我在哪做的,我说在自己虚拟机上部署的
问数据来源,我说是有模拟生成业务库数据和日志数据的jar包,然后讲了一个这两条链路的数据的路径,maxwell,flume,kafka什么的
然后问我paimon湖仓 怎么做的  我说paimon湖仓用官方的mysql-paimon的包直接进行同步,代替了maxwell
然后我说paimon的snapshot+tag代替了传统离线的拉链表,感觉很方便,问我什么地方做的拉链,我说的用户表,然后我又讲了讲hdfs的小文件,paimon怎么解决的实时写入的小文件
问了有没有遇到过什么问题  我说遇到执行任务的时候doris fe节点崩溃,查不到数据,然后我就一直扩大内存,虚拟机也搞得一台25g了
3.flink怎么保证数据不丢不重   我答了kafka支持事务,checkpoint记录状态和kafka消费位点,又讲了paimon sink的时候自动清除没有snapshot指向的manifest来删除故障前多读的数据,说了一堆paimon相关的,比如lsm树文件结构,checkpoint时产生snapshot,还有paimon写入文件的大概流程
4.数据倾斜  我说的原因就是比如短视频业务下某个视频火了产生热点key,导致某个分区数据特别多,可以用flink的重分区算子,写代码加盐打散,或者自定义kafka的分区逻辑
5.sql优化  我说的谓词下推提前过滤,多表join优先join小表,还有starrocks,doris这些olap引擎的CBO优化查询,讲了starrocks物化视图是一个实际读出来的表,可以设置新鲜度来变更读的频率,而且CBO会自动查询sql语句的查询结果是不是某个物化视图的子集,以此来优化,然后这些引擎底层也会帮我们做些优化。
6.问我知道paimon的结构化非结构化数据的存储格式吗    不知道,没接触过
6.1讲一下什么是湖仓一体 我说是湖的各种数据都能存和仓的规范的,规定好字段名,类型等元数据便于分析的能力的结合,我自己又说了一些什么schema on write,read之类的
7.问我还知道什么数据湖技术  我说iceberg,hudi 区别我之前看过,但是忘了,我就记得paimon和flink的集成比较好,比较亲儿子,然后就没问了
8.怎么看现在很多人都投身大模型行业   我说的感觉很正常,因为这个ai本身看着就很吸引人()
8.1我说我用过那个阿里云的data什么,面试官说dataworks是吧,就是我们之前做的,问我还用过什么,我说阿里云的flink,fluss都用过,也用过神策,然后面试官讲了讲他们的产品
8.2说了说我做过的其他东西,我说我搭建过网站,做过抖音小游戏但是上架太麻烦()
9.英语好不好  我答:半废   面试官说那海外业务就不考虑你了
10.怎么看data+ai (因为我简历上写了了解data+ai)我说的就是从前我们用个什么库只能对文字完成基本情感的正负分析,而引入了大模型就可以做出更精确的判断,比如用在用户直播间识别弹幕给主播提建议,或者金融行业智能agent检测到风险实时邮件通知之类的
反问 15分钟
1.flink现实市场上用的多不多
2.paimon这类数据湖到底用的多不多

当时忘录音了(),有的问题记不清了
整场面试也是又说有笑,面试体验给到夯()🤠🤠🤠
全部评论
兄弟是在boss上投的吗,他们这个岗位好像偏实施
点赞 回复 分享
发布于 2025-12-03 16:39 江苏

相关推荐

一、个人信息问题1.简单做自我介绍。2. 应聘成功后能否保证6个月试用期。3. 两段实习经历中是否遇到过内存泄漏问题,如何定位与解决。二、Java基础与核心知识问题1. 了解的Java常用集合有哪些,具体适用场景是什么。2. HashMap的键为何一般不可变。3. HashMap出现哈希冲突时如何解决。4. HashMap中链表为何要转为红黑树,为何不直接用红黑树实现。5. ArrayList的扩容机制是什么,为何扩容为原容量的1.5倍。6. 如何理解Java反射,反射在工具类(如Spring)中有哪些应用,Spring的IOC通过反射具体怎么做。7. JVM内存结构包含哪些部分。8. Java中new一个对象,与内存分配使用相关的实现过程是什么。9. new对象时内存不足会发生什么操作。10. Minor GC如何上升到Full GC。11. 如何理解线程安全,Java中线程安全相关案例及保障关键字(synchronized、volatile等)的作用。12. synchronized和ReentrantLock的区别,使用上有何不同。13. 为何需要公平锁和非公平锁两种锁类型。14. 是否用过多线程,线程池的拒绝策略有几种,分别作用是什么。15. 线上使用线程池时,参数设定、拒绝策略制定有哪些经验。三、MySQL相关问题1. InnoDB存储引擎与MyISAM引擎的区别。2. COUNT(*)、COUNT(1)、COUNT(某一列)三者的区别,平常常用哪种。3. MySQL默认的事务隔离级别是什么,除默认外还有哪些事务隔离级别。4. 可重复读隔离级别的MVCC除对应解决的问题外,还能解决哪些问题。5. InnoDB的索引结构为何是B+树。6. MySQL出现慢查询时如何处理,若加了索引仍扫描大量行该如何优化。7. 1000万数据量的大表直接执行表结构修改的UPDATE语句是否合理,若不合理该怎么做。四、其他技术相关问题1. 平常是否用K8S,是否了解K8S的使用方法。2. 将个人简历基本信息(性别、手机号等)存入Redis,适合用什么数据结构,为何不用string类型。整体节奏平和,这周二约的面,原本在手子不想面了,但是HR一直在沟通,说一天可以走完流程之类的,加上之前没面过百度就想试一试,可能是由于岗位工作偏简单(前期工作配合测开写单测),所以面试难度很低,跟之前看的招超人那种完全不一样。抽象的是面试官迟到了半小时,发邮件也不回,HR也不接电话,后来HR终于接电话了,面试官给的回答是他忘记了,有点抽象。感觉最近裁员应该缺人蛮厉害,大家可以都试一试
北巷南街:不是,八股盛宴???
你今年做了几份实习?
点赞 评论 收藏
分享
评论
6
8
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务