京东数据开发面经 已OC

更新:10.12 OC,东哥很给力,hc是真的
*****************************************************************
# 一面 9.18

自我介绍

实习工作用的什么计算架构、开发节点怎么调度的、数据量多大、每天跑多久

介绍spark shuffle

阿里用的olap数据库是什么

阿里的onedata建模规范

了解clickhouse吗

可以接受来实习吗

你对自己的规划是什么

(到这里只有十几分钟,问我有什么想问的)

开始反问

# 二面 9.19

自我介绍

介绍Hadoop

介绍spark任务执行流程

Spark几种join

数据倾斜的处理方案

flink窗口介绍

用到过kafka吗

kafka重复消费了该怎么去重(这里没答好,面试官说可以在输出数据的系统中设置主键唯一性,主要出现在回刷场景)

了解clickhouse吗

对比mysql、hive、clickhouse

ES了解吗

反问环节:部门各种问题,团队构成、数据产品、问了很多,整个过程比较轻松,这里聊了十分钟

# HR面 9.27

自我介绍

为什么去阿里实习

做一个产品哪些方面需要考虑

职业规划

平时怎么学习的

遇到的困难,怎么解决,你的心态

优缺点

团队合作的问题

反问:国庆后出结果

求求了,东子给个意向吧!
#京东信息集散地##数据开发工程师#
全部评论
大佬什么部门
1 回复 分享
发布于 2023-10-12 23:12 上海
校友,为什么去阿里实习,这咋回答啊!
点赞 回复 分享
发布于 2023-10-04 19:58 四川
基本上跟我之前面试一摸一样
点赞 回复 分享
发布于 2023-09-30 18:05 湖北
面试之前有什么样的笔试题
点赞 回复 分享
发布于 2023-09-29 14:07 湖北
点赞 回复 分享
发布于 2023-09-28 20:49 湖北

相关推荐

状态最差一次面试,整个人在漫长春招一个多月后开始说话语无伦次+脑袋不转。0. 面试官自我介绍,问实习时间1. 自我介绍,简单讲项目2. neo4j底层怎么存储:基于磁盘的二进制文件存储3. 故障怎么办:故障检测、宕机恢复4. 访问量增加怎么办:水平扩展、读写分离、索引缓存(redis5. redis怎么数据一致性:单线程保证了、主从同步、持久化机制6. py的dict怎么安全多线程?加锁7. py线程池 threadlocal:忘了8. 分布式负载均衡的算法:rr、wrr、随机、加权随机、最少连接9. CAP:一致性可用性和分区容忍不可兼得,一般舍弃C或者A10. 项目和hdfs的区别:算法上,结构微调11. 知道其他大数据组件吗:没咋看12. 分布式系统总结 共通的特点解决问题和架构:解决一致性可用性分区容忍、负载均衡容错。。架构是分namenode和后面存储node13. 解决数据一致性的方法:2PC预提交 + 正式提交、投票、最终一致性14. 场景:py 生产者消费者 时间戳数据 怎么实现15. Queue有界的话怎么办?丢异常16. 报错怎么解决:重传、调速度17. queue锁怎么设计:互斥锁、又说了乐观锁桶锁好像跑题了。。应该有条件变量?18. 加整个queue还是怎么加?生产者生产的时候消费者没办法消费:只锁关键小段代码19. 假设分布式系统十亿数据挑选最大top10:每个服务器选top10然后归并。选的算法可以hashset、可以bitmap、可以堆排,考虑到内存。20. spark用py写的?对。。21. 卡夫卡用过:恩22. 反问感觉又要凉了,自己面的方向太多做的东西又杂.. 路漫漫其修远兮😌
查看22道真题和解析
点赞 评论 收藏
分享
评论
8
39
分享

创作者周榜

更多
牛客网
牛客企业服务