京东 数据开发

#面试问题记录#
1 介绍一下你做的数仓工作
2 数仓模型怎么设计的,用到了哪些技术
3 如何做到数据不延迟,数据准确
4 你觉得一个好的数仓该怎么设计
5 flink和spark的区别,spark的宽窄依赖,flink的3种窗口和并行度怎么算
6 卡夫卡分区该怎么控制,如何监控一个实时任务是否延迟,怎么确保数据计算是准的
7 经典面试题,用户的开会时长和用户的职级判断
8 目前数据湖和数仓哪个用的广,平时有接触到湖仓吗,用的哪些技术,比如hudi,paimon等等,这些技术组件哪个更好,有哪些优缺点
全部评论
哪个部门呀佬
点赞 回复 分享
发布于 05-20 19:11 北京
请问佬是哪个部门呀
点赞 回复 分享
发布于 05-12 21:22 广东

相关推荐

状态最差一次面试,整个人在漫长春招一个多月后开始说话语无伦次+脑袋不转。0. 面试官自我介绍,问实习时间1. 自我介绍,简单讲项目2. neo4j底层怎么存储:基于磁盘的二进制文件存储3. 故障怎么办:故障检测、宕机恢复4. 访问量增加怎么办:水平扩展、读写分离、索引缓存(redis5. redis怎么数据一致性:单线程保证了、主从同步、持久化机制6. py的dict怎么安全多线程?加锁7. py线程池 threadlocal:忘了8. 分布式负载均衡的算法:rr、wrr、随机、加权随机、最少连接9. CAP:一致性可用性和分区容忍不可兼得,一般舍弃C或者A10. 项目和hdfs的区别:算法上,结构微调11. 知道其他大数据组件吗:没咋看12. 分布式系统总结 共通的特点解决问题和架构:解决一致性可用性分区容忍、负载均衡容错。。架构是分namenode和后面存储node13. 解决数据一致性的方法:2PC预提交 + 正式提交、投票、最终一致性14. 场景:py 生产者消费者 时间戳数据 怎么实现15. Queue有界的话怎么办?丢异常16. 报错怎么解决:重传、调速度17. queue锁怎么设计:互斥锁、又说了乐观锁桶锁好像跑题了。。应该有条件变量?18. 加整个queue还是怎么加?生产者生产的时候消费者没办法消费:只锁关键小段代码19. 假设分布式系统十亿数据挑选最大top10:每个服务器选top10然后归并。选的算法可以hashset、可以bitmap、可以堆排,考虑到内存。20. spark用py写的?对。。21. 卡夫卡用过:恩22. 反问感觉又要凉了,自己面的方向太多做的东西又杂.. 路漫漫其修远兮😌
查看22道真题和解析
点赞 评论 收藏
分享
评论
1
5
分享

创作者周榜

更多
牛客网
牛客企业服务