京东 大数据开发

#面试问题记录#
前几天面试了京东大数据社招开发岗,感觉还有点难,问题如下
1 介绍一下自己做的项目
2 重点说一下大数据实时和离线的技术栈
3 实时任务用paimon吗,好处是啥,实时任务延迟怎么解决,有哪些办法可以确定延迟
4 对于一个实时任务消费多条流写入多个表怎么设计实时任务,后续出错了怎么恢复
5 flinksql和jar任务哪个用的场景多,为啥sql有些任务不能用,如果实时任务有性能上限该怎么解决,如何提升flink的吞吐量
6 离线数仓模型怎么分层,数据怎么治理,模型有哪些规范,对于脏数据引发的实时任务报警怎么解决
7 知道实时用户画像吗,如果要你来做这个实时画像你有啥好办法快速解决
8 olap引擎如何做到合理利用资源,做到低成本高可用,你用过哪些olap引擎
9 你后续准备做哪些有挑战的事情,为啥要这样做,做完技术提升吗
10目前用到的湖仓架构,你认为是未来企业的方向吗,为啥现在都在用数据湖,你们公司平时用吗
全部评论
兄弟,这是大数据平台吗
点赞 回复 分享
发布于 昨天 08:33 陕西

相关推荐

07-11 18:47
已编辑
门头沟学院 后端
摆烂最舒服了:感觉不看学历不看实习,只看经历相关度了
投递米哈游等公司7个岗位
点赞 评论 收藏
分享
一·语言方面:由于很多大数据框架都是基于JAVA开发的,个人认为JAVA语言是必不可少的,有余力的话可以去掌握以下PYTHON😊二·数据结构与算法:大二课上没好好学,现在只能再补一遍了,悲😣打算刷完Leetcode的Hot100就先放一边,等秋招再刷别的题😇三·MYSQL:一个关系型数据库管理系统,SQL BOY的开始,初步领略通过建表来管理数据的思想,学完可以去刷一下基础50题和进阶50题(虽然本菜鸡只刷了基础50😓)四·Linux:会安装虚拟机,掌握常见linux常见命令即可五·Hadoop:一个分布式计算框架。所谓分布式,就是将一台电脑无法处理的数据量分散给一个由多台电脑组成的计算机集群来处理,互相分工,彼此合作,形成一个有机整体。框架分为三部分:HDFS(数据存储),MapReduce(数据计算),Yarn(资源调度)。虽然MapReduce已经逐渐被Spark淘汰,但思想依然值得借鉴。高可用机制也应当学习六·Maven:会用即可,打包项目用的七·Hive:也是一种SQL,有了MYSQL的基础应该还算好理解八·Scala和Spark:Spark是用Scala写的,在学习之前得先浏览一遍基本语法。Spark是基于内存的批式计算引擎,已经逐渐取代MapReduce(基于磁盘的计算引擎),APACHE也基本上停止了对MapReduce的更新(经典白学😃)。将来很多离线数仓项目也都是基于SPARK的,可以说非常重要了九·Kafka,Hbase,Flume和ZooKeeper:都是一些小组件,将来面试可能会问到十·Flink:一个流式实时计算引擎,本人JAVA基础较弱,听的时候也是懵懵懂懂当然,仅仅这些肯定远远不够,本人将来还要学Doris,数仓建模理论,数仓项目,八股面经等等。上述理解如有错误还请友好指正(叠甲叠甲叠甲😱)。这些理论也只是匆匆过了一遍(大一太贪玩,大二2月份才开始学),发布笔记也只是记录自己的学习过程,提醒自己不要懈怠(还有当个免费网盘😏)。如果能帮助到你就更好了,虽然我也比较迷茫😖
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务