首页 / 数据开发

#

数据开发

#

230200次浏览 1673人互动

此刻你想和大家分享什么

热门最新

01-20 22:20

中国地质大学（武汉）大数据开发工程师

入行大数据开发，需要的必备技能

从25年2月到现在，接触大数据开发已经有一年了，从MySQL，orcal，到flink首先就是写SQL，毕竟大家大部分都是SQLboy，SQLgirl，SQL是基础，可以在力扣牛客上多刷题。手撕常考！数开作为技术岗中最贴近业务的岗位，理解业务过程并进行数仓建模是最重要的一部分建模这块主要涉及，指标维度建设，数仓分层，讲解项目结合业务来讲.技术栈主要分离线和实时，实时门槛工资相对高一点，但应用场景比离线少很多，离线是数仓的基础。大数据技术栈主要是Hadoop生态圈，分布式的一些东西，也就是八股基础的得会，得理解整个架构运作流程，光背是记不住的Hadoop，hive，spark离线最核心的技术栈，也是八股最常考的，实时主要是spark，flink其次是一些数据处理框架kafka，etl转换工具知道一些，怎么用的大数据的框架搭起来比较麻烦，时间赶的不建议亲自搭环境，理解项目业务过程，这个项目做了什么，整个数据链路能讲清楚即可。技术栈的一些相关学习渠道，博主是在B站上找视频学的，也够用，时间赶学重点就行，结合八股来看。最后是算法手撕，本人算法很烂，除了大厂基本不考这个。出的题一般比较简单，会hot100就行个人经验来看，简历上有了实时项目，很少问Hadoop八股，更偏重spark和flink。项目还是以离线为主。实习发现实时数据只占很少一部分，离线是底盘有了实习经历就不咋问项目了

ahhhhm：数据分析需要的技能和这个相似吗？

点赞评论收藏

分享

05-25 16:36

大数据开发工程师

民办本27届这样的简历能找到实习吗😰

点赞评论收藏

分享

04-16 16:25

已编辑

西安交通大学 C++

春招最后补录中！数据分析师/客户端开发

🔥 拼多多集团-PDD | 2026届春招HC持续补录中！💌 重点需求岗位：客户端、数据分析师⏰ 网申截止时间：2026年6月30日🔥大量在招：数据分析师！必备项：SQL、Python、R语言等数据分析工具加分项：大厂实习，计算机、软件工程类专业⭐急缺：客户端开发！必备项：Java、C++等至少一种编程语言加分项：省级竞赛获奖经历，企业实习经历，开发项目实践等大厂核心亮点✅ 1v1导师带教｜大厂资深技术人全程指导，避坑成长快✅ 真实业务落地｜背靠亿级用户平台，项目经验超有含金量✅ 内推专属福利｜简历优先筛选，跳过初筛排队https://careers.pddglobalhr.com/campus/m/pages/detail/detail?t=EwY4AGHBPa（内推码：EwY4AGHBPa）

点赞评论收藏

分享

2024-09-29 16:20

已编辑

华东理工大学数据仓库

滴滴数据开发凉经

一面 经典的自我介绍我看你实习经历挺多的，你挑一个项目讲讲看吧？我希望听到的是背景，目的以及你做了什么balabala嗯嗯，这么看我了解你的业务背景了，那你觉得你项目的目的是什么呢？我：balabala，为了看a，b，这几个指标拆解之后是看这些内容，但是主要是为了什么呢？是不是为了提升用户的体验（面试官真的一步步引导）再说说你做了哪些表吧，涉及到哪些层？有哪些比较重要的指标。balabala所以你怎么理解这些内容之间的关系呢？你觉得为什么要存在ads这一层？不能直接从dws取数据吗？看你有说到这个cdm覆盖率跟ods穿透率，这两个指标是什么意思？那你讲讲你认为各层的作用？什么情况下中间层是可以不要的？有做过数据治理的内容吗？都写过什么DQC？UDF写过吗？举个例子sql写的怎么样？开窗熟悉吗？举几个例子反问：问了下负责的业务，有哪些数据二面经典自我介绍 被打断我比较关心你在饿了么的实习，你讲下这个吧我balabala讲了下我负责的业务系统，然后接触了哪两块的数据所以可以理解的是，你在这三个环节里，负责第一个跟第三个是吗？那你讲讲第一个都有些什么内容好的，我了解了，感觉第三个环节更为复杂，你聊聊这个？balabala所以你一共是建了三张表是吧？那这些涉及到哪些层呢？你们的需求都是直接来自产运团队吗？项目看中些什么呢？工作会考虑北方吗？有做过数据治理的内容吗？你怎么保证时效性跟准确性这些的？手撕：连续一小时在线男用户人数，急了没撕出来。想到最后准备写60个lag()，面试官就让我写成在线人数就好。你有了解hive跟spark吗？一个sql任务会有多少次shuffle？我：取决于map跟reduce的数量？有做过数据倾斜的处理吗？打散大键大小表这种呢？mapjoin广播小表小文件呢？我：预聚合。追问除了预聚合呢？我：不太记得。面试官：可以调整块大小，我：哦block，对不起有点忘了。反问三面经典自我介绍看你不是大数据这个方向的，怎么想了做这个？balabala挑一个你实习期间比较难的问题讲讲吧？你是怎么思考的？怎么沉淀的？怎么学习新东西的？大部分都是些场景题和一些发散的问题，没有专业知识的拷打。反问：没什么问题，一面二面都问过了。--------timeline---------------------9.23 5点10开始一面 38分钟左右结束了，10分钟约了二面9.23 6点30开始二面 7点10的样子结束的，就问了20分钟吧9.24下午约三面9.25晚7点三面 6点58开始的，面了45分钟9.29检查官网 三面已挂

点赞评论收藏

分享

04-13 09:37

西北工业大学后端工程师

快手数据中台拷打

连续拷打超过一小时，传统八股不多 大数据相关拉满1. 项目拷打，主要拷打我上一段实习做的数据项目的技术选型2. 算法题：搜索二叉树，找两个值最近的祖先3. 请简述进程和线程的区别4. 给我了一个二叉树，让我说出其前序、中序、后续遍历的顺序5. Spark相比于Hadoop MR的优势 和劣势在哪里6. 描述一下Spark的宽窄依赖7. 在大数据开发的过程中，有哪些常见的数据倾斜情况8. 你刚才说的Kafka的数据倾斜，通常是什么情况导致的？如何避免？什么情况下 无法避免？9. 如果由于数据倾斜，导致Kafka一个分区消费慢，有什么处理方法？这个方法 有什么局限性？10. 如果上游Kafka没有数据倾斜，你在用Flink消费的时候出现了数据倾斜，通常是 什么原因导致的？有什么解决方案？11. Hive外部表和内部表的区别？12. Hadoop中Map任务数和Reduce任务数的决定因素？应该如何优化呢？13. Hive中order by和sort by语句有什么区别？14. Linux下如何在shell脚本中判断上一条命令执行成功与否?

2026.04.13 在牛客打卡2天！

点赞评论收藏

分享

2024-05-07 02:17

已编辑

西北工业大学安全工程师

实习简历，数据开发方向，求指教

目前感觉自己存在的问题有：1、项目经历不行，是尚硅谷上找的项目，而且数量较少2、校园经历不行，研究生阶段帮老师横向做多了反而没什么拿的出手的项目文章请问要怎么修改比较好？另外还有些涉及军工的敏感项目怎么表述会比较合适？后续如果想加成2页再补充什么比较好？还有就是博客写在哪个部分比较好？谢谢

superPAL：日语不错，可投赴日软件开发

点赞评论收藏

分享

2025-04-29 18:28

华中师范大学教师

字节timeline

4.10一面1h自我介绍项目深挖数据倾斜有哪些？怎么解决数仓各分层作用，结合项目来谈mapreduce的shuffle过程项目中小文件问题为什么出现？如何解决项目中指标怎么计算，怎么清洗，过滤算法+sql------------4.15二面1h20min项目深挖数据质量监控（例如如何快速找出“坏数据”）数仓分层作用原子指标、衍生指标区别数据域怎么划分如何构建事实表spark依赖以及血缘广播join以及原理为什么brodcast join 速度快flink的checkpoint机制，举例子小文件问题，数据倾斜sql：直播间不同时段同时在线人数的值算法：求1-n的平方中不重复数位的数字个数-------------4.21 三面 40min项目深挖datax部署flinkcdc拉取mysql中binlog还是表数据粒度数据域和主体域的划分，用项目举例拉链表事实表分类？各个作用讲讲指标计算的整体过程（怎么取数、怎么计算）sql+算法---------------4.23HR面 15min聊了聊待遇、未来打算、自己的优缺点以及为什么会选择字节当晚oc---------------4.27 offer

查看26道真题和解析

点赞评论收藏

分享

2025-08-01 17:53

已编辑

门头沟学院大数据开发工程师

秋招第一站-虾皮-大数据开发

笔试记错时间只做了一个小时，a了一道，这也能进面秋招第一面能拿下吗记录下时间7.24约面7.28一面实习+八股+场景题+sql+算法感觉面的还行，问了一共三面，包括hr面，许愿二面下午说一面过了，明天约二面——————————————————7.30号约了8.1的二面——————————————————8.1二面实习+项目 无八股，问职业规划，问课程，问对虾皮的看法感觉面的挺好，许愿hr面一个小时约hr面

点赞评论收藏

分享

玩命加载中

创作者周榜

更多

热议话题

更多

牛客网
牛客网在线编程
牛客网题解
牛客企业服务