09-24 17:23 中国科学技术大学大数据开发工程师发布于安徽

关注

字节集团信息数据开发二面0924

70分钟

1.自我介绍

2.为什么不继续选择后端和算法，选择数开？

3.在实习结束后，对数开有什么新的看法？

4.讲讲实习项目经历业务逻辑。

5.实习复盘离线数仓建设最难的点在哪？

6.抛开数据治理不谈，数据仓库和数据建模最难的点是哪些？

7.讲讲如果不按订单归因，按曝光归因的话该怎么修改链路？

8.了解拉链表吗，如果按曝光归因拉链表核心字段怎么设置？

9.了解数据漂移吗，数据飘逸是什么？

10.怎么解决数据飘逸？

11.RDD中宽窄依赖分别是什么？为什么这样设置？

12.spark的流程，从语义入手

13.真正执行之前spark会有哪些小步骤？

14.spark怎么写入hive数据表？

15.spark写入RDD用的是什么组件？

16.了解过RDD的持久化原理吗？

17.persist和cache有什么区别？

18.了解数据湖吗，和数据仓库有什么区别？

手撕15分钟sql

统计每个用户每个月的销售总量。每个月有数据，没有月份的数据也要补上数据。（多个cte，先构建user_id和12个月份的笛卡尔积，然后对order_cnt_1d使用聚合函数sum，按用户和月份分组，最后多个表left join并使用lag和coalesce补上没有数据的月份，补上个月（如果有数据）的数据）

输入：

user_id, date, order_cnt_1d

A 20220111 10

A 20220112 20

A 20220210 30

A 20220410 50

预期输出：4月之后的5月到12月都是110。

user_id, month, order_cnt

A 202201 30

A 202202 60

A 202203 60

A 202204 110

A 202205 110

……

A 202212 110

反问业务

可以提升的点：实习项目深度不够，对大数据的广度也不够

全部评论

推荐最新楼层

楼主

中国科学技术大学大数据开发工程师

@10ser

1 回复分享

发布于 09-24 17:27 安徽

东南大学 Java

过了吗

点赞回复分享

发布于 09-26 22:19 江苏

晶晨半导体_ENG SW_软件开发工程师

牛的，不愧是字节面试

点赞回复分享

发布于 09-26 14:33 广东

做个有文化的流氓

门头沟学院安卓

宇宙厂问天问地问宇宙

点赞回复分享

发布于 09-25 21:18 北京

10-25 11:21

北京理工大学算法工程师

无论文勇闯秋招算法岗——猿辅导一面

面试官超级无敌好，上来先说我优秀。50min项目介绍介绍到一半的时候面试官开始问场景和八股多模态模型的感知错误问题，怎么进行caption？面试官给出的一种思路是让模型生成一些结构化的描述，例如题目的点线面关系，grounding，counting等等，这种比cap更容易judge一些怎么解决感知错误，过度依赖文本信息的问题？我从预训练数据构造上去说的。提到了一篇论文，说是把图片mask掉，用rl去增强模型的感知能力qwen2.5-vl 的位置编码，Mrope，对rope有什么了解，旋转矩阵，外推性很好什么样的位置编码是好的？计算量要小，...Rope有缺点吗？qwen2.5vl 和 qwen...

查看13道真题和解析

点赞评论收藏

分享

10-12 18:50

门头沟学院大数据开发工程师

字节数开一面

起手四道手撕1.三道 sql 题目比较简单，两张表链接去重计数求和之类的2.返回第一个不重复的字符下标提问：1.介绍一个你觉得最有难度的项目2.你对java、flink、spark 有什么了解？3.介绍一下 flink 的 checkpoint4.介绍一下 flink 的 watermark5.你做项目的时候有没有遇到 flink 数据丢失或者延迟，你是如何避免的？6. 对数仓分层的了解？7. spark 数据倾斜遇到过吗，怎么处理？反问工作内容

查看7道真题和解析

点赞评论收藏

分享

10-26 16:47

门头沟学院大数据开发工程师

美团数开一面

1.自我介绍2.能理解为你的项目就是对指标和标签做一个规范整理吗?3.你在切换标签的时候如何保障数据质量?4.你在实习过程中有遇到过数据倾斜的情况吗?你是如何解决的?5.标签存储用的是什么数据库?6.用Doris存储主要是为了加快查询，你有遇到过下游报表查数慢但不是数据倾斜的情况吗?你是如何解决的?7.两道Sql:(1)很简单;(2)找出那些有5个下属的经理id及其名称。8.能实习多久?实验室有要求出勤吗?base地能否接受?9.面试官介绍部门业务线。10.反问环节。

点赞评论收藏

分享

10-26 10:08

门头沟学院大数据开发工程师

字节数开一面

1.自我介绍2.你学数学为什么想做数据开发？3.介绍一下实习期间的工作？4.实习期间团队规模？主要的业务是什么？5.接受实习期间最有难度的项目？6.你是怎么对接需求的？怎么做到前端的看板？7.有没有过直接处理数据源的经历？还是所有的数据对你来说都已经落到 hive 表了8.有考虑过数仓分层设计吗？9.你对于业务域和公共层的划分有了解吗？10.在实习过程中遇到数据倾斜情况吗？怎么处理？11.数据倾斜的主要原因是什么？12. mapreduce 了解过吗？大概介绍一下。13. spark 有学习过吗？spark 如何划分 stage?14. 介绍一下星型模型和雪花模型15.实习过程中最大的收获16.未来的职业规划17.sql 手撕：用户互相关注18.如何优化这个任务

点赞评论收藏

分享

10-16 21:31

门头沟学院大数据开发工程师

字节数开一面

1. 自我介绍2. 实习经历 难点3. 数据倾斜4. CTE的执行计划5. spark stage怎么划分6. 什么算子会触发宽依赖7. hive内部表和外部表区别8. HDFS小文件过多会有什么问题9. 对数仓分层的理解10. 数仓业务域和主题域的区别手撕：1. sql：查询某段时间借书的uid2. sql：查询至少连续两天登录的用户3. 算法：有序重复数组返回n出现的次数

梦雨雨：同学，瞅瞅我司，医疗独角兽～我的主页最新动态，绿灯直达，免笔试～

查看13道真题和解析

点赞评论收藏

分享

评论

3

11

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 2025秋招体验点评 #

16983次浏览 156人参与

# 哪些公司真双非友好？ #

45118次浏览 207人参与

# 京东开奖 #

524955次浏览 2842人参与

# 你听到的“最没用”的秋招建议 #

3391次浏览 38人参与

# 薪资要看总包还是月薪？ #

5185次浏览 74人参与

# 什么样的公司千万别去 #

4837次浏览 37人参与

# 360集团校招 #

28743次浏览 188人参与

# 如果公司给你放一天假，你会怎么度过？ #

25874次浏览 147人参与

# 校招阶段，学历VS技术哪个更重要？ #

51830次浏览 335人参与

# 工作以后，你父母对你啥态度 #

1913次浏览 35人参与

# 你在职场上见过哪些“水货”同事 #

7607次浏览 62人参与

# 找工作，行业重要还是岗位重要？ #

81179次浏览 1656人参与

# 欣旺达工作体验 #

18456次浏览 43人参与

# 你觉得找工作该拿大厂还是小厂练手 #

218507次浏览 1792人参与

# 通信硬件知识分享 #

38183次浏览 524人参与

# 联影医疗求职进展汇总 #

29883次浏览 126人参与

# 简历无回复，你会继续海投还是优化再投？ #

108335次浏览 832人参与

# 材料专业就业可以去哪些企业岗位 #

46950次浏览 368人参与

# 外包能不能当跳板？ #

50998次浏览 250人参与

# 2023届毁约公司名单 #

223980次浏览 1048人参与

# 校招薪资来揭秘 #

12220次浏览 53人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务