字节跳动 离线数仓开发

#发面经攒人品#
之前面试了字节,怀疑是kpi面试,大部分问八股
1 先进行自我介绍
2 说一下你做的数仓是怎么设计的,主要是做啥业务,模型数据域,主题域怎么划分的,模型层级的分层的好处
3 对于数据倾斜怎么解决,对于任务的一些调优可以怎么操作
4 数据治理是怎么治理的
5spark的宽窄依赖 和有向五环图能展开说说吗
6 平时数据准确性和及时性是怎么保证的,对于准确性来说出现问题怎么及时处理
7有什么需要问我的,对于字节有啥要求吗
全部评论
哥们,过了吗
点赞 回复 分享
发布于 09-19 20:13 湖南
没手撕吗
点赞 回复 分享
发布于 09-17 14:37 上海
哥,想问一下你对应届生这个数据开发的水平的预估大概是一个怎么样的情况嘞
点赞 回复 分享
发布于 09-07 00:17 陕西

相关推荐

1.列举几种数据倾斜的情况,并解释为什么会倾場咏,以及如何解决?2.解释一下 SQL 运行步骤,是否有优化空间如果有,如何优化:SELECT a.id,b.nameFROM a LEFT OUTER JOIN bON a.id =b.idWHERE a.dt='2016-01-01'AND b.dt='2016-01-01';3.已知表 a 是一张内部表,如何将它转换成外部表?请写出相应的 Hive 语句4.用 select 做查询时,用哪个函数给值为null的数据设置默认值?5.Hive 中,建的表为压缩表,但是输入文件为非压缩格式,会产生怎样的现象或者结果?6.订单详情表 ord_det(order_id 订单号,sku_id 商品编号,sale_qtty 销售数量,dt 日期分区),任务计算2016年1月1 日商品销量的 Top100,并按销量降序排序7.某日志的格式如下:pin|-lrequest_tm|-url|-|sku_id|-|amount,分隔符为"-',数据样例为:张三-|q2013-11-2311:59:30-www.jd.com-100023-110.15。假设本地数据文件为 sample.txt,先将其导入到 hive的test 库的表t_sample 中,并计算每个用户的总消费金额写出详细过程包括表结构8.test.log 日志中内容如下左列所示,使用awk 输出右列 4行数据:左列:10-3-jd-dv、2-4-jd-dv、5-7-pv-click、36-24-pv-uv、37-24-pv-uV、24-3-uv-mq右列:10-4-jd-dv、5-7-pv-click、37-24-pv-uv、24-3-uv-mq9.Storm 的分组策略有哪些?
点赞 评论 收藏
分享
1. 手撕 合并区间2. 八股1)请介绍 Transformer 的结构组成及各部分作用,在长序列时空数据中,2)如何降低 Transformer 的计算复杂度?常见的稀疏注意力变体有哪些?3)GNN的消息传递机制是怎样的?在时空图中,如何结合时间信息编码节点特征?你接触过哪些时空 GNN 模型?4)LoRA微调的原理是什么?秩 r 的选择会对模型表现产生什么影响?5)RAG的完整流程,在时空出行数据场景里,构建向量检索库时如何处理时间衰减对召回的影响?6)强化学习在 Agent 优化中的应用,结合出行推荐 Agent,你会如何设计 Reward 函数?3. 项目1)微调时的训练数据是怎么构建的?如何保证样本多样性和质量?2)在 RAG+时空知识图谱的 Agent 系统中,知识图谱更新的机制是怎样的?是怎样保证实时性的?3)在大规模轨迹数据下是怎么做负采样(Negative Sampling)的?4)训练 LoRA 模型时,你是如何选择冻结层的?依据是什么?5)在高并发查询 Agent 系统中,你会如何优化召回和生成阶段的延迟?4. 开放题1)大规模 Agent 系统在多线程/多进程场景下的资源调度策略如何设计?2)如果你要在 GPU 资源有限的条件下同时提供推理和微调服务,如何做资源分配和任务调度以保证时延和吞吐?
查看14道真题和解析
点赞 评论 收藏
分享
评论
3
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务