面经|快手-数据开发实习

2024.12.23(一面)

一面 (1h 5mins)
- 实习拷打
  - 快手-评论模版留存率(10 mins)
    - 严格漏斗和非严格漏斗的区别
  - 字节-链路改造优化
    - 延伸:数据的时效性怎么保证(从整体和单点分别叙述)
    - 延伸:优化任务的思路
    - 延伸:并行度相关的改法(三种)
    - repartition()能改变第一个stage的shuffle write的并行度吗?
    - 第一个stage的shuffle write的并行度由什么决定?
  - 字节怎么分的数据域
  - 字节分了哪些主题域
  - 数据域和主题域的区别(主题域:自上向下,从分析的角度划分)
  - 分层的意义(复用性和一致性)
  - 怎么考虑分层,该分多少层(直接说了没必要在意这个,要理解分层的本质,面试官表明说的也有道理,也抛了另一个观点:肯定要分层,需要有不同粒度的数据,每个人在意数据都不同,比如说老板在意汇总层的数据,数分可能更在意明细层的数据,另外,在做归因分析的时候也需要血缘追踪)
- SQL题

二面 (26 mins)
全程实习拷打
- 自我介绍
- 字节实习
  - 多机房代码一致性怎么保证的(治理存量,增量通过oceanus)
  - 多机房涉及到的网络问题(通过全球化数据迁移解决)
- 快手实习
  - 评论模版留存率
    - 严格漏斗和非严格漏斗的区别(准确性和计算量之间的取舍)
    - 为什么这样设计
    - 最终的目的是什么
    - 有没有想过通过抽样解决数据量大的问题
- 反问
全部评论

相关推荐

1.给你一个周末晚高峰期间“小说内容分发曝光量突然下跌 18%”的事故,你有 60分钟协调数据、策略、工程三方止血:你会看哪些领先指标、如何划分可疑路径、如何设定回滚阈值?2.“信息流小说”在特定圈层出现审美疲劳与回声室迹象。请设计一版“提升多样性”的策略(重排/配额/探索分桶均可),并明确效果指标与防守指标。3.请为“头条小说纵线”提出一个 North Star(示例:有效阅读时长中的完读比例),并给出3-5个Guardrail(如创作体验、分发公平、青少年安全等),以及季度级对齐节奏。4.假设番茄小说新签作者,要在头条获得首批种子流量,你如何设定小流量探索、毕业闽值与冷启动保护期?5.面对“推荐策略灰度”项目,如何定义D(最终拍板)/A(责任)/C(被征询)/(知会)并与周会节奏结合?追问A:当产品与算法对关键参数分歧时,你如何组织结构化决策会?追问B:遇到跨 BU冲突,你的升级路径与时间盒是什么?(参考 DACI/RACI实操。)6.你要将“章节内推荐位”策略全面升级,请给出样本量估算、灰度分层(国家/城市/新老用户)、停机/回滚标准;并说明如何规避窥视问题(peeking)*带来的假阳性7.请设计覆盖“数据质量→业务健康→策略效果”的三层看板与告警策略:说明阈值设定、多维切片与自动化根因面板。追问A:如何用留存 Cohort 做早期预警?追问B:如何控制告警疲劳与误报成本?
查看11道真题和解析
点赞 评论 收藏
分享
评论
5
19
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务