拼多多数据分析面经
如何理解“辛普森悖论”?请你设想一个在拼多多电商业务中,可能会出现辛普森悖论的具体场景。
追问: 作为数据分析师,当你发现汇总数据和分层数据得出了完全相反的结论时,你会如何处理?你认为应该相信哪个结论,并如何向业务方解释这个现象?
使用了“多多支付”的用户,其年化消费金额显著高于使用其他支付方式的用户。我们能直接得出“多多支付促进了用户消费”的结论吗?
追问: 如果不能,你会如何设计一个分析方案,来更科学地推断“使用多多支付”和“高消费”之间的因果关系,而不仅仅是相关性?
通过A/B实验来评估一个新的、基于大模型的“智能客服”系统能否提升用户满意度,但“用户满意度”是一个长期且多维的指标。你会如何设计这个实验?
追问1: 你会选择哪些短期可观测的指标作为核心评估指标?你会设立哪些护栏指标来确保新系统没有带来负面影响(例如,问题解决时长、人工介入率等)?
追问2: 如果实验涉及到用户间的社交互动(例如,用户分享了与AI客服的有趣对话),可能会产生网络效应或实验单元间的干扰,你会如何处理?
假设“百亿补贴”频道的核心指标——“补贴商品的GMV”本周环比下跌了15%。请你用逻辑树的方法,将这个指标的下跌,层层拆解到可归因、可分析的细分维度上。
描述你的SQL查询逻辑,如何找出那些“在过去90天内,至少有3次购买行为,且平均购买间隔小于7天,但最近14天内没有任何活跃”的“高价值流失风险”用户。
构建一个模型,用于预测一个商品是否会成为“爆款”(例如,未来30天内销量进入品类TOP 1%)。你会如何进行特征工程?
追问: 你会从哪些维度(例如,商品自身属性、店铺特征、用户行为、历史趋势等)去提取特征?你认为哪些特征可能最重要?
除了传统的RFM模型,如何利用无监督学习,从用户海量的行为数据中,挖掘出一些全新的、有商业价值的用户分群?
追问: 在你得到这些分群结果后,你会如何去“解读”和“标记”这些新的人群,并向运营团队提出针对性的运营策略建议?