2023届暑期实习面经:腾讯-技术研究(数据科学方向)

TimeLine:一面20220424,二面20220427,三面20220505(已挂)

当时的BG:北邮本硕,管理类专业,两段实习经历:字节数据分析师、美团商业分析师

写在前面的话:该文档记录2023届暑期实习面试的相关问题,因此时间线分布在2022年。以下问题的答案可能存在错误,敬请读者批评指正

一面

1.SQL考察

数据表内容:

播放表play_table,包含字段日期(dt),用户ID(user_id)、视频类型ID(video_type_id)、观看次数(play_cnt)

计算4月1日的7日内(4.2-4.8)的留存率,结果返回日期和留存率

with a as
(
Select distinct uesr_id as user_d0 from play_table where dt = '20220401'
),
with b as
(
select distinct user_id as user_d2_7 from play_table t1, a
where t1.user_id = a.user_d0
and datediff(dt, '20220401') between 1 and 7
)
select count(b.user_d2_7) / count(a.user_d0) as retention_rate
from a, b

2.Python考察

有两张数据表,分别为:

播放表play_table,结构同1.题

字典表video_type_dict,包含字段视频类型ID(video_type_id),视频类型名称(video_type_name)

问:每日每个视频类型观看的总次数

Tmp = play_table.join(video_type_dict, how='inner')
Tmp.groupby(['dt', 'video_type_name']).apply('sum')

3. 解释一下统计学的一类错误和二类错误

阐述一类错误和二类错误的概念,可画图进行辅助讲解

一类错误:原假设H0为真时,作出”拒绝原假设“的错误决策,也被称为弃真错误

二类错误:原假设H0为假时,作出”接受原假设“的错误决策,也被称为取伪错误

该图出自贾俊平、何晓群、金勇进编著的《统计学(第7版)》第158页

(a)图中,阴影部分为一类错误,概率大小等于显著性水平α;(b)图中,阴影部分为二类错误,概率大小通常命名为β,非阴影部分面积为1-β,通常命名为统计功效

由上图可知,一类错误的概率由显著性水平α决定,减小显著性水平会降低一类错误概率(即拒绝域向右移动,(a)图中阴影部分面积减小),但会提升二类错误概率(拒绝域向右移动,(b)图中阴影部分面积增大)

4. 追问:如果样本量增大,对一类错误概率和二类错误概率的影响?

一类错误概率由显著性水平决定,样本量增大不会影响一类错误概率:(此表述为当时的回答,答案的合理性存疑,因为《统计学(第7版)》第158页中写到:”当然,使α和β同时变小的办法也有,这就是增大样本量。“,读者可搜寻更多资料形成自己的观点

样本量增大,会使得二类错误概率减小:根据3.题中的示意图,想象一下,当样本量增大时,样本观察值的方差减小,样本观察值会越向均值靠拢,因此样本观察值的概率密度曲线会变得更加“瘦高”,这也意味着阴影部分面积减小,即二类错误概率减小,统计功效增大

二面

1.请比较一下逻辑斯蒂回归LR和极端梯度提升机XGBoost的异同?

2.请讲解一下CUPED的原理?(此问题与BG中实习内容相关)

具体可参见有哪些方法可以帮助AB测试显著更快一些?

剩余问题主要集中于简历上的实习经历,就不在此展开了

三面

1. Python中dict插入、查询的时间复杂度分别是?list查询的时间复杂度是?

均为O(1),具体可参见Python常见数据结构的时间复杂度

2.请简要介绍一下SRM(Sample Ratio Mismatch,样本比例偏差)的概念

具体可参见:

策略效果分析中的两个代表性问题

实战干货|容易被忽视的样本比例偏差问题

剩余问题主要集中于简历上的实习经历,就不在此展开了

#数据分析##暑期实习##数据科学##腾讯#
全部评论
您好,请问这个岗位笔试会有哪些内容呢
1 回复 分享
发布于 2023-03-23 09:40 澳门
没你好,我想了解一下面试时给的笔试题是什么题啊(如果方便透露的话)
点赞 回复 分享
发布于 2023-04-06 17:06 辽宁
感觉这整体还是有难度的
点赞 回复 分享
发布于 2023-03-23 10:00 黑龙江
请问下,面试前有没有笔试或者机试
点赞 回复 分享
发布于 2023-03-23 10:00 内蒙古
请问是PCG的数科岗嘛
点赞 回复 分享
发布于 2023-03-21 22:39 上海

相关推荐

我是985研究生,最近学校在组织开题,大家都在非常紧张地准备,但我一直进入不了状态,很想做但是心又很浮躁。但我的室友们感觉都非常认真,每天醒来就开始看论文,睡着前最后一件事还是在看论文,我非常焦虑。我感觉自己甚至有点把大家当做假想敌了。这种比较心态还存在于生活的各种方面:看到有钱的同学会非常羡慕,看到朋友圈里面环游世界的留学生同学也会羡慕,看到那些工作后有自己的钱而过上较为阔绰的生活的时候还是羡慕,就仿佛只有自己一个人在阴暗爬行。而且这些比较是每时每刻的,为了不比较,我已经关闭了朋友圈,但是每次偶尔刷一下还是会难受很久。我知道比较是偷走幸福的小偷,但我好像控制不了,感觉自己是一个偷窥别人生活的...
若怜君欢:担心开题搞砸了,幻想拥有别人的生活,本质上是因为自卑,楼主小时候大概率是留守儿童或者父母关系很紧张,导致楼主没有安全感、焦虑、内耗。 这样的情况最好的办法就是建立自信和降低期待,建立自信不是一蹴而就,而是循序渐进,比如告诉自己允许自己第一次没把事情做好,失败了能搞清楚其中缘由而不是全盘否定自己,失败不是终点,放弃才是;降低期待只要记住一句话即可,能伴随你一生的,只有经验和学识,所以你对事情的态度应该更多地去思考它是否能带来学识和经验的增长,而不是仅仅用短期的利益作为唯一期待。 人生不是一成不变的,它是可以迭代更新的,去归纳总结自身的不足并结合实际去改进,去尝试一些新的思路和方法,不要固执钻牛角尖,也不要反复横跳,为自己设立一个高度聚集的精神内核,内核之上可以去尝试一切有利于自己更好的方式 以上就是我个人对生活的理解,共勉
点赞 评论 收藏
分享
评论
13
147
分享

创作者周榜

更多
牛客网
牛客企业服务