27暑期腾讯TEG大模型算法三面分享
给我面没招了,发点面经攒攒人品~
1.讲一下实习工作主要解决的是什么问题
2.训练数据怎么来的
3.最终几个评测集怎么用
4.训练用的什么卡
5.用了多少张卡
6.训练数据集规模
7.训练了多少个 Epoch
8.训练了多长时间
9.讲一下实习期间做的工作
10.为什么在实习结束后离职
11.为什么在做完一个项目后离职
12.算法题和开放题:
计算 KV Cache 需要的显存:
计算 KV Cache 显存需要哪些前置数据
KV Cache 显存怎么计算
3B Dense 模型和 32B-a3B MoE 模型,哪个推理延迟更低、推理速度更快:
MoE 模型第一次推理激活专家 1、3、5,第二次激活专家 2、4、6,专家切换的成本主要是什么:
大模型服务 API 定价问题:
不同服务方案下,1K Token、32K 上下文、128K 上下文的输入输出定价如何设计
算法题:
会议室预定问题
判断某个时刻点是否可以预定
查询最近可以预定的时间
1.讲一下实习工作主要解决的是什么问题
2.训练数据怎么来的
3.最终几个评测集怎么用
4.训练用的什么卡
5.用了多少张卡
6.训练数据集规模
7.训练了多少个 Epoch
8.训练了多长时间
9.讲一下实习期间做的工作
10.为什么在实习结束后离职
11.为什么在做完一个项目后离职
12.算法题和开放题:
计算 KV Cache 需要的显存:
计算 KV Cache 显存需要哪些前置数据
KV Cache 显存怎么计算
3B Dense 模型和 32B-a3B MoE 模型,哪个推理延迟更低、推理速度更快:
MoE 模型第一次推理激活专家 1、3、5,第二次激活专家 2、4、6,专家切换的成本主要是什么:
大模型服务 API 定价问题:
不同服务方案下,1K Token、32K 上下文、128K 上下文的输入输出定价如何设计
算法题:
会议室预定问题
判断某个时刻点是否可以预定
查询最近可以预定的时间
全部评论
相关推荐
05-12 10:06
重庆大学 Java 杨同学e:大意了bro们,面试官告诉我博客网站没有内容,我去服务器一看,谁通过高并发请求给我服务器后端干废了😂,看来还是要多练练,已经开了限流了
点赞 评论 收藏
分享

华为HUAWEI公司氛围 750人发布