字节大模型日常实习一面面经
整体感觉还是不错的,发一下问题供大家参考~
八股吟唱:
1、Pretrain、SFT、RLHF区别(目标、任务定位和解决的问题?)
2、为什么偏好对齐不能直接用偏好数据做 SFT,而用RL
3、Pretrain和 SFT 在优化目标上的区别
4、SFT的loss是什么,若target有10或100个token,loss如何计算
5、SFT 样本(含 prompt)与预训练样本在计算 Loss 时的区别,如何屏蔽prompt的Loss
6、控制生成多样性的参数有哪些?怎么控制的?
7、top-k与top-p 区别
8、除了贪心,还有哪些生成策略?
9、你对多模态的理解?
10、最近读了什么论文?论文的核心亮点是什么?
11、PPO和GRPO的结构区别,各自适用的场景?
12、DAPO、GSPO具体做了什么改进?
13、是否了解 Swift?DeepSpeed 与 Megatron 的区别
手撕算法:
交叉熵、Softmax、Self-Attention
力扣139题 Word Break变种
八股吟唱:
1、Pretrain、SFT、RLHF区别(目标、任务定位和解决的问题?)
2、为什么偏好对齐不能直接用偏好数据做 SFT,而用RL
3、Pretrain和 SFT 在优化目标上的区别
4、SFT的loss是什么,若target有10或100个token,loss如何计算
5、SFT 样本(含 prompt)与预训练样本在计算 Loss 时的区别,如何屏蔽prompt的Loss
6、控制生成多样性的参数有哪些?怎么控制的?
7、top-k与top-p 区别
8、除了贪心,还有哪些生成策略?
9、你对多模态的理解?
10、最近读了什么论文?论文的核心亮点是什么?
11、PPO和GRPO的结构区别,各自适用的场景?
12、DAPO、GSPO具体做了什么改进?
13、是否了解 Swift?DeepSpeed 与 Megatron 的区别
手撕算法:
交叉熵、Softmax、Self-Attention
力扣139题 Word Break变种
全部评论
相关推荐
02-12 20:22
重庆大学 Java
双非后端失败第N人:1. go语言我建议你让ai带着你先把基本语法速通了,然后再去用go重新刷你以前刷过的leetcode,这样熟悉起来很快 2. 直接看你们组go项目,里面用***比较复杂,然后把每一个语法现象都喂给ai,一点点看
字节跳动公司福利 1371人发布 点赞 评论 收藏
分享
查看8道真题和解析