字节大模型算法岗三面面经（整理答案版）

1️⃣讲一下强化学习 reward 函数设计。
(1）可验证奖励（ RLVR )：对有确定答案的任务（数学、代码），用 ground - truth 结果验证（正确+1，错误0/-1)。
(2）奖励模型（ RM - based Reward )：对主观任务（对话、写作），训练 RM 从偏好数据学习打分。
(3）规则奖励：对特定安全／格式要求，用硬规则直接判断。
2️⃣现有 Embedding 模型相比 CLIP 的区别？
(1）训练目标不同： CLIP 用 InfoNCE 做图文对比，目标是让匹配图文对相似；专用模型用 SimCSE ／三元组损失／ NLI 监督／多任务，目标是精确捕捉文本语义的细粒度差异。
(2）数据质量不同：专用模型训练于高质量语义标注对，语义标注精准； CLIP 训练于网络爬取图文对，文本侧噪声大、以短标题为主，不利于文本语义建模。
(3)性能对比： MTEB 基准上， BGE - Base /E5- Base 等在文本检索、语义相似度等任务上大幅领先 CLIP ；但 CLIP 在图文检索上仍有独特优势。

3️⃣ GRPO 和 PPO 的区别。
(1）架构差异： PPO 需要四个模型（策略模型π t _0、旧策略、奖励模型 RM 、价值模型 Critic )，显存占用大， Critic 的估计偏差还可能干扰 advantage 计算。 GRPO 只需策略模型，对每个 prompt 采样 G 个输出，用组内平均奖励作为 baseline 替代 Critic ，去掉了价值模型的全部开销。
(2) Baseline 设计： PPO 的 baseline 是 Critic 预测的状态价值; GRPO 的 baseline 是当前 prompt 下同组 G 个 rollout 的均值。
(3）适用场景： GRPO 对"组内多样性"要求高，特别适合有可验证奖励的推理任务; PPO 更通用但更复杂，适合需要精确价值估计的场景。

4️⃣大模型训练流程。
(1）预训练（ Pre - training )：目标是从海量无标注文本（万亿 token 级别）学习语言统计规律和世界知识，任务是 next - token prediction 。
(2）监督微调（ SFT )：用高质量（ instruction , response ）对让模型学会遵循指令。
(3）对齐训练（ RLHF / DPO / GRPO )：让模型输出符合人类偏好，通过奖励模型反馈或直接偏好优化进一步提升质量和安全性。

5️⃣微调大模型如何卡阈值。
可验证任务（数学／代码）用"正确性"作为硬阈值（只要正确的）；生成任务用 RM 综合分数阈值。

6️⃣为什么 CLIP 的嵌入效果不好？
①文本编码器仅支持77 tokens （基于 GPT -2架构），无法处理长文本；
② nfoNCE 对比目标只要求"匹配图文对靠近"，不需要区分文本之间的细粒度语义差异，嵌入空间对文本相似度分辨能力弱；③预训练数据以互联网短标题为主，语义噪声大，文本侧质量不足；
④对文本扰动敏感（微小改动可能导致检索排序大变）。

7️⃣［代码题］手撕了 InfoNCE 代码 InfoNCE loss 的实现﹣﹣计算相似度矩阵（点积／余弦）、温度缩放、对角线为正样本的 cross - entropy loss ，批次内负样本。
📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

字节大模型算法岗三面面经（整理答案版）

全站热榜

创作者周榜