一只爱飞翔的猪

今天 11:53 已编辑北京理工大学算法工程师发布于北京

关注

无论文秋招——上海AI lab一面

项目询问

没挖太深

问了个PPO和GRPO DAPO的区别

问了一个懂不懂vLLM和SGlang的实现

问了一个ms-swift 和 VeRL各自设计上的优劣，我说VeRL用起来更方便，每个模块很清晰，ms-swift集成的太好了，不方便改

问了一个宏观的问题：如果给你一个多模型后训练任务，怎么设计训练框架？

我说两个点，一个是模型加载，需要考虑到适配不同的模型，方便未来的模型加入进来，另外一个是RL这一块，需要适配不同的算法，让用户自己可以比较灵活的去定义和修改算法，例如你实现了 PPO算法，能不能很方便的改成GRPO,DAPO,GSPO。

面试官不太懂训模型这一块

比较关心框架设计

后面反问工作内容也是提到了是做偏infra这一块的

代码是补全GRPO

import torch
import torch.nn as nn
import torch.nn.functional as F

class GRPO:
    def __init__(self, policy, ref_policy, lr=1e-5, beta=0.02, eps_clip=0.2):
        self.policy = policy
        self.ref_policy = ref_policy
        self.optimizer = torch.optim.Adam(policy.parameters(), lr=lr)
        self.beta = beta
        self.eps_clip = eps_clip
    
    def compute_loss(self, input_ids, old_logp, rewards, advantages):
        """
        input_ids: [B, T]
        old_logp: [B, T] 旧策略log概率
        rewards:  RM奖励
        advantages:  GAE优势
        """
        new_logp = self.policy.log_prob(input_ids)  # [B, T]
        ratio = torch.exp(new_logp - old_logp)      # [B, T]
        
        # GRPO：组内归一化优势（每组4样本）
        B = advantages.size(0)
        group_size = 4
        advantages = (rewards - torch.mean(rewards))/torch.sqrt(rewards**2)
        
        # PPO裁剪
        surr1 = ratio*advantages
        surr2 = (0.8,1.2)*advantages
        policy_loss = -min(surr1,surr2)
        
        # KL惩罚
        ref_logp = self.ref_policy(input_ids)
        kl = new_logp/ref_logp - torch.log(ref_logp/new_logp) + ?
        
        loss = policy_loss + kl
        return loss
    
    def step(self, input_ids, old_logp, rewards, advantages):
        loss = self.compute_loss(input_ids, old_logp, rewards, advantages)
        self.optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(self.policy.parameters(), 1.0)
        self.optimizer.step()
        return loss.item()

这里有几个点我写错了

1、计算优势的时候，坟墓应该是std 标准差，也就是sqrt(sum(x_i-\mu)/N)

2、policy_loss 应该等于 -torch.min(ratio*A,clip(ratio,0.8,1.2)*A).mean()

3、k3_loss 公式应该是exp(r) - r-1，r=log(p_ref)-log(p_new)

import torch
import torch.nn as nn

class GRPO:
    def __init__(self, policy, ref_policy, lr=1e-5, beta=0.02, eps_clip=0.2):
        self.policy = policy
        self.ref_policy = ref_policy
        self.optimizer = torch.optim.Adam(policy.parameters(), lr=lr)
        self.beta = beta
        self.eps_clip = eps_clip
    
    def compute_loss(self, input_ids, actions, old_logp, rewards, advantages):
        # 计算当前策略 log 概率
        new_logp = self.policy.log_prob(input_ids, actions)  # 用户需在policy定义中实现log_prob
        ratio = torch.exp(new_logp - old_logp)

        # === GRPO组内归一化 ===
        group_size = 4
        advantages = advantages.view(-1, group_size)
        advantages = (advantages - advantages.mean(dim=1, keepdim=True)) / (advantages.std(dim=1, keepdim=True) + 1e-8)
        advantages = advantages.view(-1)

        # === PPO裁剪 ===
        surr1 = ratio * advantages
        surr2 = torch.clamp(ratio, 1 - self.eps_clip, 1 + self.eps_clip) * advantages
        policy_loss = -torch.min(surr1, surr2).mean()

        # === KL惩罚 ===
        ref_logp = self.ref_policy.log_prob(input_ids, actions)
        kl = (new_logp - ref_logp).mean()

        # === 总loss ===
        loss = policy_loss + self.beta * kl
        return loss
    
    def step(self, input_ids, actions, old_logp, rewards, advantages):
        loss = self.compute_loss(input_ids, actions, old_logp, rewards, advantages)
        self.optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(self.policy.parameters(), 1.0)
        self.optimizer.step()
        return loss.item()

问了我想做什么。

工作强度，12点前到，打卡 9h 即可，地点是上海

全部评论

推荐最新楼层

昨天 15:16

北京航空航天大学 Java

bg九本软件工程，有些疑惑为什么字节HR面挂了面的生服后端实习timeline10.10一面，当天约二面10.11二面，10.13约三面，然后晚上十点半说直接约HR面10.24HR面10.28挂这直接过三面是KPI的意思吗？？我还以为是对我技术的认可hr面问了一些常规问题，像最近看了什么技术、工作中感到压力的事、base地、个人缺点等，感觉我也没有回答的很烂。挫败感一下就上来了

CR7_KB24：应该是横向对比，有多个人过了HR面（字节HR面本身一般不会挂人的，但是业务会对比多个候选人）

点赞评论收藏

分享

昨天 18:17

北京理工大学算法工程师

sh AI lab 面试题

import torch import torch.nn as nn import torch.nn.functional as F class GRPO: def __init__(self, policy, ref_policy, lr=1e-5, beta=0.02, eps_clip=0.2): self.policy = policy self.ref_policy = ref_policy self.optimizer = torch.optim.Adam(policy.parameters(), lr=lr) self.beta = beta self.eps_clip = ep...

点赞评论收藏

分享

昨天 23:07

腾讯云智研发_csig云与智慧产业事业_云gts工作室(实习员工)

秋招收获实习offer-脉脉

脉脉后端开发实习生-增长值得去嘛秋招但是发的是实习offer说4-6个月后通过转正答辩可以签三方

投递脉脉等公司10个岗位

点赞评论收藏

分享

10-27 19:23

门头沟学院 Java

上海人工智能实验室一面

你的B项目具体职责是什么， Redis 的一个数据的存储，然后让 Redis 就是 RT 会更高一点，是吧？ RT 会更小一点？你这边的 Redis 的一个优化，对吧？其实是只是优化它的一个数据结构，是吗？还是说，比如说你们有一个会对 Redis 相关的数据结构实际上你要解决的并不是一个 Redis 超时问题，而是说我，你希望把，就是 Redis 里面存储数据就这个 key 对应的这个存储的数据能够让它均匀，分布的更均匀一点，是吗？我第一个问题是，为什么你会尝试复现，而不是尝试去跟中间层，就是这些做技术架构的人直接去问他的算法是什么样子的？我觉得这样更高效一点。数据的一个存储的一个背景，就是为...

查看24道真题和解析

点赞评论收藏

分享

昨天 11:48

门头沟学院运营

收到美团保温电话了

HR问一下手上offer情况和投递情况，我很诚实地回答现在只有美团一家offer，会不会对定薪有影响，聊完还说加我vx，结果一直没加

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# i人适合做什么工作 #

2131次浏览 26人参与

# 我是面试官，请用一句话让我破防 #

3158次浏览 22人参与

# 快手技术岗信息交流阵地 #

13040次浏览 77人参与

# 如果秋招能重来，我会____ #

14497次浏览 122人参与

# 校招生月薪1W算什么水平 #

4504次浏览 29人参与

# 如果上班像打游戏，你最想解锁什么技能 #

3063次浏览 36人参与

# “vivo”个offer #

22834次浏览 173人参与

# 苦尽甘来时，再讲来时路 #

14437次浏览 225人参与

# 一份好的简历长什么样？ #

8253次浏览 194人参与

# 为了实习逃课值吗？ #

14081次浏览 119人参与

# 你认为哪些项目算烂大街？ #

71988次浏览 599人参与

# 大学最后一个寒假，我想…… #

61389次浏览 664人参与

# 班味很重的人是啥样的？ #

5031次浏览 35人参与

# 投递无反馈，如何优化求职策略？ #

2853次浏览 31人参与

# 秋招许愿，本周能____ #

16551次浏览 102人参与

# 选完offer后，你后悔学机械吗？ #

43382次浏览 250人参与

# 机械制造秋招总结 #

83083次浏览 824人参与

# 选择和努力，哪个更重要？ #

136920次浏览 1060人参与

# 机械求职避坑tips #

71840次浏览 487人参与

# 应届生第一份工资要多少合适 #

4147次浏览 37人参与

# 你觉得实习能学到东西吗 #

114951次浏览 1248人参与

# 新凯来求职进展汇总 #

58393次浏览 151人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务