一只爱飞翔的猪

10-28 18:17 北京理工大学算法工程师发布于北京

关注

sh AI lab 面试题

import torch
import torch.nn as nn
import torch.nn.functional as F

class GRPO:
    def __init__(self, policy, ref_policy, lr=1e-5, beta=0.02, eps_clip=0.2):
        self.policy = policy
        self.ref_policy = ref_policy
        self.optimizer = torch.optim.Adam(policy.parameters(), lr=lr)
        self.beta = beta
        self.eps_clip = eps_clip
    
    def compute_loss(self, input_ids, old_logp, rewards, advantages):
        """
        input_ids: [B, T]
        old_logp: [B, T] 旧策略log概率
        rewards:  RM奖励
        advantages:  GAE优势
        """
        new_logp = self.policy.log_prob(input_ids)  # [B, T]
        ratio = torch.exp(new_logp - old_logp)      # [B, T]
        
        # GRPO：组内归一化优势（每组4样本）
        B = advantages.size(0)
        group_size = 4
        advantages = 
        
        # PPO裁剪
        surr1 = 
        surr2 = 
        policy_loss = 
        
        # KL惩罚
        ref_logp = 
        kl = 
        
        loss = 
        return loss
    
    def step(self, input_ids, old_logp, rewards, advantages):
        loss = self.compute_loss(input_ids, old_logp, rewards, advantages)
        self.optimizer.zero_grad()
        loss.backward()
        torch.nn.utils.clip_grad_norm_(self.policy.parameters(), 1.0)
        self.optimizer.step()
        return loss.item()

全部评论

推荐最新楼层

10-28 11:20

Columbia University 算法工程师

常青藤+硅谷+世界五百强+大厂履历，秋招0 offer

RT。话不多说，直接晒本人简历，不是标题党，走的是自动驾驶和算法岗的路线。但是秋招黄金时间都在实习，还必须倒时差做笔试，准备不佳+每次都是晕头转向的状态，外加课业，在秋招的标准化选拔里基本上全死。我奉劝各位千万不要误以为自己简历漂亮就轻视算法题和笔试的重要性。现在很绝望，觉得自己这么多年烧的钱和时间都是没有意义（当然体验本身就有意义，我倒是比秋招刚开始的时候想开了不少）把一副好牌打成了一坨狗屎。百度萝卜快跑：简历挂百度AIDU：笔试挂PDD：笔试挂地平线：二面挂 7.29字节跳动/tiktok：二面挂 8.21文远知行WeRide：笔试挂 8.8大疆：当时在加州，笔试给安排到凌晨4点，故没参加挂 8.10美团自动驾驶：笔试挂（听了美团不看笔试的鬼话）10.10卡尔动力：提前批简历挂 7.25卡尔动力：正式批-一面-二面-三面-CEO面-HR面。被问“能不能立刻实习”我在美国怎么实习？好说歹说，总算没有直接拒绝。现在应该在泡池子。网宿科技：一轮技术总管聊天-HR面，好像走的不是校招渠道，目前应该在走审批。得物：笔试挂小红书：笔试挂平安：笔试挂（所有笔试挂几乎都和时差相关，必须在纽约时间7点or加州时间4点凌晨进行，要么错过时间，要么在状态极差的情况下硬撑）博世：投递的时候没有HC了，被告知“可以在前同事底下干外包”遂拒绝等待春招依图科技：面试安排在纽约时间早上七点，当时闹钟失效了愣是没有醒来，遂挂。商汤科技：简历挂MOVA/追觅：二面挂滴滴自动驾驶：简历挂小米：简历挂OPPO：简历挂insta360：简历挂4399：简历挂留学生找工作真的好难时差要兼顾，要一边实习一边上课一边搞leetcode，昨天还是硅谷常青藤的“精英”，今天变成无业游民，心理落差真的好大。现在我自己也很迷茫，不知道是先随便找个小公司干干还是等春招回国翻盘（hopefully）。目前卡尔动力如果开了offer我就接去了打算。奉劝各位千万不要内耗，牛客上offer打牌的一大堆，现实中真的是极少数，国内外名校都一样。

点赞评论收藏

分享

昨天 11:53

已编辑

北京理工大学算法工程师

无论文秋招——上海AI lab一面

项目询问没挖太深问了个PPO和GRPO DAPO的区别问了一个懂不懂vLLM和SGlang的实现问了一个ms-swift 和 VeRL各自设计上的优劣，我说VeRL用起来更方便，每个模块很清晰，ms-swift集成的太好了，不方便改问了一个宏观的问题：如果给你一个多模型后训练任务，怎么设计训练框架？我说两个点，一个是模型加载，需要考虑到适配不同的模型，方便未来的模型加入进来，另外一个是RL这一块，需要适配不同的算法，让用户自己可以比较灵活的去定义和修改算法，例如你实现了 PPO算法，能不能很方便的改成GRPO,DAPO,GSPO。面试官不太懂训模型这一块比较关心框架设计后面反问工作内容也是提到...

查看5道真题和解析

点赞评论收藏

分享

昨天 00:45

腾讯云智研发_后台开发(实习员工)

春招！会有机会吗?

春招会有机会吗?能不能上岸

点赞评论收藏

分享

10-28 10:19

深圳信息职业技术学院产品经理

澳洲移民体检拒签预警！这几类疾病与情况容易踩雷，别等被拒了才后悔

有不少人都想移民澳洲，在办理澳洲移民时移民申请人及其附属申请人需要体检，如果体检不过那您的移民申请可能面临着拒签。今天，我们就来深入探讨一下，哪些情况会因为体检而导致澳洲移民被拒。传染性疾病在澳洲移民体检中，肺结核是重点关注的疾病之一 。如果申请人的肺结核处于传染期，那么肯定会被拒绝。不过，如果之前有过肺结核病史，但已经治愈，有钙化点，一般是没问题的。但需要配合做痰培养的测试，并且复查X光片，确认病灶无复发，才可以获得通过。像艾滋病、梅毒等性传染病，并不会导致所有申请人被拒绝。即便是HIV病毒携带者，在移民体检时被查出来后，也往往会被拒签 。乙肝乙肝也是澳洲移民体检中常见的检查项目。如果仅仅是...

点赞评论收藏

分享

10-08 18:10

中南大学 Java

这个时间点秋招还是做科研?

国庆假期去找对象了，本来是想要回家的，但是她现在正在经历一个很大的挑战:1. 秋招目前还是0 offer，并且给面的企业还比较少2. 小论文被拒了3次，又要重新投期刊，明年盲审之前发不出论文就代表着达不到毕业条件3. 周围卷的环境让人窒息，周围好多人甚至想放弃秋招，先整完毕业，再春招随便找个凑合的工作。但是我跟她说没有毕不了业的硕士，现在这个阶段要全力秋招上岸。她就非常矛盾再加上亲人生病，对我的思念，她也哭了好多次。所以国庆我没回家，就只是去找她好好安慰了她。希望老天爷能成全我们这一对苦命的情侣吧

卖挂面鸡蛋不锈钢盆：没有因为大论文毕不了业的硕士，但是小论文发不出来，神仙也救不了

牛友的国庆旅行碎片

点赞评论收藏

分享

评论

点赞

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# i人适合做什么工作 #

4875次浏览 61人参与

# 大家实习每天都在干啥 #

95579次浏览 533人参与

# 快手技术岗信息交流阵地 #

13944次浏览 80人参与

# 我是面试官，请用一句话让我破防 #

5783次浏览 52人参与

# 你认为哪些项目算烂大街？ #

72742次浏览 606人参与

# 如果秋招能重来，我会____ #

21112次浏览 195人参与

# “vivo”个offer #

27811次浏览 203人参与

320874次浏览 2905人参与

# 校招生月薪1W算什么水平 #

7594次浏览 53人参与

# 硬件应届生薪资是否普遍偏低？ #

88064次浏览 559人参与

# 华为池子有多大 #

105274次浏览 740人参与

# 苦尽甘来时，再讲来时路 #

20089次浏览 306人参与

# 作业帮求职进展汇总 #

70436次浏览 484人参与

# 如果上班像打游戏，你最想解锁什么技能 #

3940次浏览 43人参与

# 一份好的简历长什么样？ #

10377次浏览 241人参与

# 为了实习逃课值吗？ #

16861次浏览 147人参与

# 你认为小厂实习有用吗？ #

94769次浏览 609人参与

# 秋招许愿，本周能____ #

19927次浏览 135人参与

# 班味很重的人是啥样的？ #

6013次浏览 39人参与

# 投递无反馈，如何优化求职策略？ #

3400次浏览 32人参与

# 大学最后一个寒假，我想…… #

62219次浏览 668人参与

# 机械制造秋招总结 #

83994次浏览 826人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务