2025-12-26 18:13 北京理工大学算法工程师发布于北京

关注

阿里控股审核一面

# 假设已存在：
# model, old_model
# optimizer
# eps, beta
# K: 每个 prompt 的 group size

old_model.load_state_dict(model.state_dict())
old_model.eval()

for step, batch in enumerate(dataloader):
    optimizer.zero_grad()

    total_loss = 0.0

    for prompt in batch:
        # 1. 用 old policy 采样（不参与梯度）
        with torch.no_grad():
            completions, old_log_probs = old_model.sample_log_probs(
                prompt, K
            )  # shape: [K, T]

        # 2. 用当前 policy 重新计算 log_probs
        _, new_log_probs = model.log_probs(
            prompt, completions
        )  # shape: [K, T]

        # 3. reward（sequence-level）
        rewards = reward_fn(completions)  # shape: [K]

        # 4. GRPO advantage（group 内归一化）
        advantages = (rewards - rewards.mean()) / (rewards.std() + 1e-8)
        advantages = advantages.detach()  # 明确不回传

        # 5. token-level log-prob 求和
        old_lp = old_log_probs.sum(dim=-1)  # [K]
        new_lp = new_log_probs.sum(dim=-1)  # [K]

        # 6. PPO / GRPO ratio
        ratio = torch.exp(new_lp - old_lp)

        # 7. clipped surrogate objective
        clipped_ratio = torch.clamp(ratio, 1 - eps, 1 + eps)
        policy_loss = -torch.mean(
            torch.min(ratio * advantages, clipped_ratio * advantages)
        )

        # 8. KL penalty（old || new）
        kl_loss = beta * torch.mean(old_lp - new_lp)

        # 9. 总 loss
        loss = policy_loss + kl_loss
        total_loss += loss

    # 10. batch 反传
    total_loss.backward()
    optimizer.step()

    # 11. 周期性同步 old_model
    if step % OLD_SYNC_INTERVAL == 0:
        old_model.load_state_dict(model.state_dict())
        old_model.eval()

忘记了torch.exp(log_logits)
忘记了

policy_loss = -torch.mean(
            torch.min(ratio * advantages, clipped_ratio * advantages)
        )

另外忘记了kl散度的计算方式

# 8. KL penalty（old || new）
  kl_loss = beta * torch.mean(old_lp - new_lp)

全部评论

推荐最新楼层

想去西藏旅游的小熊猫在泡澡

石河子第一中学算法工程师

怎么还在面呀有签了的公司嘛

点赞回复分享

发布于 2025-12-27 00:15 北京

2025-12-27 20:52

已编辑

快手_MLOps(实习员工)

或许永远也当不成热血漫画男主了

和干燥的的北方不同，杭州的12月是湿润的，白天从工位一抬头，雾霭已经笼罩了整个园区，从写字楼的落地窗看出去，如置身仙境。不敢高声语，恐惊天上人今天是周六，去公司坐了一会儿，一是想趁着周末工区比较安静学习一会儿，二是去健身房锻炼一会儿完美的结束这一天之后我和往常一样，走在创景路上，看着远处的恒生科技园，西溪永乐城，以及最远处的挂着火山引擎四个大字的写字楼，头戴式耳机默默放着《Sacred Play Secret Place 》空灵的旋律让路程没有那么枯燥，心中默默计算着还有多久可以到家周末没有晚高峰，往常车水马龙的路口显得格外冷清，和往常走在同样路线的我，看到了对面走来了一个小哥未见其人先问其声小哥：“不好意思打扰一下，你能帮帮我吗”我：？？？小哥：“我来这边打工的，我现在身上没钱了，没地方住也没吃饭，可以问你借一点钱吗，300就可以，我已经被很多人拒绝了”我看着他眼睛，心里很想给他转这笔钱，但就在我想转账的时候，我突然想到，如果他是骗子呢？我也不过是一个初入社会的学生，如果他真的是骗子，最后让我身无分文，杭州还会像我现在看到的这样美好吗？犹豫片刻我说：“这样吧我带你去买一点吃的吃可以吗？”他说不用了，还没有走远，就听到他对刚过来马路的两个女生开启了同样的对话，我没有留下来继续听，只是继续保持着原有的路线。他是骗子吗，也许是。我应该给他转这笔钱吗，应该吧，万一他真的很需要呢？小时候看过的文学和影视作品，主角总会是一个乐观，有点呆呆的大男孩，被人卖了还会帮别人数钱。圣母心泛滥。但这样的人身上的坚持，执拗和善良恰恰经常打动年幼的我，我想或许未来我也会成为这样的人，止于至善。但现在我知道了小时候动画片里只有一个敌人，主角打败BOSS就可以皆大欢喜。但现在我知道，生活里四面八方都是敌人，我也不一定是主角，一山更比一山高，不管怎么选都有可能走到一个BE的结局所以做一个不那么善良，利己一点的人，不去当一个大家喜闻乐见，社会需要的人有问题吗？没有一丁点问题，或许我们成为不了热血漫男主，但在我们的生活中，我们可以成为自己快走到家门口的时候，看到烧烤店的老板娘还在招待着零星几个客人，不远处字节的写字楼还亮着灯“也许刚才我可以换点现金给他，这样就不会被有骗的风险了，算了，他有手有脚的，凭什么要让我接济”耳机里的歌已经换成了《Be What You Wanna Be》Dorin略带沙哑的嗓音洗去了刚才心中的一点点迷茫上高中的时候，我的语文老师告诉我，想让文章变得高级，就要在文章中尽量减少“我”这样的字眼出现，这样你的文章分数才会更高但在这个世界，“我”却不可或缺，生活的评分标准也不会白纸黑字的摆在你面前了，也许不能成为耀眼的男主角，但可以成为你自己今日方知我是我

牛客解忧铺

点赞评论收藏

2025-12-27 21:06

已编辑

哈尔滨理工大学算法工程师

弓形矩阵的绘制（期中错题整理）

#include <iostream>#include <iomanip>using namespace std;int main() { int n, num = 1; cin >> n; for (int i = 0; i < n; i++) { if (i % 2 == 0) { for (int j = 0; j < n; j++) cout << setw(5) << num++; } else { int temp = num + n - 1; for (int j = 0; j < n; j++) co...

点赞评论收藏

不愿透露姓名的神秘牛友

2025-12-07 10:10

offer选择，华为还是普源精电

华为 上海 openharmony，做一些鸿蒙数据库方面的sdk开发，n x16，工作时间一二四，上午9到晚上10，周三周五6点走，周末有加班费普源精电 国产示波器龙头 苏州 嵌入式软开 n x 17，工作时间10 8 5，双休大家觉得在职业发展和薪资待遇方面哪家比较好？鸿蒙sdk开发未来好跳吗？

点赞评论收藏

2025-12-29 10:43

“以塑代钢”的静音革命：高性能工程塑料齿轮如何以轻量化、低噪音、自润滑重塑家电传动系统的用户体验

 环洋市场咨询（Global Info Research）最新发布的《2026年全球市场家电用塑料齿轮总体规模、主要企业、主要地区、产品和应用细分研究报告》，对全球家电用塑料齿轮行业进行了系统性的全面分析。报告涵盖了全球 家电用塑料齿轮 总体市场规模、关键区域市场态势、主要生产商的经营表现与竞争份额、产品细分类型以及下游应用领域规模，不仅深入剖析了全球范围内 家电用塑料齿轮 主要企业的竞争格局、营业收入与市场份额，还重点解读了各厂商（品牌）的产品特点、技术规格、毛利率情况及最新发展动态。报告基准历史数据覆盖2021至2025年，并针对2026至2032年未来市场趋势作出权威预测，为行业参与者提...

点赞评论收藏

2025-12-31 15:41

中南大学算法工程师

打球认识的姐姐，被委婉的拒绝了

前几天在球场上大胆的加了一位姐姐的微信，约了几次打球被拒了，然后约了看阿凡达3就一起去了，感觉看的过程边聊边看以为有戏，但是回去之后就冷处理了，这几天找了她几次，都是我去找的她，她基本上也不怎么理我，感觉没什么戏，约出来散步也不去，果然下一次叫出来打球的时候，委婉的拒绝了，一次的主动换来一辈子的内向。

天降大厂offer：当一直返回超时就知道是服务器问题了，客户端一直请求一直超时

牛友故事会

点赞评论收藏

全站热榜

创作者周榜

正在热议

# 你觉得专业和学校哪个对薪资影响最大 #