思摩尔内推-思摩尔内推码

👋职思摩尔三个月啦,今天和大家唠唠我的真实感受👇

🕒时间篇

▫️早 9 晚 6 不加班(除非自己卷项目)

▫️春节直接放 15 天!国庆 7 天也从不缩水

▫️午休 1 小时能去食堂炫饭 / 楼下散步

🏢环境篇

▫️总部大楼超气派!落地窗 + 智能办公区

▫️实验室设备都是顶配(技术岗狂喜!)

▫️茶水间永远有免费零食 + 现磨咖啡

▫️健身房 / 瑜伽室下班后随便用

💸薪资福利

✅base 在行业算中上水平

✅季度奖金 + 项目分红(去年同事拿了 20k)

✅3 年住房补贴 + 免费体检

❌日薪岗容易被裁员(慎重选择!)

👥同事氛围

▫️95 后占比超 60%,沟通无代沟

▫️领导会手把手带项目(我 mentor 超 nice!)

▫️跨部门协作很顺畅,没人甩锅

思摩尔国际2025全球校园招聘火热进行中

【关于我们】

思摩尔国际(HK6969)成立于2009年,是提供雾化科技解决方案的全球领导者,业务聚焦于在尼古丁传输、雾化医疗、雾化美容等领域;全球拥有13000+员工,9大研发基地,产品远销100+国家和地区。

【岗位选择】

技术研发类|产品/营销类|综合职能类|设计类|供应类

【工作地点】

深圳、北京、昆明等

【福利待遇】

1️⃣有竞争力的年薪—

本硕毕业生:技术研发类18-30W、产品/营销类17-27W、其他职能类15-24W

博士毕业生:45-60W

*优秀者可给予SP offer

2️⃣拿到手软的奖金—

绩效奖金、价值分享奖金、专项奖金、年度评优、股权激励等

3️⃣享受不完的福利—

3年住房补贴、15天春节假期、餐饮通讯补贴、各类社团协会、节日关怀、下午茶等

内推码:DShwFS1Q

内推链接:https://app.mokahr.com/m/campus_apply/smoore/148242?recommendCode=DShwFS1Q&hash=%23%2Fjobs#/jobs

(内推简历优先筛选,后续有问题随时联系)

使用内推码简历优先筛选,有任何问题包括进度查询可以私信我,内推后在评论区留言【姓名缩写+岗位】,方便捞人和确认投递状态

#内推##牛友职场人脉来了#
全部评论

相关推荐

点赞 评论 收藏
分享
✴️算法面试中遇到一道实战场景题:在大模型训练中使用GRPO,训到一半 reward 就很容易突然掉下来的原因?GRPO 出现这个问题,需要详细了解强化学习(RL)的基本迭代架构,即 Actor-Critic 架构。知行互动(AC)架构为什么要有 Critic 呢?这就涉及强化学习的算法稳定性问题。与监督学习(SL)相比,RL 实际上是很难稳定的一类训练机制。💣大致的原因如下:RL 本身是处理动态系统的最优控制问题,而 SL 是处理一个静态优化问题。动,就比静更难处理。加上 RL 的数据非稳态,Env-agent 交互机制的数据采集量少,这使得梯度计算的方差更大,方差一大就容易偏离预期目标,算法就容易跑飞了。主流的强化学习算法是怎么解决这一问题的呢?加上 Critic,使用 State-value function 或者 Action-value function 稳定策略梯度的计算过程。更高级一些的算法是采用 Advantage Function,也就是加上了 Baseline,增加梯度计算的稳定性。这是 AC 算法总是优于 REINFORCE 算法的原因之一。✅然而 GRPO 并没有 Critic 部分,原因比较简单,因为 GRPO 是用于训练大模型(1000 亿级别的参数规模),若是使用“知行互动”架构的话,等于需要存储两个大模型。Critic Network和 Actor Network,对存储要求极高。怎么节约存储呢?把 Critic Network 去掉,替换为在线估计 Advantage function 的算法,采用了“时间(算力)”换“空间(存储)”的做法。这就是 GRPO 的设计思想。与之对比,OpenAI 提出的 PPO 算法(也是 GRPO 的基础算法),它的值函数通常是一个与策略模型大小相当的模型,这带来了显著的内存和计算负担。考虑到 OpenAI 并不缺算力资源,不缺存储资源,即使 PPO 算法设计的如此糟糕,照样用的风生水起。🤳回到最初的话题,从原理上看 GRPO 并非完美,与 PPO 相比实际上处于是半斤八两的水平,算法设计存在“稳定性”缺陷,但是为什么 DeepSeek 还能用的比较好呢?因为 DeepSeek 的数据足够多,多到可以“完美”地避开 GRPO 的稳定性缺陷。每次的 Policy Gradient 计算,只要 Batch 数据足够多,就能有效降低 Policy Gradient 的方差,就能获得比较稳定的迭代。当每次使用的数据批量比较小的时候,它的稳定性缺陷将是致命的。这类规模的策略训练,建议优先选择带有 Critic 的强化学习算法。🌟如果大家想了解高质量的项目辅导以及提升面试能力,欢迎后台咨询。    
点赞 评论 收藏
分享
评论
1
1
分享

创作者周榜

更多
牛客网
牛客企业服务