2025-12-24 04:25 陕西理工大学算法工程师

关注

网易大模型算法实习一面 50min

1.问项目的数据集构建和细节
2.分类模型微调前如果比较确定，但sft后可能会把概率输出变得不那么确定了，你觉得是什么导致的
3.讲一讲奖励模型的训练，奖励模型的奖励是怎么来的
4.是否了解过强化学习，讲一讲on-policy和off-policy不同和优缺点
5.为什么sft和rl在post-train中可能需要轮着来
最后是代码手撕：
零钱兑换

全部评论

推荐最新楼层

文化小流氓

门头沟学院安卓

网易实习一共几面

点赞回复分享

发布于 2025-12-26 22:47 北京

01-16 11:29

东北师范大学 Java

一文读懂强化学习

从一个小故事说起你还记得小时候学骑自行车吗？没有人一上来就会骑。刚开始的时候，你歪歪扭扭地扶着车把，脚踩上踏板，车子晃了两下——砰，摔了。膝盖破了皮，疼得龇牙咧嘴。但你爬起来，又试了一次。这回你发现，身体稍微往左倾的时候，车把往右打一点，好像能稳住。于是你又骑了几米远，然后——又摔了。就这样摔了无数次之后，突然有一天，你发现自己居然能骑着车满院子跑了。那种感觉特别神奇，你也说不清楚具体是怎么学会的，但就是会了。这个过程，其实就藏着强化学习最核心的秘密。那到底啥是强化学习？咱们先别急着下定义，继续聊骑自行车这事儿。你想想，学骑车的时候，有没有人给你一本《自行车骑行标准教程》，上面写着左腿发力系数...

愿天下没有难改的BUG

点赞评论收藏

分享

01-10 18:43

门头沟学院 Java

论文实验搞的一塌糊涂

我搞强化学习对着屏幕调了大半个月的参数，改奖励函数、调动作空间、换优化器，啥法子都试了个遍，可那训练曲线就是不收敛绝了。要么是平平无奇一条直线，要么是上蹿下跳跟蹦迪似的，完全没个收敛的迹象。明明照着论文里的步骤复现，甚至连超参数都扒得一模一样，结果人家的曲线平滑得像丝缎，我的却跟心电图似的跌宕起伏，乱八七遭。后来跟博士师兄吐槽，他一拍大腿说这玩意儿本来就带点玄学属性，有时候换个随机种子，曲线就能好看一大截，熬了好几个大夜，最后只能对着那乱糟糟的曲线叹气，合着之前的努力，主要看玄学运气

写论文的崩溃时刻

点赞评论收藏

分享

01-21 09:52

已编辑

北京邮电大学 Python

北京力拓飞远科技有限公司（测测）一面

多模态算法实习生2026.01.20，上午10:15，一面，线上，10多min，面试官没开摄像头 1.自我介绍 2.MindIE 现在的发展情况如何？ 在 910 服务器上，Mind IE 的性能比 VLLM 和 SGLang 等要快，都是适配该服务器的版本。 3.用 OneBench 测试时测吞吐了吗？ 没有做模型性能压测，只做了精度测试。 4.为什么选择这三个数据集做测试？ 因为是用中文数据微调，所以选中文数据集，LOGI 是中文逻辑推理数据集，MUSR 是中文意图识别数据集，还有一个综合类中文通用数据集，从不同角度对比能看出性能差异。 5.Qwen3 的 8B 有 thinking 能力...

查看17道真题和解析

点赞评论收藏

分享

01-10 10:35

中南大学算法工程师

字节大模型算法日常实习一面 70min

1.GAN和Transformer 这两个分别在你的项目里承担了哪些作用？这两个是怎么帮助你推动模型进行图像或者视频重建并提升性能？2.你的GAN以及生成器和判别器主要负责什么工作的，讲一下他们的核心作用以及怎么协同的3.你做项目的时候是先用的生成器还是判别器，为什么要这样设计呢？4.你的轻量化参差模块在优化Swin transformer发挥的什么作用？5.计算机视觉中多尺度融合是什么含义6.为什么深层次神经网络中提取的图像特征被称为”语义特征”？怎么处理图片信息的，多尺度特征的提取怎么提升的模型性能，你用了什么技术和算法框架去实现的7.在你处理模型时用的什么注意力机制，在大模型图像处理项目时这些模块在整体架构分别承担了什么职责？8.你在里面用的对抗损失函数怎么设计的，怎么结合别的模块使用的9.你用的WGAN，他和原始的GAN是怎么改进梯度问题的，以及损失函数中梯度惩罚项怎么实现的Lipschitz约束10.你说一下逻辑回归他的原理还有适用场景以及如何实现的11.在逻辑回归中，我们一般用交叉墒损失函数，你可以说一下为什么吗？12.你结合一下逻辑回归二分类任务，说一下为什么这种情况经常使用交叉墒损失而不是均方误差损失呢？13.L1L2正则化在机器学习模型中的作用是什么(这里要求写数学公式)14.请详细介绍一下PPO这个在强化学习中的策略优化算法，主要思路和流程是什么15.在PPO的算法损失函数中，有两个操作，一个是clip，还有一个是min，请你说一下这两个操作的方式作用还有他们在PPO中的意义。16.在PPO算法的损失函数设计中，cilp的操作已经能够限制策略更新的幅度确保稳定性，为什么还需要在损失计算中取原始的目标和clip的较小值？如果只保留clip部分，不取较小值会有什么问题？

查看16道真题和解析

点赞评论收藏

分享

01-11 10:23

清华大学机械设计/制造

机器人方向咋样?

大家好，今天给大家分享机器人就业体验。网友1：机器人专业千万别走嵌入式，过来人的经验。网友2：非常好跟自动化差不多下可pLc，工业机器人调试，上可嵌入式上位机，反正不缺工作机会。网友3：说实话这个专业就是个四不像，说好听点叫多学科交叉，其实啥也学不精，机器人运动学求解学了一下，但不知道学这个干什么，ros系统学了，老师全程让复制粘贴代码，最后考试就是背代码，现场总线技术学了，全是照PPT读的，电机学，液压系统。如果你喜欢自动化，好好学电子技术，C语言和电气控制PLC之类的，如果你喜欢机器人就好好学C语言，Python，C++和ROS系统，跟着学校教学计划你最终什么也学不会。网友4：能干机器人不...

点赞评论收藏

分享

评论

1

2

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 牛客十周岁生日快乐 #

206802次浏览 1932人参与

# 你觉得什么岗位会被AI替代 #

34912次浏览 232人参与

# 我和mentor的爱恨情仇 #

101699次浏览 922人参与

# 一人一个landing小技巧 #

143151次浏览 1498人参与

# 如果工作一直消耗情绪还要继续做吗 #

18103次浏览 83人参与

# 四大天坑是哪四家？ #

101637次浏览 235人参与

# 互联网公司评价 #

479776次浏览 4091人参与

# 机械人春招想让哪家公司来捞你？ #

377803次浏览 3127人参与

# 聊聊你的被动加班经历 #

4425次浏览 80人参与

# 在国企工作的人，躺平了吗？ #

392105次浏览 3951人参与

# 我的求职精神状态 #

422498次浏览 3075人参与

# 华为工作体验 #

289426次浏览 1376人参与

# 实习吐槽大会 #

404963次浏览 2168人参与

# 工作压力大怎么缓解 #

138913次浏览 1260人参与

# 找工作以来，你最看不惯__ #

17575次浏览 352人参与

# 你的mentor是什么样的人？ #

49281次浏览 705人参与

# 第一次找实习，我建议__ #

69310次浏览 841人参与

# 实习教会我的事 #

52180次浏览 413人参与

# 实习怎么做才有更好的产出 #

14051次浏览 263人参与

# AI coding的好用工具分享 #

21668次浏览 409人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务