首页 / 强化学习
#

强化学习

#
79037次浏览 383人互动
此刻你想和大家分享什么
热门 最新
美团 无人车项目部 一面
查看9道真题和解析
点赞 评论 收藏
分享
蔚来 实习 一面 已OC
日期:2026.3.26时长:约40mins面试官:算法工程师(也许是)面试岗位:算法工程师 实习岗工作地:上海内容1 面试官自我介绍2 (我)自我介绍(追问)实习时长?视实习jd而定,对于……,实习期大概在4-5个月3 简历询问a 学生期间的学习经历有什么?i  本科还是硕士?——》都介绍一下ii 本科期间学校对我们专业的培养目标是……,所以我们会学数学、化学、英语、机械、力学、……。在研究生期间,主要学习的课程可以自行选择,我的主修课程主要包括环境感知、智能导航、传感器、ai及深度学习、数学等课程,研究生的主要研究方向就是……。b 我看你的实习经历有一段……,当时就已经在做agent开发了吧?i  我认为严格意义上那不算agent,当时agent也没有现在这么火,更多的还是一个对内的ai助手demo开发,在功能上基本可用。b(追问)那你对ai了解多少,与llm和agent相关的这些。ii 对于llm还有agent的一些基本原理的概念性东西还是有一定程度了解,比如loRA微调、RLHF(是这个吗?其实我不太记得住这个词,可能当时说错了)、数据集、无监督学习、rag、a2a、skills、tool,Transformer等等。但是如果您问我我具体了解程度,那我只能说基本不了解。因为在我的预估和前期规划中,我的实习期从五月开始,这些东西的学习计划是放在四月的(确实是这样规划的)。那么在这之前,我主要做的是我的毕设和一些基础的学习,比如说强化学习的数学原理、经典强化学习算法、Attention、深度学习底层原理等等。之所以这样规划是因为这些东西是介于我毕设和预估中的实习涉及到的技术落地间的重要知识,需要有层次的递进学习,其次是我需要毕设做到一定程度导师才放实习,因此我的毕设进度大概是……。c 介绍一下你最了解的项目。i  我最了解的是我的毕设……。其中我这也是结合prompt engine做的,其中用于项目开发的skill也开源了。c(追问)你为什么选择PPO而不是其他的模型?你有做过对比吗?ii 我选PPO的原因很简单,首先是PPO相对来说非常成熟,其次是它对超参数不是那么敏感,这样我可以不太用耗费很多时间去调参,此外,ppo的代码实现相对来说也比较简洁,能有效减轻我的工作量,最重要的一点是ppo的鲁棒性相对较强,这个是我比较看中的,因为……。对于其他模型而言,比如TRPO,没记错的话TRPO的一大优点在于其理论上能保证策略性能的严格递增,这点也是很重要的,但是没记错的话,TRPO中有个温度系数还是什么超参数,这个超参数对最终的策略提升有重大影响,如果这个参数没调好,容易让策略走向在最优解附近大幅震荡或无法学习的两个极端,这其实是我不希望出现的。毕竟计算机计算精度始终有限,因此我选用一个算法的目的之一在于在有限的计算时间和计算资源的限制之内能最逼近和无线逼近最优解,因此尽管PPO在理论上的收敛性不如TRPO严谨,但是从实际表现来看ppo反而好不少,他就是我需要的算法。c(追问)你的项目不使用数据集来训练对吧?比如那种生成的数据是无法应用到你的项目中的?iii我的项目可以用数据集,强化学习有通过数据集预训练或者需要采样数据的算法,但是,但是,如果使用数据集,我怎么保证我采集到的数据比强化学习自己的策略更好呢?换句话说,这些数据集需要我再环境中自己去采集,人具有主观性,我不能保证我采集到的数据是没有偏差和人的主观偏好在其中,如果基于有偏差的数据进行训练,那么如何保证最终训练出来的策略是最优策略呢?当然我不是在否定这种方法,现在有很多基于数据集驱动的强化学习,若我采用了这种方法,我就需要考虑……系列问题,这会让我毕设的体量爆炸……。因此,在实际中应该结合现有条件进行选择,最适合的才是最好的。4 手撕一个字符串中包含空格和数字,要求不产生额外存储空间的情况,把所有的数字换到左边,同时字符串长度不变(空格放到末尾保留)。忘了这是力扣哪个题,用了双指针的思路,思路对的但是跑不过用例不知道为什么。5 反问a 算力资源?i (面试官所在的团队)有几张gpub ai coding额度资源?i 这些问问llm就行,实习生估计是没有的(我其实无所谓,常年开的有自己的coding账户)c 组织架构?或者团队的主要工作内容是?i (估计是组织架构不便透露)工作内容:i)基于cv的……检测ii)基于ai的……检测iii)基于ai llm的知识图谱构建(听到这眼前一亮)---------分界线---------大约面试结束30-40分钟左右接到hr电话电话内容总结:1 面试官那边总体满意2 jd是……(听到这觉得jd可以去)3 入职时间及实习期(算了一下,可以去)4 薪资5 手头offer确认(表明0 offer,给了就去,期间也会面其他公司,毕竟我知道这个实习岗没有hc,但打包票的是期间我不会跳走)
查看9道真题和解析
点赞 评论 收藏
分享
北京千曙科技 自动驾驶研发实习投递结果
点赞 评论 收藏
分享
腾讯 实习 一面
日期:2026.3.23时长:约35mins面试官:算法工程师 / 产品经理 (具体不清楚,但是确实懂一定技术)面试岗位:技术研究 实习生内容1 自我介绍2 项目介绍i.  对你的XXX项目感兴趣,请你介绍一下:a 我这个项目是系列项目,第一个……,第二个……,第三个……。b 其中做的最深的是第四个,硕士毕业项目。其中,用了……,因为我更关注……。其中会面临……问题,针对这个问题的关键是……,因此我采用……实现……来解决。ii. 我对你项目中的……技术点感兴趣,请你介绍一下:a 采用这个主要考虑……,通过这个点能实现……,最终实现……效果。iii.你项目中另一个……技术点是什么,和你之前的有什么区别?a 这个的作用是……。为什么要这样考虑呢?是因为……,所以从这个角度看,我可以构建……,这样和……技术点是匹配的。那么这样这个技术点可以实现……,之前的技术点可以实现……,他们结合在一起可以实现……。iv.这个领域对于多智能体问题采用的经典方法是……,我观察到你也采用了这个方法,你的方法是否相比于其他人的同样的方法有优势?a 首先这个方法是……方法,选用这个方法是因为……。b 基于此,我不认为我的方法有特别的优势,或者说我不认为所有采用这个方法的项目较其他采用这个方法的项目会有优势,原因是这个方法是工业化的首选,其往往需要在有限的体量内解决问题,就算对其有改进,改进的工作量相比于最终获得的性能提升也是有一定的得不偿失。此外,考虑对方法进行改进并不是我们这个专业或方向的工作重点,我们更关注的是通过技术方法解决细化问题中的难点,也就是工程技术的具体应用与落地,至于方法的改进当然重要,但这个内容更可能是数学或计算机相关的关注重点。v .你做了这么多项目,是如何通过数据评价你的项目有效的?a 您是想问如何通过一些指标来量化评价项目的成效吗? --》 是b 对于这些项目的结果评价,需要一个第一性的原理支撑。我们的原理来自于……,从其中可以抽离出几个方面进行评价。具体是……。感觉这一部分没有特别深入技术的细节,很多都是项目设计的逻辑和完备性出发的问题。3 场景提问i.  你平时关注……吗?a 关注的,我特别关注……。ii .那么你应该也知道,在这个……中会有……。如果让你来设计一个……,你会如何通过你的技术栈来设计?a 首先,我认为……有不同的行为模式和目标。那么接受的状态可以包含……,然后采用分层设计,上层宏观决策……,比如要让这个做出……宏观行为,下层微观决策……,让……做出具体的……。b 最后在执行上,可以根据……动态调整,比如……我就……,反过来则加一些噪声或者添加随机化的参数……。这一部分感觉也不算很难,根据发的面试邮件的主题提前问问ai准备一下,有清晰的思路应该就没问题。4 反问a 对于这次面试,从您的角度出发是否有改进点?i.  没有什么特别的改进点,包括其他面试官和你提的也不一定都是你需要改进的,总之这个东西千人千面,我们更关注的是你是否与我们的项目match,是否一进来就有所产出(我理解的不是马上有产出,而是在一段时间之后真的在解决问题,而不是全在学习,所以最后可能有点言重了?我不清楚,但确实是这样说的)b 对于后续的面试流程,大概会在多长时间内进行?i.  就我接触到的,一般来说都在一周之内会有反馈,不论是进入到下一环节还是pass。c 如果我最终入职了相关岗位,实习生是否有相关的算力资源?i.  有的,这一块不用担心d 如果我最终入职了相关岗位,实习生是否有相关的ai Coding额度?i.  有的,你可以在网上搜一下,现在基本上每个人每年都配备了……额度,每个月……。整体来说感觉状态良好,无手撕。
查看8道真题和解析
点赞 评论 收藏
分享
2025-11-20 02:13
算法工程师
肝了一个月机械臂高尔夫,靠这个项目直接杀进国内机器人实习终面(只剩2人)
兄弟们好,最近在投机器人相关的实习,之前做的项目基本都是 Gym 那些经典环境,投机器人/自动驾驶方向的岗位基本石沉大海。后来看到不少人说现在做 RL 运动控制,有一点 sim-to-real 相关经验会更吃香,我就找能练手的平台。结果误打误撞刷到了 SAI,现在回想起来真的香到哭! 我从 10 月中旬开始肝他们的机械臂任务 Franka Golf(就是让机械臂把球打进洞)。纯 PyTorch 手搓 PPO,本地一张 3090 完全够用。 最新成绩还算稳,榜单实时可查。 https://competesai.com/benchmarks/FrankaIkGolfCourseEnv-v0为什么我觉得这个对找机器人 RL 实习特别有帮助:- 基于 MuJoCo(不少机器人公司内部也用同样引擎)- 任务标准化 + 排名可查:写在简历上比“我跑了某某自定义仿真”说服力高很多- 网站上能看到有 Booster 等国内头部机器人在赞助,名次靠前真的会被 HR 注意到,我这次写了之后,面试官真的和我聊了十分钟这个,感觉是有加分的(我现在已经杀到最后一轮了,以前投同类岗位基本没动静)总之,被虐到怀疑人生是常态,但模型投简历真的有人信!想走机械臂/具身智能/机器人 RL 方向的同学强烈建议去试试:- 注册就能直接用,环境白嫖- 现在还有 Booster Robotics 赞助的具身大赛(我已经被虐到自闭了,太难了哈哈)官网:https://competesai.com(入门的话强烈建议从 Benchmark → Franka Golf 开始,难度适中)第一次发帖庆祝一下小成功,也祝大家春招都屠榜!!!
点赞 评论 收藏
分享
【论文分享】CAR:推理长度自适应新框架,提升精度同时还降低推理token数!!
论文题目:Prolonged Reasoning Is Not All You Need: Certainty-Based Adaptive Routing for Efficient LLM/MLLM Reasoning论文地址:https://arxiv.org/pdf/2505.15154论文详解:https://mp.weixin.qq.com/s/_Rhj8TQFgRFka9xj3xwBpQ核心贡献1、提出了一个基于模型置信度动态切换短答案和长形式推理的 CAR 新框架,实现了准确性和计算效率之间的最佳平衡。2、通过广泛的初步研究,验证了困惑度(PPL)可以作为模型置信度的可靠指标,并通过高斯建模建立了其与答案正确性的关系。3、在 LLM 和 MLLM 上进行的广泛实验表明,CAR 在保持推理准确性的同时,显著减少了推理标记的使用,优于短答案和长形式推理方法。4、CAR 超越了以前的推理标记减少方法。例如,使用 Qwen2.5 时,CAR 在整体准确率上提高了 6.9%,同时减少了 21.4% 的标记消耗。使用 Llama3.1 时,它实现了 5.5% 的准确率提升和 39.0% 的标记使用减少。实现方法1、使用包含短答案和长形式推理答案注释的示例进行训练,通过标准指令调整过程优化交叉熵损失。2、在训练数据集的所有示例上进行短答案推理,计算每个短答案的 PPL 值。3、假设正确和错误短答案的 PPL 分布遵循高斯分布,通过训练数据估计这些分布的参数。4、对于新的输入示例,首先生成短答案并计算其 PPL 值,然后根据 PPL 值在正确和错误分布下的概率进行决策。如果短答案被认为是正确的,则直接输出;否则,模型将执行长形式推理以获得更准确的答案。
算法学习交流
点赞 评论 收藏
分享
玩命加载中
牛客网
牛客网在线编程
牛客网题解
牛客企业服务