字节Agent开发一面 95min 麻了

继续来分享下之前的面经~欢迎友好讨论,信息共享
1.项目拷打
问实习:
2.提示词模板是怎么构建的?
3.单Agent还是多Agent的?子Agent任务是什么?
4.分支覆盖率是怎么统计的?原理有没有了解过?代码插桩具体是怎么实现的?
5.对于代码解析有没有前置分析?有效性判断怎么实现的?未来让你来优化这些指标你会怎么设计?
6.有没有思考过哪些代码会让模型生成的代码准确度和覆盖率降低?这些用AST和LSP都生成不了单测的代码如何过滤?
7.mock是怎么实现的?
问项目:
8.多维度的查询改写是什么?改写的时候遇到需要用户参与补充信息时怎么设计?技术上怎么实现?
9.并行化意图识别是什么?为什么要并行化?如何实现的?
10.讲一下项目里召回的流程
11.对于上下文工程有什么经验吗?有没有做过to do list?为什么这样会让模型更聚焦,怎么实现的?
12.skills的原理有没有了解过?怎么实现的?
问八股:
13.LLM的底层原理有没有了解?输入给模型的是什么?
14.self attention怎么实现的有了解吗?为什么要分成QKV,怎么计算的?同一个token向量是一样的吗?
15.python有没有多线程?为什么要有GIL,有没有了解过?多线程的锁都有什么?lock和Rlock有什么区别?
16.信号量的底层是怎么实现的?
17.cpp编译链接流程有没有了解?编译分哪些步骤?
手撕:
18.岛屿最大面积
全部评论
拼多多招27届实习生啦 https://careers.pddglobalhr.com/campus/intern/detail?t=dRvUVvcTiA
点赞 回复 分享
发布于 昨天 21:35 上海

相关推荐

压力很大,面试官全程高压,问的问题不难,但是没有任何反馈,很慌张,也无算法。实习问了20分钟,一直问我你们做的有什么用,总时长一小时1.学校都有什么课程2.spring的ioc原理以及优点3.除了解耦还知道什么?4.springboot与spring区别,二者的源码看过没?Tomcat了解嘛?有没有具体看过5.spring的bean,面试官一直在重复一个思想问我懂不懂,完全没听过6.mybatis是干什么的?ibatis用过没?平常怎么写SQL?完全不写嘛?7.设计一个分布式双十一秒杀系统(前端,网关,缓存,数据库防超卖全设计)8.怎么做限流9.缓存与数据库一致性,你做异步要用户等你嘛?10.负载均衡怎么做11.多数据中心还是单数据中心,如果出现没卖完怎么做(到这完全不会了,面试官直接说换个话题吧)12.平常读书吗?13.上过哲学课嘛?14.兴趣爱好有没有15.对ai的看法16.来深圳有问题嘛?17.为什么不考研18.上大学带给了你什么?你提升在哪里,有没有具体的例子?反问:1.现在手机都有应用市场,应用宝怎么盈利?除了手机应用市场还是有人用,现在在做跨端,微软都有合作,之后会进军mac,主要做游戏,腾讯本身就是游戏大户。2.面试表现?整体评价一下会给到反馈。面完直接变HR面,今天HR面后,已经转为录用评估了,来牛客许个愿,暑期现在还没什么面试,希望能拿个offer之后再考虑要不要留在手子吧。
nunuking:三面压力这么大吗,面试的会议约了多长时间呀
面试问题记录
点赞 评论 收藏
分享
昨天 20:31
四川大学 C++
国央企求职进展汇总
点赞 评论 收藏
分享
昨天 21:35
已编辑
中山大学 算法工程师
1️⃣讲一下强化学习 reward 函数设计。(1)可验证奖励( RLVR ):对有确定答案的任务(数学、代码),用 ground - truth 结果验证(正确+1,错误0/-1)。(2)奖励模型( RM - based Reward ):对主观任务(对话、写作),训练 RM 从偏好数据学习打分。(3)规则奖励:对特定安全/格式要求,用硬规则直接判断。2️⃣现有 Embedding 模型相比 CLIP 的区别?(1)训练目标不同: CLIP 用 InfoNCE 做图文对比,目标是让匹配图文对相似;专用模型用 SimCSE /三元组损失/ NLI 监督/多任务,目标是精确捕捉文本语义的细粒度差异。(2)数据质量不同:专用模型训练于高质量语义标注对,语义标注精准; CLIP 训练于网络爬取图文对,文本侧噪声大、以短标题为主,不利于文本语义建模。(3)性能对比: MTEB 基准上, BGE - Base /E5- Base 等在文本检索、语义相似度等任务上大幅领先 CLIP ;但 CLIP 在图文检索上仍有独特优势。3️⃣ GRPO 和 PPO 的区别。(1)架构差异: PPO 需要四个模型(策略模型π t _0、旧策略、奖励模型 RM 、价值模型 Critic ),显存占用大, Critic 的估计偏差还可能干扰 advantage 计算。 GRPO 只需策略模型,对每个 prompt 采样 G 个输出,用组内平均奖励作为 baseline 替代 Critic ,去掉了价值模型的全部开销。(2) Baseline 设计: PPO 的 baseline 是 Critic 预测的状态价值; GRPO 的 baseline 是当前 prompt 下同组 G 个 rollout 的均值。(3)适用场景: GRPO 对"组内多样性"要求高,特别适合有可验证奖励的推理任务; PPO 更通用但更复杂,适合需要精确价值估计的场景。4️⃣大模型训练流程。(1)预训练( Pre - training ):目标是从海量无标注文本(万亿 token 级别)学习语言统计规律和世界知识,任务是 next - token prediction 。(2)监督微调( SFT ):用高质量( instruction , response )对让模型学会遵循指令。(3)对齐训练( RLHF / DPO / GRPO ):让模型输出符合人类偏好,通过奖励模型反馈或直接偏好优化进一步提升质量和安全性。5️⃣微调大模型如何卡阈值。可验证任务(数学/代码)用"正确性"作为硬阈值(只要正确的);生成任务用 RM 综合分数阈值。6️⃣为什么 CLIP 的嵌入效果不好?①文本编码器仅支持77 tokens (基于 GPT -2架构),无法处理长文本;② nfoNCE 对比目标只要求"匹配图文对靠近",不需要区分文本之间的细粒度语义差异,嵌入空间对文本相似度分辨能力弱;③预训练数据以互联网短标题为主,语义噪声大,文本侧质量不足;④对文本扰动敏感(微小改动可能导致检索排序大变)。7️⃣[代码题]手撕了 InfoNCE 代码 InfoNCE loss 的实现﹣﹣计算相似度矩阵(点积/余弦)、温度缩放、对角线为正样本的 cross - entropy loss ,批次内负样本。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务