字节电商治理一面(大模型)

团队好像主要做内容治理,vlm,llm都有
主要在问项目了,code是个medium,持续记录!

- 如果训练了多个评测类型的reward model,比如针对3H评测的3个模型,在RLHF阶段怎么用它们?是直接加权还是分阶段用?
- (针对简历项目提问)你在项目里是怎么做RLHF的?用DPO或PPO时,有没有遇到过训练不收敛或者效果不好的情况?可能是什么原因?网上常见的解决办法有哪些?
- 偏好数据是怎么构造的?比如用户点击数据或者人工标注的偏好对,你是怎么处理的?
- 全参微调和LoRA各有什么缺点?在实际项目中,你是怎么决定用哪种方法的?
- 位置编码在Transformer里很重要,能介绍一下常见的位置编码方法吗?比如绝对位置编码、相对位置编码这些,它们各自有什么特点?
#牛客AI配图神器#
#面试问题记录#
全部评论

相关推荐

一、少量八股1.介绍下self-attention,计算其时间复杂度。2.为什么要用multi-head attention?3.kv cache是什么?它为什么能极大地提升推理速度?4.PPO的clip机制?在线强化学习和离线强化学习有什么区别?RLHF是哪一种?5.为什么要用reference model?为了解决什么问题?二、项目深挖1.如何让多个agent协同工作的?举个具体的协同机制例子。2.如果一个agent误判导致策略冲突,如何处理?3.你们有没有用到类似AutoGen或LangChain的框架?为什么选这个框架?4.你是怎么设计agent的记忆系统?5.长期记忆如何存储?如果历史记录量非常大,怎么优化查询效率?6.有没有做记忆衰退,避免旧数据干扰新任务?7.你们这种模块堆叠的架构是怎么设计视觉问答模块和动作模块的协同逻辑的?8.你简历里的人机协作流程,具体是什么意思?怎么设计人工干预与agent自动处理的平衡?9.human feedback是怎么被agent消化吸收的?有没有用rl进行策略更新?三、业务理解1.有没有做过模型压缩?比如在车载端或低端设备上的推理加速?2.如果量化后理解能力下降怎么办?怎么做精度补偿?3.你怎么处理响应速度与推理精度之间的tradeoff?是先召回再精排,还是单次生成?4.如果要做电商agent,你会选择哪些模态的信息作为输入?比如文本评论、图像、视频、购买记录?5.有没有做过A/B测试?
查看19道真题和解析
点赞 评论 收藏
分享
不愿透露姓名的神秘牛友
2025-11-10 23:08
已编辑
途游 游戏客户端 n*(13~15) 硕士985
点赞 评论 收藏
分享
评论
1
5
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务