02-13 03:30 门头沟学院机器学习

关注

百度文心一言大模型算法实习一面

给我面没招了，感觉自己好菜，发点面经攒攒人品
1、 PPO 与 GRPO 的区别，分别介绍他们的优势与缺点
2、 DPO 对齐训练的曲线是怎么样的，正例的概率会提升嘛
3、 Deepseek -R1里面不仅推理能力很好，而且文采能力也很好，这个是个开放问题，如何让模型的文采能力也很好呢
4、 DPO 如何解决回答过长的问题，除了正则
5、开放问题：为什么现在大家都在关注于大模型的推理能力 reasoning
6、对于一个 base model 如何增强大模型的 reasoning 能力
7、模型选型时是否做定性定量对比ab test，客观数据验证文心性能不好了吗
8、 DPO 除了长度问题还有其他的问题嘛，与问题2对应， reward hacking ？都没有奖励模型了

全部评论

推荐最新楼层

03-27 09:50

广西大学算法工程师

美团 AI Agent 开发一面

1.说一下 Transformer 的底层结构吧Transformer 的核心是用自注意力代替传统序列模型里的递归结构。一个标准模块通常包含多头自注意力、前馈网络、残差连接和 LayerNorm。自注意力负责让每个 token 和其他 token 直接交互，前馈网络负责做非线性变换，残差和归一化负责保证深层训练稳定。它真正厉害的地方不是结构复杂，而是信息传播路径短，长距离依赖更容易建模，并且天然适合并行训练。2. Transformer 为什么用了 LayerNorm 呢因为 BatchNorm 依赖 batch 维度上的统计量，但 NLP 任务里句子长度不一致，线上推理时 batch 也经常...

AI-Agent面试实战...

点赞评论收藏

分享

03-28 05:55

门头沟学院算法工程师

Shopee大模型算法一面（已过

攒人品中！ 1.项目拷打2.sft训到什么程度用rl3.sft的损失和预训练的损失有什么区别。4.构造sft专家轨迹之后会做什么操作5.grpo（ppo）和dpo的优缺点6.grpo的rm出现reward hacking有什么解决方法7.ppo和grpo的区别8.思维链冗余怎么处理，每个逻辑打是否冗余的标签？会出现什么问题9.滑动窗口最大化

查看9道真题和解析

点赞评论收藏

分享

04-05 23:14

中山大学算法工程师

Agent Memory综述

一、Agent Memory的结构形式1.Token-level memoryToken-level memory 将信息存储为可持久化的离散单元，这些单元是外部可访问且可解释的。“token”在这里是广义概念，不仅包括文本 token，也包括视觉 token、音频帧等任何可在模型外写入、检索、重组与修改的离散元素。按照组织架构的不同，Token-level Memory可以分为三大类：Flat Memory（1D）、Planar Memory（2D）和Hierarchical Memory（3D）。✅Fat MemoryFat Memory 将信息存储为离散单元的集合，但不显式建模它们之间的关系。✅Planar MemoryPlanar Memory 在单层结构中引入显式关系（如图、树、表），但没有跨层结构，其核心突破是：从“存储”升级为“组织”。✅Hierarchical MemoryHierarchical memory 在多层结构中组织信息，并通过层间连接形成“立体 memory 空间”。主要形式有“金字塔结构”和“多层模块结构”。二、Agent Memory的功能角色✅扮演事实记忆（Factual Memory）的时候，可以：用于存储稳定的、可复用的客观知识，例如用户信息、世界知识、业务规则等。在推理过程中，Agent 可以通过检索这些记忆来补充上下文，从而避免重复查询外部知识源（如 RAG），提高响应效率与一致性。同时，事实记忆还可以通过持续更新来保持知识的时效性，例如覆盖过期信息或修正错误事实。通俗来说，就是记录一些事实信息，比如用户偏好信息、领域内容基本常识、业务规则等等。✅扮演经验记忆（Experiential Memory）的时候，可以：记录 Agent 在历史任务中的行为轨迹、决策过程以及对应的反馈（成功或失败）。这些记忆可以被用于总结经验、抽象策略，并在后续类似任务中进行复用，从而提升决策质量。✅扮演工作记忆（Working Memory）的时候，可以：在当前任务执行过程中，临时存储中间推理结果、上下文状态以及多步任务的阶段性信息。它类似于一个“思考缓冲区”，用于支持复杂推理、多轮交互或长链路任务执行。Factual Memory 和 Experiential Memory 在系统运行之前或运行过程中被持续沉淀下来，用于在后续任务中被直接检索和复用，为模型提供稳定的知识与经验支持。而 Working Memory 则不同，它并不是预先存储好的，而是在当前任务或交互过程中实时构建，用于记录中间状态、上下文以及推理过程中的关键信息。三、Agent Memory的运作流程1、Memory Formation（记忆形成）该过程将原始经验转化为高信息密度的知识。关键点：不再简单记录所有历史只保留长期有价值的信息成功的推理模式环境约束关键事实2、Memory Evolution（记忆演化）该过程负责：将新记忆整合进已有记忆库保持系统的：一致性（coherence）泛化能力（generalization）效率（efficiency）3、Memory Retrieval（记忆检索）这一部分要解决的问题是：如何在推理过程中检索并利用这些记忆。我们将记忆检索定义为：在合适的时刻，从某个记忆库中提取相关且简洁的知识片段，以支持当前的推理任务。其核心挑战在于：如何在大规模记忆存储中高效、准确地定位所需知识。📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

点赞评论收藏

分享

03-26 21:51

中山大学算法工程师

同花顺LLM算法二面

📳对于想求职算法岗的同学，如果想参加高质量项目辅导，提升面试能力，欢迎后台联系。

点赞评论收藏

分享

03-18 15:45

上海科技大学数据仓库

大厂hr面问到有没有其他offer怎么回答?说了会不会显得没有诚意，意向度不够?不说会不会显得没有竞争力😥

点赞评论收藏

分享

评论

1

12

全站热榜

更多

创作者周榜

更多

正在热议

更多

# Agent面试会问什么？ #

26039次浏览 996人参与

# 通信/硬件的薪资开多少，才值得去？ #

75890次浏览 400人参与

# 厦门银行科技岗值不值得投 #

18428次浏览 420人参与

# 给工作过的公司写一条大众点评，你会怎么写？ #

8961次浏览 123人参与

# 平台or薪资硬件uu更看重哪个 #

166801次浏览 622人参与

# 烂工作和没工作哪个更痛苦？ #

16754次浏览 253人参与

# 哪些公司一直卡在简历筛选 #

101295次浏览 317人参与

# 说说你知道的学历厂 #

397163次浏览 1403人参与

# 一人分享一个skill #

6779次浏览 182人参与

# 春招至今，你收到几个面试了？ #

68420次浏览 913人参与

# 拼多多工作体验 #

55000次浏览 379人参与

# 巨人网络求职进展汇总 #

193565次浏览 1232人参与

# 一人说一个提前实习的好处 #

122672次浏览 715人参与

# 面试体验最好和最差的公司 #

20143次浏览 149人参与

# bilibili求职进展汇总 #

189661次浏览 1089人参与

# AI替代不了什么？ #

11290次浏览 183人参与

# 中国电信笔试 #

39070次浏览 345人参与

# 美团秋招笔试 #

207085次浏览 1162人参与

# 我是XXX，请攻击我最薄弱的地方 #

72117次浏览 478人参与

# 听劝，这个公司值得去吗 #

714112次浏览 2023人参与

# 现在入门AI首先要做什么？ #

4118次浏览 99人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务