Shopee大模型算法一面 (已过

攒人品中!
1.项目拷打
2.sft训到什么程度用rl
3.sft的损失和预训练的损失有什么区别。
4.构造sft专家轨迹之后会做什么操作
5.grpo(ppo)和dpo的优缺点
6.grpo的rm出现reward hacking有什么解决方法
7.ppo和grpo的区别
8.思维链冗余怎么处理,每个逻辑打是否冗余的标签?会出现什么问题
9.滑动窗口最大化
全部评论
强烈推荐!这个笔记写得很清晰 http://github.com/AccumulateMore/CV
1 回复 分享
发布于 03-30 09:02 广东
佬 我司投递没 没投递的话可以看我主页帖子
点赞 回复 分享
发布于 04-07 21:39 上海

相关推荐

一、Agent Memory的结构形式1.Token-level memoryToken-level memory 将信息存储为可持久化的离散单元,这些单元是外部可访问且可解释的。“token”在这里是广义概念,不仅包括文本 token,也包括视觉 token、音频帧等任何可在模型外写入、检索、重组与修改的离散元素。按照组织架构的不同,Token-level Memory可以分为三大类:Flat Memory(1D)、Planar Memory(2D)和Hierarchical Memory(3D)。✅Fat MemoryFat Memory 将信息存储为离散单元的集合,但不显式建模它们之间的关系。✅Planar MemoryPlanar Memory 在单层结构中引入显式关系(如图、树、表),但没有跨层结构,其核心突破是:从“存储”升级为“组织”。✅Hierarchical MemoryHierarchical memory 在多层结构中组织信息,并通过层间连接形成“立体 memory 空间”。主要形式有“金字塔结构”和“多层模块结构”。二、Agent Memory的功能角色✅扮演事实记忆(Factual Memory)的时候,可以:用于存储稳定的、可复用的客观知识,例如用户信息、世界知识、业务规则等。在推理过程中,Agent 可以通过检索这些记忆来补充上下文,从而避免重复查询外部知识源(如 RAG),提高响应效率与一致性。同时,事实记忆还可以通过持续更新来保持知识的时效性,例如覆盖过期信息或修正错误事实。通俗来说,就是记录一些事实信息,比如用户偏好信息、领域内容基本常识、业务规则等等。✅扮演经验记忆(Experiential Memory)的时候,可以:记录 Agent 在历史任务中的行为轨迹、决策过程以及对应的反馈(成功或失败)。这些记忆可以被用于总结经验、抽象策略,并在后续类似任务中进行复用,从而提升决策质量。✅扮演工作记忆(Working Memory)的时候,可以:在当前任务执行过程中,临时存储中间推理结果、上下文状态以及多步任务的阶段性信息。它类似于一个“思考缓冲区”,用于支持复杂推理、多轮交互或长链路任务执行。Factual Memory 和 Experiential Memory 在系统运行之前或运行过程中被持续沉淀下来,用于在后续任务中被直接检索和复用,为模型提供稳定的知识与经验支持。而 Working Memory 则不同,它并不是预先存储好的,而是在当前任务或交互过程中实时构建,用于记录中间状态、上下文以及推理过程中的关键信息。三、Agent Memory的运作流程1、Memory Formation(记忆形成)该过程将原始经验转化为高信息密度的知识。关键点:不再简单记录所有历史只保留长期有价值的信息成功的推理模式环境约束关键事实2、Memory Evolution(记忆演化)该过程负责:将新记忆整合进已有记忆库保持系统的:一致性(coherence)泛化能力(generalization)效率(efficiency)3、Memory Retrieval(记忆检索)这一部分要解决的问题是:如何在推理过程中检索并利用这些记忆。我们将记忆检索定义为:在合适的时刻,从某个记忆库中提取相关且简洁的知识片段,以支持当前的推理任务。其核心挑战在于:如何在大规模记忆存储中高效、准确地定位所需知识。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
评论
点赞
1
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务