百度文心一言大模型算法实习一面

给我面没招了,感觉自己好菜,发点面经攒攒人品
1、 PPO 与 GRPO 的区别,分别介绍他们的优势与缺点
2、 DPO 对齐训练的曲线是怎么样的,正例的概率会提升嘛
3、 Deepseek -R1里面不仅推理能力很好,而且文采能力也很好,这个是个开放问题,如何让模型的文采能力也很好呢
4、 DPO 如何解决回答过长的问题,除了正则
5、开放问题:为什么现在大家都在关注于大模型的推理能力 reasoning
6、对于一个 base model 如何增强大模型的 reasoning 能力
7、模型选型时是否做定性定量对比ab test,客观数据验证文心性能不好了吗
8、 DPO 除了长度问题还有其他的问题嘛,与问题2对应, reward hacking ?都没有奖励模型了
全部评论

相关推荐

一、Agent Memory的结构形式1.Token-level memoryToken-level memory 将信息存储为可持久化的离散单元,这些单元是外部可访问且可解释的。“token”在这里是广义概念,不仅包括文本 token,也包括视觉 token、音频帧等任何可在模型外写入、检索、重组与修改的离散元素。按照组织架构的不同,Token-level Memory可以分为三大类:Flat Memory(1D)、Planar Memory(2D)和Hierarchical Memory(3D)。✅Fat MemoryFat Memory 将信息存储为离散单元的集合,但不显式建模它们之间的关系。✅Planar MemoryPlanar Memory 在单层结构中引入显式关系(如图、树、表),但没有跨层结构,其核心突破是:从“存储”升级为“组织”。✅Hierarchical MemoryHierarchical memory 在多层结构中组织信息,并通过层间连接形成“立体 memory 空间”。主要形式有“金字塔结构”和“多层模块结构”。二、Agent Memory的功能角色✅扮演事实记忆(Factual Memory)的时候,可以:用于存储稳定的、可复用的客观知识,例如用户信息、世界知识、业务规则等。在推理过程中,Agent 可以通过检索这些记忆来补充上下文,从而避免重复查询外部知识源(如 RAG),提高响应效率与一致性。同时,事实记忆还可以通过持续更新来保持知识的时效性,例如覆盖过期信息或修正错误事实。通俗来说,就是记录一些事实信息,比如用户偏好信息、领域内容基本常识、业务规则等等。✅扮演经验记忆(Experiential Memory)的时候,可以:记录 Agent 在历史任务中的行为轨迹、决策过程以及对应的反馈(成功或失败)。这些记忆可以被用于总结经验、抽象策略,并在后续类似任务中进行复用,从而提升决策质量。✅扮演工作记忆(Working Memory)的时候,可以:在当前任务执行过程中,临时存储中间推理结果、上下文状态以及多步任务的阶段性信息。它类似于一个“思考缓冲区”,用于支持复杂推理、多轮交互或长链路任务执行。Factual Memory 和 Experiential Memory 在系统运行之前或运行过程中被持续沉淀下来,用于在后续任务中被直接检索和复用,为模型提供稳定的知识与经验支持。而 Working Memory 则不同,它并不是预先存储好的,而是在当前任务或交互过程中实时构建,用于记录中间状态、上下文以及推理过程中的关键信息。三、Agent Memory的运作流程1、Memory Formation(记忆形成)该过程将原始经验转化为高信息密度的知识。关键点:不再简单记录所有历史只保留长期有价值的信息成功的推理模式环境约束关键事实2、Memory Evolution(记忆演化)该过程负责:将新记忆整合进已有记忆库保持系统的:一致性(coherence)泛化能力(generalization)效率(efficiency)3、Memory Retrieval(记忆检索)这一部分要解决的问题是:如何在推理过程中检索并利用这些记忆。我们将记忆检索定义为:在合适的时刻,从某个记忆库中提取相关且简洁的知识片段,以支持当前的推理任务。其核心挑战在于:如何在大规模记忆存储中高效、准确地定位所需知识。📳对于想求职算法岗的同学,如果想参加高质量项目辅导,提升面试能力,欢迎后台联系。
点赞 评论 收藏
分享
评论
1
12
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务