03-25 18:22 新疆大学 Java 发布于新疆

关注

如何设计高性能的上下文记忆架构？

在开发 AI 对话应用（如调用豆包、GPT 等 API）时，我们常面临一个核心问题：AI 本身是无状态的，如何让它记得用户的历史对话，且在高并发下依然保持极速响应？

一、核心痛点：为什么 AI 需要“记忆”？

调用大模型 API 时，模型不会自动记录之前的聊天记录。为了实现“多轮对话”，我们必须在每次发送请求时，把历史消息一并传给 API。这就引出了三个挑战：

性能：频繁的数据库查询会拖慢响应速度。
上下文窗口：模型有 Token 上限，不能无限制地堆积历史。
成本：发送的上下文越多，消耗的 Token 越多，费用越高。

二、四种演进方案深度解析

1. MySQL 单库方案（起步阶段）

最直接的做法是将对话存储在 MySQL 中，每次请求时 SELECT * FROM messages WHERE session_id = ? ORDER BY created_at DESC LIMIT 10。

优点：简单，数据强一致。
缺点：I/O 压力大。在高并发流式对话场景下，频繁的磁盘读写会造成明显延迟。

2. Redis + MySQL

Redis 作为高速缓存，MySQL 作为持久化仓库。

核心逻辑：
- 用户提问后，先写入 Redis 的 List 或 Hash 结构。
- API 请求时，直接从 Redis 读取最近的 N 条数据，保证毫秒级响应。
- 通过异步线程或消息队列，将 Redis 中的数据同步到 MySQL 中进行归档。
适用场景：绝大多数中等规模的在线对话系统。

3. 摘要记忆 + 原始消息分层（优化方案）

当对话深度增加时，Redis 塞不下所有历史，此时引入“摘要”机制。

做法：每当对话积累到一定程度，调用一次 AI 对该段对话进行“总结”，存入数据库作为长期记忆，旧的原始记录则过期释放。
价值：既保留了长对话的背景信息，又控制了 Token 成本。

4. 向量记忆（Vector Database，进阶方案）

适合“知识库”或“超长记忆”助手。通过 Embedding 技术，将历史记录转化为向量存入 Milvus 或 PGVector。

做法：当用户提问时，根据语义相似度从向量库中“召回”相关的历史片段。
价值：彻底摆脱了时间顺序的限制，让 AI 具备“跨会话”的长期记忆。

三、实战避坑建议：你该如何落地？

如果你现在刚开始做一个 AI 对话项目，建议遵循 “小步快跑，由简入繁” 的原则：

架构设计：采用 Redis (缓存) + MySQL (存储)。Redis 负责存最近 10-20 条消息，MySQL 负责存全量数据。
流式响应优化：由于豆包等 API 支持流式输出，务必确保你的 Redis 读取是高并发的。别在用户等待回复时去做复杂的数据库操作。

窗口裁剪（关键）：千万不要传完整历史！ 务必在后端封装一个简单的裁剪函数：

# 伪代码：确保只发送最新的几轮对话
def get_context(session_id):
    raw_data = redis.lrange(f"chat:{session_id}", -10, -1)
    return [{"role": "system", "content": "..."}] + raw_data

异步处理：利用消息队列将“数据持久化”和“AI 模型推理”解耦，这样即使数据库偶尔慢一下，也不会影响用户的对话体验。

#AI求职记录##AI求职实录#

全部评论

推荐最新楼层

阿里国际实习见主页

来赞达_开发工程师

阿里国际实习可以试一下，感兴趣可以进主页看下简章

点赞回复分享

发布于 04-07 10:20 广东

家族企业准备上市

Massachusetts Inst. of Technology 项目经理

向量库用的啥

点赞回复分享

发布于 04-03 11:21 北京

拥抱太阳的小冤种很勇敢

韶关学院 Java

点赞回复分享

发布于 03-27 00:12 广东

04-12 20:04

广西大学算法工程师

Shopee 大模型算法开发一面

1. 自我介绍2. 介绍你做的模型loss设计，包含基础损失与辅助损失，说明各部分作用与梯度流动逻辑模型loss采用多任务联合优化框架，主损失负责核心任务拟合，辅助损失用于约束特征对齐、分布对齐与梯度稳定。以多模态分类模型为例，主损失使用交叉熵损失，直接优化分类准确率；辅助损失包含对比损失用于拉近同类特征距离、拉远异类特征，以及KL散度损失用于对齐教师模型与学生模型的分布。训练时通过权重系数平衡各损失，保证主任务不被辅助任务淹没，同时利用梯度裁剪解决多任务梯度冲突问题。 import torch import torch.nn as nn class MultiModalLoss(nn.Mod...

AI-Agent面试实战...

点赞评论收藏

分享

04-03 06:10

门头沟学院 Java

Shopee 日常实习 AI开发二面凉经

给我面没招了，发点面经攒攒人品～1.Agent跟LLM的区别？2.Agent结构包含哪些部分？3.听说过Agent loop吗？4.MCP是什么？如果MCP特别多的话要怎么管理？5.Agent是怎么实现上下文记忆的？6.tool层怎么定义的？tool层具体在agent运行是怎么被调用的？7.向量数据库是什么？跟传统数据库有什么区别？做demo用过什么主流向量数据库？8.向量数据库在agent是怎么被应用的？讲一下具体检索算法的实现？9.在各家api平台有开销吗？自己做项目面对api开销成本过大怎么办（非coding plan）？10.无手撕

查看9道真题和解析

点赞评论收藏

分享

03-30 18:45

门头沟学院 Java

慢脚AI开发二面

1. 你的RAG项目主要什么作用2. RAG项目工作流程是什么3. 你的RAG项目出现问题，怎么进行排错4. 大模型微调过程中数据预处理的步骤有哪些？5. 如何解决大模型Agent的工具调用 幻觉问题？6. LoRA微调技术是什么？7. 大模型Agent的记忆机制分为哪几类？8. 大模型后端部署常用的框架有哪些？9. 全参数微调与轻量化微调的适用场景分别是什么？10. 大模型Agent实现复杂任务规划的核心方法有哪些？11. 大模型推理服务的性能优化手段有哪些？12. 如何设计大模型微调后的效果评估体系？13. 大模型Agent对接第三方API时，后端如何做接口鉴权、限流与异常捕获？14. 大...

查看22道真题和解析

点赞评论收藏

分享

04-04 16:49

门头沟学院 Java

4.1 阿里国际-履约表达-ai应用一面

已挂 1.自我介绍2找一个大模型项目，技术选型，技术框架等介绍下3.bge向量化模型，看过其他模型吗，对比了吗回答的不好，没准备4.向量数据库milvus里面的ANN算法5.它和传统的算法的时间复杂度是怎么样的6.rag的切分策略是什么答得递归切分，三层策略7.LLM的提示词怎么设计的答得结合业务场景，意图识别，角色限定，模型选择，query改写，8.编写提示词有哪些经验，有参考的示例吗架构师，全站工程师，测试工程师，必须，禁止等关键词9.LLM怎么跟rag结合起来的，只听到意图识别检索测和生成侧都有10.查询结果通过精排，LLM结合输出，可以简单的这样理解吗11问答的过程，记忆是怎么实现的12.短期记忆的话涉及到多轮对话，怎么进行压缩，或者说有什么其他策略吗答得近期保留，远处的对话摘要，保持知道这样一个对话13.自我介绍的时候的时候，有做过模型的训练，基于哪个预训练模型YOLOV8，V1114.数据集是什么类型的数据集，准确度能达到多少，指标15.平常用哪些语言，mysql慢查询优化，索引优化策略16.mysql主键索引一定是连续的吗17.默认的情况设定的自增吗，连续吗18.三个线程同时写msqyl数据，第一个比如主键ID为1，第二个主键ID为2，同时向一个唯一索引的写数据，1写成功了，二失败了回滚；此时第三个线程往里面插数据，这个时候第三个线程的主键ID是三还是二呢不会19.kafka消息是怎么存储的，存储的组织结构，topic下面有很多持久化文件或者说现在输入一个id，kafka根据id怎么找到持久化的一个内容20java用的哪个版本，默认垃圾回收器是什么，G1是怎么做垃圾回收的吗可以详细讲下垃圾回收算法吗21项目里面redis除了做记忆存储还有哪些作用list set做存储，bitmap做文件上传标记22redis里面是单机，还是主从还是集群呢23.redis怎么保证高可用的不会24.集群或者是主从一个机器宕机的话，怎么故障回复的；或者说主从切换怎么做的之前有了解吗25.选主策略呢，哪个从节点优选为主节点反问ai业务，业务进度清明节前会更新吗，然后秒挂跨境电商，相关的策略相关的，推荐相关的，在做探索kafka redis高可用知识不系统，后面再看看

查看27道真题和解析

点赞评论收藏

分享

04-09 11:38

门头沟学院全栈开发

大模型Agent面试全攻略（附答题思路）

一、核心概念与架构篇Q1：请简述Agent的基本架构组成，并解释其与传统LLM Chain的区别。回答要点：Agent = LLM + 规划(Planning) + 记忆(Memory) + 工具使用(Tool Use)。区别：Chain是预定义的、线性的硬编码工作流。Agent具备“自主性”，它根据目标自发决定执行路径，通过推理循环（Reasoning Loop）不断调整策略。Q2：解释ReAct模式的工作原理。回答要点：ReAct (Reasoning + Acting)是Agent的基石。它将“思考”（Thought）和“行动”（Action）结合。LLM先生成一段推理，说明下一步要做什...

Agent面试会问什么？

点赞评论收藏

分享

评论

5

4

招聘动态

完美世界

拍了拍你并邀请你投递

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

联想

27届暑期实习

联想

26届补录

27届校招宝典

厦门银行

2026届春季校园招聘

快手

27届实习超多转正机会

海信集团

联宝科技

全站热榜

更多

创作者周榜

更多

正在热议

更多

# AI让海力士市值突破9000亿美元 #

5134次浏览 50人参与

# 如何排解工作中的焦虑 #

339340次浏览 2874人参与

# 在爱玛，骑向未来 #

47797次浏览 458人参与

# 我的求职总结 #

466056次浏览 6624人参与

# 牛油的搬砖plog #

203590次浏览 1311人参与

# 机械笔面试考察这些知识点 #

20401次浏览 156人参与

# 这些公司卡简历很严格 #

105951次浏览 451人参与

# 国企vs私企，怎么选？ #

52064次浏览 232人参与

# 职场新人体验 #

194075次浏览 1266人参与

# 哪些公司对双非友好 #

236620次浏览 1261人参与

# 机械人与华为的爱恨情仇 #

160939次浏览 1060人参与

# 求职低谷期你是怎么度过的 #

41893次浏览 370人参与

# 百度工作体验 #

337202次浏览 2294人参与

# 什么专业适合考公 #

70417次浏览 383人参与

# 硬件人求职现状 #

538388次浏览 4837人参与

# 打工人的精神状态 #

155991次浏览 1579人参与

# 面试尴尬现场 #

228851次浏览 873人参与

# 海康威视求职进展汇总 #

612630次浏览 3774人参与

# 秋招OC许愿 #

438416次浏览 2711人参与

# 软开人，秋招你打算投哪些公司呢 #

204091次浏览 1584人参与

# 游戏求职进展汇总 #

792978次浏览 6512人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务