ollama v0.19.0 发布!Web 搜索插件上线、多模型兼容修复、MLX 与 KV 缓存全面
ollama v0.19.0 发布!Web 搜索插件上线、多模型兼容修复、MLX 与 KV 缓存全面优化,本地大模型体验再升级
1. 应用体验优化
ollama应用将不再错误显示“模型已过时”提示,彻底解决此前版本中模型状态判断异常的问题,避免用户被无效提示干扰,提升使用流畅度。
2. Web搜索插件集成
ollama launch pi功能新增内置Web搜索插件,该插件直接使用ollama官方Web搜索能力,无需额外配置即可让本地模型具备联网搜索能力,拓展本地大模型的信息获取边界,支持实时检索最新数据。
3. Anthropic兼容API性能提升
优化使用Anthropic兼容API时的KV缓存命中率,减少重复计算与资源消耗,提升API调用的响应速度与效率,尤其在高频、长对话场景下效果显著。
4. Qwen3.5模型工具调用修复
修复Qwen3.5模型工具调用解析问题,解决此前版本中工具调用内容被错误输出在思考模块的问题,确保工具调用逻辑清晰、结果准确,保障Qwen3.5模型的函数调用能力正常生效。
5. MLX运行器增强
• MLX运行器在提示词处理过程中会创建周期性快照,实现状态的持续备份,避免处理中断导致的进度丢失;
• 修复MLX运行器中KV缓存快照的内存泄漏问题,优化内存资源占用,提升长时间运行的稳定性;
• 优化MLX运行器的缓存驱逐与LRU跟踪逻辑,提升缓存管理效率;
• 合并setStateRaw与setStateDetached为setState,简化API调用逻辑,降低开发与使用复杂度。
#大模型# #福大大架构师每日一题#
1. 应用体验优化
ollama应用将不再错误显示“模型已过时”提示,彻底解决此前版本中模型状态判断异常的问题,避免用户被无效提示干扰,提升使用流畅度。
2. Web搜索插件集成
ollama launch pi功能新增内置Web搜索插件,该插件直接使用ollama官方Web搜索能力,无需额外配置即可让本地模型具备联网搜索能力,拓展本地大模型的信息获取边界,支持实时检索最新数据。
3. Anthropic兼容API性能提升
优化使用Anthropic兼容API时的KV缓存命中率,减少重复计算与资源消耗,提升API调用的响应速度与效率,尤其在高频、长对话场景下效果显著。
4. Qwen3.5模型工具调用修复
修复Qwen3.5模型工具调用解析问题,解决此前版本中工具调用内容被错误输出在思考模块的问题,确保工具调用逻辑清晰、结果准确,保障Qwen3.5模型的函数调用能力正常生效。
5. MLX运行器增强
• MLX运行器在提示词处理过程中会创建周期性快照,实现状态的持续备份,避免处理中断导致的进度丢失;
• 修复MLX运行器中KV缓存快照的内存泄漏问题,优化内存资源占用,提升长时间运行的稳定性;
• 优化MLX运行器的缓存驱逐与LRU跟踪逻辑,提升缓存管理效率;
• 合并setStateRaw与setStateDetached为setState,简化API调用逻辑,降低开发与使用复杂度。
#大模型# #福大大架构师每日一题#
全部评论
相关推荐
03-30 23:28
西安邮电大学 Java 点赞 评论 收藏
分享