ollama v0.23.3 发布:MLX 性能优化、安全加固与传输并发控制 2.1 精细化模型推
ollama v0.23.3 发布:MLX 性能优化、安全加固与传输并发控制
2.1 精细化模型推送行为
本次更新对 MLX 后端的模型推送逻辑进行了细化。这次改进主要解决了在推送 safetensors 格式模型时的行为一致性问题,确保推送操作与拉取操作遵循相同的状态转换规则,减少了因状态不一致导致的部分上传失败场景。
2.2 图像生成 Runner 的线程亲和性优化
针对 MLX 在 macOS 上的图像生成功能,本次添加了线程亲和性设置。这是一项针对 Apple Silicon 异构核心架构(性能核心与能效核心)的性能优化措施。通过将计算密集型任务绑定到高性能核心,避免调度器将其误分配到效率核心,显著提升了图像生成任务的推理速度和响应一致性。对于使用 MLX 后端进行图像生成的用户,这一改进会带来可感知的生成速度提升。
2.3 推理过程中的状态超时规避
在长时间推理任务中,MLX runner 可能出现状态更新超时的问题,导致进程被错误终止。本次更新通过调整状态报告机制,确保在长时间生成任务中状态信号能够持续发送,避免了因静默期过长而触发的超时误判。这一修复对大上下文长度生成和多轮对话场景尤为关键。
2.4 macOS 26 部署目标泄漏修复
在构建 v3 metallib 时,MLX 编译过程会泄漏 macOS 26 的部署目标设置,导致生成的二进制库包含不受支持的平台标记。构建脚本中新增了重新链接 metallib 的步骤:首先收集所有 .air 文件,然后使用 xcrun -sdk macosx metallib 重新链接,最后覆盖原始的 mlx.metallib。这一修复确保了 MLX 库与 macOS 14.0 及以上版本的兼容性。
#大模型# #福大大架构师每日一题#
2.1 精细化模型推送行为
本次更新对 MLX 后端的模型推送逻辑进行了细化。这次改进主要解决了在推送 safetensors 格式模型时的行为一致性问题,确保推送操作与拉取操作遵循相同的状态转换规则,减少了因状态不一致导致的部分上传失败场景。
2.2 图像生成 Runner 的线程亲和性优化
针对 MLX 在 macOS 上的图像生成功能,本次添加了线程亲和性设置。这是一项针对 Apple Silicon 异构核心架构(性能核心与能效核心)的性能优化措施。通过将计算密集型任务绑定到高性能核心,避免调度器将其误分配到效率核心,显著提升了图像生成任务的推理速度和响应一致性。对于使用 MLX 后端进行图像生成的用户,这一改进会带来可感知的生成速度提升。
2.3 推理过程中的状态超时规避
在长时间推理任务中,MLX runner 可能出现状态更新超时的问题,导致进程被错误终止。本次更新通过调整状态报告机制,确保在长时间生成任务中状态信号能够持续发送,避免了因静默期过长而触发的超时误判。这一修复对大上下文长度生成和多轮对话场景尤为关键。
2.4 macOS 26 部署目标泄漏修复
在构建 v3 metallib 时,MLX 编译过程会泄漏 macOS 26 的部署目标设置,导致生成的二进制库包含不受支持的平台标记。构建脚本中新增了重新链接 metallib 的步骤:首先收集所有 .air 文件,然后使用 xcrun -sdk macosx metallib 重新链接,最后覆盖原始的 mlx.metallib。这一修复确保了 MLX 库与 macOS 14.0 及以上版本的兼容性。
#大模型# #福大大架构师每日一题#
全部评论
相关推荐
沉淀小子:干啥都不丢人啊,生存是必须要的,销售很考验一个人综合素质能力的,好的销售人脉和资源可不比写字楼的白领差啊 点赞 评论 收藏
分享
03-30 11:07
门头沟学院 Java 点赞 评论 收藏
分享