在过去的1个月里，越来越多的人开始在 Mac 上运行本地 AI 大模型。比如使用 Ollama 来运行各种模型，再通过 OpenCat 或 Ollama桌面客户端来调用。但很多人都有一个非常痛苦的体验：速度慢、推理卡顿、token 每秒只有个位数。

尤其是在 Mac Mini 或 16GB 内存设备上，这个问题更明显。今天给大家介绍一个 Mac 本地跑模型的加速神器 —— OMLX。

它可以让本地模型 推理速度提升 10 倍以上，即使是 丐版 Mac Mini 也能轻松运行大模型。

下面我带大家完整实测 + 部署教程

https://youtube.com/watch?v=rVfK-OqDUUM%3Ffeature%3Doembed

一、为什么 Mac 本地模型这么慢？

很多人在 Mac 上运行本地模型时，一般是这样的架构：

Ollama → 本地模型 → OpenCat / AI工具

但默认情况下：

推理效率不高
KV Cache利用率低
CPU/GPU 调度不充分

所以经常会出现这种情况：

回复 一个字一个字往外蹦
每秒 3~5 token
一个简单问题 几十秒甚至几分钟

这对于日常使用来说体验非常差。

二、OMLX：Mac 本地模型加速神器

https://omlx.ai/images/omlx_dashboard_light.png

https://omlx.ai/images/omlx_dashboard_dark.png

OMLX 的核心作用：

优化本地模型推理
提升 token 生成速度
管理模型缓存
提供 OpenAI API 接口
支持压力测试

简单理解：

OMLX = Mac 本地 AI 模型加速服务器

部署后，本地模型速度通常可以 提升 5~10 倍以上。

三、Mac Mini 推荐模型

如果你的设备是 16GB Mac Mini，推荐使用：

Qwen3.5-9B ：[点击前往] 进行下载

原因：

模型	大小	推荐设备
Qwen3.5 4B	~3GB	8GB Mac
Qwen3.5 9B	~6.6GB	16GB Mac
Qwen3.5 27B	~17GB	32GB+

9B 模型在 性能和质量之间非常平衡。

四、安装 Ollama

https://kodekloud.com/kk-media/image/upload/v1752883703/notes-assets/images/Running-Local-LLMs-With-Ollama-Installing-Ollama/ollama-download-page-macos-linux-windows.jpg

首先安装 Ollama。

步骤：

打开官网下载安装

【点击前往】

安装完成后打开终端

下载 Qwen3.5 9B 模型

ollama run qwen2.5:9b

下载大小：约 6.6GB

下载完成后，就可以测试模型：

ollama run qwen2.5:9b

五、速度实测（未优化）

我们先测试一个简单的数学推理题：

2,6,12,20,30,(?)

规律是：

n(n+1)

第六个数：

6×7 = 42

但在 Ollama 默认推理下：

结果：

项目	时间
开始生成	20 秒
完整回答	1分50秒

速度非常慢。

六、安装 OMLX

在安装之前请确保你当前的mac上已经安装了Openclaw，没有安装的话可以通过下面的一键安装命令：

curl -fsSL https://openclaw.ai/install.sh | bash

来进行安装、升级到最新版本！

https://docs.github.com/assets/cb-198931/images/help/stars/lists-overview-on-stars-page.png

https://help.apple.com/assets/68FBBA193607B5D7D10E93FA/68FBBA1F5B40BB61910BDFBB/en_US/a3e401e82f9552fd51a8b7fc868df22c.png

4、接下来安装 OMLX。

目前 Github 已经有 4000+ Star。

下载步骤：

打开项目 Release 页面

下载最新版本【点击前往】

注意选择正确版本：

文件	适合设备
square 版本	老 Mac
tar 版本	M5 / 最新 macOS

下载后直接拖入 Applications 安装。

七、启动 OMLX 服务器

打开 OMLX 后：

配置如下

默认端口：8000

API Key：随便设置，例如：12345678

点击：

Start Server

当看到 绿色状态 就说明启动成功。

进入后台：

http://127.0.0.1:8000

八、配置模型缓存（非常关键）

在设置里建议这样配置：

内存限制

如果是 16GB Mac

12GB

热缓存

8GB

冷缓存（强烈建议）

例如：

100GB

作用：

保存 KV cache
模型下次启动更快

九、下载模型

OMLX 不识别 Ollama 模型格式。

所以需要 重新下载模型。

在后台：

Downloader

搜索：

Qwen3.5 9B

直接下载即可。

十、对接 OpenCat

接下来把 OMLX 接入 OpenCat。

终端运行：

opencat config

配置：

Provider

Custom Provider

API 地址

http://127.0.0.1:8000/v1

API Key

留空即可。

然后填写模型 ID：

模型ID的获取地址：http://127.0.0.1:8000/v1/models

复制其中的模型 ID。

配置完成后即可。

十一、速度再次实测

同样的问题：

2,6,12,20,30,(?)

结果：

方案	用时
Ollama 原生	1分50秒
OMLX 加速	10~15秒

速度提升接近 10 倍！

几乎可以做到 秒级响应。

十二、OMLX 的高级功能

OMLX 还有很多强大功能：

性能矩阵测试

可以测试：

单线程
多线程
并发压力

评估：

每秒 token 数量

OpenAI API 兼容

支持：

OpenAI API
Cloud 模型
自定义模型

可以直接当：

本地 OpenAI API Server

KV Cache 持久化

大幅提升：

模型启动速度
上下文推理效率

如果你想在 Mac 上本地跑 AI 大模型，那么这套组合非常推荐：

Ollama
+
Qwen3.5
+
OMLX
+
OpenCat

优势：

本地运行
不消耗 token
推理速度大幅提升
Mac Mini 也能轻松运行

尤其是对于喜欢折腾 本地 AI + 自动化工具 的朋友来说，这套方案真的非常香。

AI应用之路

Mac 本地跑 AI 大模型神器：OMLX，让 Mac Mini 推理速度提升 10 倍！

一、为什么 Mac 本地模型这么慢？

二、OMLX：Mac 本地模型加速神器

三、Mac Mini 推荐模型

四、安装 Ollama

五、速度实测（未优化）

六、安装 OMLX

下载最新版本【点击前往】

七、启动 OMLX 服务器

八、配置模型缓存（非常关键）

内存限制

热缓存

冷缓存（强烈建议）

九、下载模型

十、对接 OpenCat

十一、速度再次实测

十二、OMLX 的高级功能

性能矩阵测试

OpenAI API 兼容

KV Cache 持久化

WaytoAI

Let’s connect

Join the fun!

Recent posts

谷歌正式发布 Gemma 4 ：最强开源本地大模型，支持多模态+离线运行，附部署教程！

Mac 本地跑 AI 大模型神器：OMLX，让 Mac Mini 推理速度提升 10 倍！

OpenClaw 免费接入 QQ、微信、Telegram、飞书！无需 API 密钥调用 GPT-5.4

OpenClaw 新手必备！安装实用Skills，模型选择，浏览器自动化等！

新手小白OpenClaw安装教程

GPT-5.3 Instant 正式发布：速度更快、推理更强，免费开放使用（实测体验）