
最近想在本地跑个大模型,省得每次调 API 都花钱。手头是 MacBook Air M1 8GB 512GB,用 Ollama 装了 gemma4:e2b(7.2GB),实测一下效果。
测试环境
- 机型:MacBook Air M1 8GB 512GB
- 系统:macOS(Darwin 25.4.0 arm64)
- 工具:Ollama
- 模型:gemma4:e2b(7.2GB)
- 嵌入模型:nomic-embed-text(274MB)
测试结果
gemma4:e2b(7.2GB)
结论:8GB 内存跑不动。
- 模型加载后,内存占用接近物理极限
- Swap 使用率飙升到 94%(10.5GB/11GB)
- 对话时明显卡顿,响应延迟数秒
- 系统整体变慢,其他应用受影响
nomic-embed-text(274MB)
结论:完美运行。
- 内存占用极小(274MB)
- 语义搜索响应快(约430ms)
- 作为嵌入模型完全够用
优化建议
1. 上下文窗口设小一点
export OLLAMA_NUM_CTX=2048
默认上下文窗口很大,8GB 内存扛不住。设为 2048 能显著减少内存占用。
2. 选小模型
8GB 内存的推荐:
| 模型 | 大小 | 可用性 |
|---|---|---|
| gemma4:2b | 约2GB | 流畅 |
| gemma4:e2b | 约7GB | 卡顿 |
| nomic-embed-text | 274MB | 完美 |
3. 本地 vs 云端怎么选
| 场景 | 推荐 | 原因 |
|---|---|---|
| 嵌入/语义搜索 | 本地 | 模型小、响应快、无隐私风险 |
| 复杂对话 | 云端 | M1 8GB 跑不动大模型 |
| 简单问答 | 本地 2b | 够用且免费 |
最终方案
我的选择:本地嵌入 + 云端对话
- 语义搜索:本地 nomic-embed-text(免费、快、隐私安全)
- 对话模型:云端 MiniMax-M2.7 / DeepSeek V4(能力强、响应快)
8GB 内存的 MacBook Air,本地跑大模型的性价比确实不高。但嵌入模型是例外——274MB 的 nomic-embed-text 完美运行,给 OpenClaw 提供了免费的语义搜索能力。
结论:8GB MacBook Air 用户,嵌入模型本地跑,对话模型用云端,是最优解。