每一次 API 呼叫都是一筆支出。Anthropic Claude Sonnet 每百萬 Token 收費 $3,GPT-4o 收 $2.5,Opus 更是高達 $15。對於個人助理這種高頻率使用場景,月費可以輕易突破 $20-50[1]。
但如果你有一張還行的顯示卡——甚至只有一顆夠快的 CPU——你可以把這個成本降到零。
OpenClaw 搭配 Ollama,讓你在自己的硬體上運行開源大型語言模型。沒有 API 金鑰,沒有月費,沒有資料離開你的電腦。本文將完整介紹這個方案的設定方式、模型選擇、效能調校,以及它的實際限制。
為什麼要在本地運行 LLM
隱私
當你使用雲端 API 時,你的每一則訊息、每一段對話都會傳送到第三方伺服器。即使 Anthropic 和 OpenAI 都聲明不會使用 API 資料來訓練模型,資料終究離開了你的掌控範圍[2]。
本地模型則不同。你的對話、你的記憶、你的個人資訊,全部留在你的硬碟上。從網路封包的角度來看,你的 AI 助理和外部世界之間沒有任何關於對話內容的通訊。
成本
這是最直覺的理由。假設你每天和 AI 助理交互 50 次,每次平均消耗 2000 Token(包含輸入和輸出),一個月下來就是 300 萬 Token。以 Claude Sonnet 計算,這是 $9/月。如果你使用較重的模型或較長的上下文,費用還會更高。
本地運行的邊際成本是電費。一張消費級顯示卡在推理時的額外功耗大約 100-200W,以每天活躍使用 2 小時計算,一個月的電費增加不到 $3。
離線可用
網路中斷時,雲端 API 就斷了。本地模型不受影響。這在以下場景特別有價值:
- 飛機上
- 網路不穩定的環境
- 對外部連線有嚴格限制的工作場所
安裝 Ollama
Ollama 是一個開源工具,讓你用一條指令就能下載和運行各種開源 LLM。它處理了模型格式轉換、量化、記憶體管理等所有底層細節[3]。
macOS
# 使用 Homebrew
brew install ollama
# 或直接下載安裝檔
# https://ollama.com/download/mac
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
從 ollama.com 下載安裝檔。
啟動 Ollama 服務
# macOS/Linux — Ollama 安裝後通常會自動啟動
# 如果沒有,手動啟動:
ollama serve
驗證服務是否運行:
curl http://localhost:11434/api/tags
# 應該返回 JSON 格式的模型列表(如果還沒下載任何模型,列表會是空的)
模型選擇指南
選對模型是整個設定中最關鍵的決策。模型太小,回覆品質差;模型太大,硬體跑不動或推理速度太慢。
推薦模型
| 模型 | 參數量 | VRAM 需求 | 適用場景 | 推理速度 |
|---|---|---|---|---|
qwen2.5:32b |
32B | 20GB | 最佳品質,需要高階 GPU | 15-25 tok/s |
qwen2.5:14b |
14B | 10GB | 品質與速度的最佳平衡 | 30-50 tok/s |
llama3.3:8b |
8B | 6GB | 大多數消費級 GPU 可用 | 40-80 tok/s |
qwen2.5:7b |
7B | 5GB | 輕量替代方案 | 50-90 tok/s |
gemma2:9b |
9B | 7GB | Google 開源,中文表現不錯 | 35-60 tok/s |
phi-4:14b |
14B | 10GB | 微軟出品,推理能力強 | 25-40 tok/s |
下載模型
# 下載推薦的通用模型
ollama pull qwen2.5:14b
# 如果 VRAM 有限,選擇較小的模型
ollama pull llama3.3:8b
# 測試模型是否正常運行
ollama run qwen2.5:14b "Hello, tell me a joke"
關於上下文長度
OpenClaw 的 Agent 迴圈需要較長的上下文來理解歷史對話和工具呼叫結果。建議模型的上下文長度至少支援 32K Token,理想是 64K。
好消息是上述推薦的模型原生都支援 128K 上下文[4]。但要注意,更長的上下文 = 更多的記憶體消耗。在 VRAM 有限的情況下,你可能需要在模型配置中限制上下文長度。
# 建立自訂模型配置來限制上下文長度
cat > Modelfile << 'EOF'
FROM qwen2.5:14b
PARAMETER num_ctx 32768
EOF
ollama create qwen2.5-14b-32k -f Modelfile
設定 OpenClaw 使用 Ollama
修改 openclaw.json
OpenClaw 使用 OpenAI 相容的 API 格式和 Ollama 溝通。編輯你的設定檔:
openclaw config set llm.provider "openai-compatible"
openclaw config set llm.baseUrl "http://localhost:11434/v1"
openclaw config set llm.model "qwen2.5:14b"
openclaw config set llm.apiKey "ollama"
或者直接編輯 ~/.openclaw/openclaw.json:
{
"llm": {
"provider": "openai-compatible",
"baseUrl": "http://localhost:11434/v1",
"model": "qwen2.5:14b",
"apiKey": "ollama"
}
}
apiKey 欄位可以填任何值——Ollama 不做身份驗證,但 OpenClaw 的設定驗證需要這個欄位非空。
驗證連線
# 確認 Ollama 有回應
curl http://localhost:11434/v1/models
# 重啟 OpenClaw
openclaw restart
# 測試一則訊息
openclaw chat "Hello, are you running locally?"
如果一切正常,你會看到回覆——而且不會產生任何 API 費用。
進階:模型路由
OpenClaw 支援為不同任務使用不同模型。你可以設定較小的模型處理簡單的對話,大模型處理複雜的推理任務:
{
"llm": {
"provider": "openai-compatible",
"baseUrl": "http://localhost:11434/v1",
"model": "qwen2.5:7b",
"apiKey": "ollama"
},
"llm.reasoning": {
"provider": "openai-compatible",
"baseUrl": "http://localhost:11434/v1",
"model": "qwen2.5:32b",
"apiKey": "ollama"
}
}
GPU vs CPU 效能
GPU 推理(強烈建議)
Ollama 自動偵測並使用可用的 GPU。支援:
- NVIDIA GPU: 透過 CUDA,需要安裝 NVIDIA 驅動程式和 CUDA Toolkit
- Apple Silicon: 原生支援 Metal,M1/M2/M3/M4 的統一記憶體可以完全用於模型推理
- AMD GPU: 透過 ROCm(Linux),支援較新的消費級和專業卡
# 確認 GPU 是否被偵測到
ollama ps
# 應該顯示 GPU 相關資訊
Apple Silicon 的特殊優勢: M 系列晶片的統一記憶體架構意味著系統記憶體和 GPU 記憶體是共享的。一台 32GB 的 MacBook Pro 可以輕鬆運行 14B 參數的模型,甚至能跑 32B 量化模型[5]。
CPU 推理
沒有獨立 GPU?Ollama 也可以用 CPU 運行。速度會慢很多,但對於個人助理的使用場景(你不需要每秒產生 100 個 Token),可能還是可以接受的。
CPU 推理的經驗數據:
| CPU | 模型 | 速度 |
|---|---|---|
| Intel i7-13700 | llama3.3:8b | 8-12 tok/s |
| AMD Ryzen 7 7800X | qwen2.5:14b | 5-8 tok/s |
| Apple M3 (CPU only) | qwen2.5:14b | 15-20 tok/s |
8 tok/s 意味著一個 200 字的回覆需要大約 25 秒。堪用,但不太舒服。
硬體需求總結
| 使用等級 | 最低硬體 | 建議硬體 |
|---|---|---|
| 基本聊天 | 8GB RAM, 任何現代 CPU | 16GB RAM, 6GB VRAM GPU |
| 日常助理 | 16GB RAM, 6GB VRAM | 32GB RAM, 12GB VRAM |
| 重度使用 | 32GB RAM, 12GB VRAM | 64GB RAM, 24GB VRAM |
效能調校
Ollama 環境變數
# 設定 GPU 層數(越高越快,但需要更多 VRAM)
export OLLAMA_NUM_GPU=999 # 盡可能多地使用 GPU
# 設定並行推理數量(預設 1)
export OLLAMA_NUM_PARALLEL=1
# 設定模型在記憶體中保留的時間(避免頻繁載入)
export OLLAMA_KEEP_ALIVE=24h
# 限制 CPU 線程數
export OLLAMA_NUM_THREAD=8
建立 systemd override 來永久設定(Linux):
sudo systemctl edit ollama
加入:
[Service]
Environment="OLLAMA_KEEP_ALIVE=24h"
Environment="OLLAMA_NUM_GPU=999"
模型量化
如果你的 VRAM 不夠運行完整精度的模型,可以使用量化版本:
# Q4_K_M — 品質和大小的最佳平衡
ollama pull qwen2.5:14b-instruct-q4_K_M
# Q5_K_M — 稍微大一點,品質稍微好一點
ollama pull qwen2.5:14b-instruct-q5_K_M
# Q8_0 — 接近原始精度,需要更多記憶體
ollama pull qwen2.5:14b-instruct-q8_0
品質差異的實際感受: Q4 量化的模型在大多數日常任務中表現良好。只有在需要精確的數學計算、複雜的邏輯推理或程式碼生成時,才會明顯感受到與全精度模型的差距[6]。
本地 LLM 的限制
誠實地說,本地模型和雲端頂級模型之間存在明顯差距。了解這些限制有助於你設定合理的期望。
推理能力
Claude Opus 和 GPT-4o 在複雜推理、多步驟規劃和細微語境理解方面仍然領先。本地開源模型在簡單對話和結構化任務上表現不錯,但在以下場景可能力不從心:
- 複雜的多步驟工作流程
- 需要精確理解細微指令的任務
- 長篇內容的深度分析
工具使用 (Function Calling)
OpenClaw 的核心能力之一是工具使用——讓 AI 呼叫外部工具來完成任務。雲端模型在這方面經過大量專門訓練,表現穩定。本地模型的工具使用能力在持續改善,但穩定性仍然不及 Claude 或 GPT-4o[7]。
上下文長度
雖然許多開源模型宣稱支援 128K 上下文,但在超長上下文下的品質往往會下降。實際使用中,32K 以內的上下文是比較可靠的範圍。
中文能力
對於繁體中文使用者,模型選擇更需要注意。Qwen 系列在中文方面表現最好(畢竟是阿里巴巴訓練的),Llama 系列的中文能力也在持續改善。但整體而言,中文表現仍不及雲端頂級模型。
混合方案:兩全其美
最務實的方案可能是混合使用本地和雲端模型。
設定方式
在 OpenClaw 中,你可以配置多個 LLM 後端,並根據任務類型自動切換:
{
"llm": {
"provider": "openai-compatible",
"baseUrl": "http://localhost:11434/v1",
"model": "qwen2.5:14b",
"apiKey": "ollama"
},
"llm.fallback": {
"provider": "anthropic",
"model": "claude-sonnet-4-20250514",
"apiKey": "sk-ant-your-key"
}
}
混合策略
- 日常對話、簡單問答: 使用本地模型,零成本
- 複雜推理、重要工作流程: 切換到雲端模型,確保品質
- 離線時: 自動回退到本地模型
- 敏感內容: 強制使用本地模型,確保隱私
這個方案讓你在大多數時間享受零成本,同時在需要時仍然能使用最強的模型。
如果這一切太麻煩
設定 Ollama、選擇模型、調整參數、管理 VRAM——這些步驟對技術人員來說是樂趣,對其他人可能是負擔。
ClawTank 提供託管的 OpenClaw 實例,直接使用雲端 API,不需要管理任何基礎設施。你只需要帶上自己的 API 金鑰(或使用 ClawTank 提供的額度),幾分鐘內就能有一個運行中的 AI 助理。
但如果你享受動手搭建的過程,並且重視零成本和完全隱私——Ollama + OpenClaw 的組合是目前最好的方案。
常見問題
Ollama 啟動後佔用大量記憶體怎麼辦?
模型會在首次使用時載入到記憶體中,並保持一段時間(預設 5 分鐘)。設定 OLLAMA_KEEP_ALIVE 可以控制這個行為。
可以同時運行多個模型嗎?
可以,但每個模型都會佔用獨立的 VRAM 空間。如果記憶體不足,Ollama 會卸載較早使用的模型。
為什麼推理速度很慢?
最常見的原因是模型沒有使用 GPU。用 ollama ps 確認 GPU 是否被使用。如果顯示 CPU,檢查你的 GPU 驅動程式安裝。
如何更新模型?
ollama pull qwen2.5:14b
# Ollama 會自動下載更新的版本
OpenClaw 報錯 "connection refused" 怎麼辦?
確認 Ollama 服務正在運行:
# 檢查服務狀態
systemctl status ollama # Linux
# 或
ollama ps # 任何平台
# 重啟 Ollama
ollama serve
總結
OpenClaw + Ollama 的組合讓你擁有一個完全免費、完全私密、可以離線運行的 AI 助理。這不是一個完美的方案——本地模型在能力上仍有局限——但對於日常使用來說,它的價值主張非常吸引人。
核心步驟回顧:
- 安裝 Ollama
- 下載合適的模型(推薦
qwen2.5:14b或llama3.3:8b) - 在 OpenClaw 中設定
openai-compatible提供者 - 指向
http://localhost:11434/v1 - 享受零成本的 AI 助理
如果你願意投入一點時間來設定,回報是每月省下的 API 費用和完全掌控自己資料的安心感。
