Using OpenClaw with Ollama: Free, Private AI Agents with Local LLMs

還沒安裝 OpenClaw 嗎？

macOS / Linux PowerShell CMD

curl -fsSL https://openclaw.ai/install.sh | bash

iwr -useb https://openclaw.ai/install.ps1 | iex

curl -fsSL https://openclaw.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

怕影響自己的電腦？ClawTank 60 秒雲端部署，免除誤刪檔案風險。

每一次 API 呼叫都是一筆支出。Anthropic Claude Sonnet 每百萬 Token 收費 $3，GPT-4o 收 $2.5，Opus 更是高達 $15。對於個人助理這種高頻率使用場景，月費可以輕易突破 $20-50^[1]。

但如果你有一張還行的顯示卡——甚至只有一顆夠快的 CPU——你可以把這個成本降到零。

OpenClaw 搭配 Ollama，讓你在自己的硬體上運行開源大型語言模型。沒有 API 金鑰，沒有月費，沒有資料離開你的電腦。本文將完整介紹這個方案的設定方式、模型選擇、效能調校，以及它的實際限制。

為什麼要在本地運行 LLM

隱私

當你使用雲端 API 時，你的每一則訊息、每一段對話都會傳送到第三方伺服器。即使 Anthropic 和 OpenAI 都聲明不會使用 API 資料來訓練模型，資料終究離開了你的掌控範圍^[2]。

本地模型則不同。你的對話、你的記憶、你的個人資訊，全部留在你的硬碟上。從網路封包的角度來看，你的 AI 助理和外部世界之間沒有任何關於對話內容的通訊。

成本

這是最直覺的理由。假設你每天和 AI 助理交互 50 次，每次平均消耗 2000 Token（包含輸入和輸出），一個月下來就是 300 萬 Token。以 Claude Sonnet 計算，這是 $9/月。如果你使用較重的模型或較長的上下文，費用還會更高。

本地運行的邊際成本是電費。一張消費級顯示卡在推理時的額外功耗大約 100-200W，以每天活躍使用 2 小時計算，一個月的電費增加不到 $3。

離線可用

網路中斷時，雲端 API 就斷了。本地模型不受影響。這在以下場景特別有價值：

飛機上
網路不穩定的環境
對外部連線有嚴格限制的工作場所

安裝 Ollama

Ollama 是一個開源工具，讓你用一條指令就能下載和運行各種開源 LLM。它處理了模型格式轉換、量化、記憶體管理等所有底層細節^[3]。

macOS

# 使用 Homebrew
brew install ollama

# 或直接下載安裝檔
# https://ollama.com/download/mac

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

從 ollama.com 下載安裝檔。

啟動 Ollama 服務

# macOS/Linux — Ollama 安裝後通常會自動啟動
# 如果沒有，手動啟動：
ollama serve

驗證服務是否運行：

curl http://localhost:11434/api/tags
# 應該返回 JSON 格式的模型列表（如果還沒下載任何模型，列表會是空的）

模型選擇指南

選對模型是整個設定中最關鍵的決策。模型太小，回覆品質差；模型太大，硬體跑不動或推理速度太慢。

模型	參數量	VRAM 需求	適用場景	推理速度
`qwen2.5:32b`	32B	20GB	最佳品質，需要高階 GPU	15-25 tok/s
`qwen2.5:14b`	14B	10GB	品質與速度的最佳平衡	30-50 tok/s
`llama3.3:8b`	8B	6GB	大多數消費級 GPU 可用	40-80 tok/s
`qwen2.5:7b`	7B	5GB	輕量替代方案	50-90 tok/s
`gemma2:9b`	9B	7GB	Google 開源，中文表現不錯	35-60 tok/s
`phi-4:14b`	14B	10GB	微軟出品，推理能力強	25-40 tok/s

下載模型

# 下載推薦的通用模型
ollama pull qwen2.5:14b

# 如果 VRAM 有限，選擇較小的模型
ollama pull llama3.3:8b

# 測試模型是否正常運行
ollama run qwen2.5:14b "Hello, tell me a joke"

關於上下文長度

OpenClaw 的 Agent 迴圈需要較長的上下文來理解歷史對話和工具呼叫結果。建議模型的上下文長度至少支援 32K Token，理想是 64K。

好消息是上述推薦的模型原生都支援 128K 上下文^[4]。但要注意，更長的上下文 = 更多的記憶體消耗。在 VRAM 有限的情況下，你可能需要在模型配置中限制上下文長度。

# 建立自訂模型配置來限制上下文長度
cat > Modelfile << 'EOF'
FROM qwen2.5:14b
PARAMETER num_ctx 32768
EOF

ollama create qwen2.5-14b-32k -f Modelfile

設定 OpenClaw 使用 Ollama

修改 openclaw.json

OpenClaw 使用 OpenAI 相容的 API 格式和 Ollama 溝通。編輯你的設定檔：

openclaw config set llm.provider "openai-compatible"
openclaw config set llm.baseUrl "http://localhost:11434/v1"
openclaw config set llm.model "qwen2.5:14b"
openclaw config set llm.apiKey "ollama"

或者直接編輯 ~/.openclaw/openclaw.json：

{
  "llm": {
    "provider": "openai-compatible",
    "baseUrl": "http://localhost:11434/v1",
    "model": "qwen2.5:14b",
    "apiKey": "ollama"
  }
}

apiKey 欄位可以填任何值——Ollama 不做身份驗證，但 OpenClaw 的設定驗證需要這個欄位非空。

驗證連線

# 確認 Ollama 有回應
curl http://localhost:11434/v1/models

# 重啟 OpenClaw
openclaw restart

# 測試一則訊息
openclaw chat "Hello, are you running locally?"

如果一切正常，你會看到回覆——而且不會產生任何 API 費用。

進階：模型路由

OpenClaw 支援為不同任務使用不同模型。你可以設定較小的模型處理簡單的對話，大模型處理複雜的推理任務：

{
  "llm": {
    "provider": "openai-compatible",
    "baseUrl": "http://localhost:11434/v1",
    "model": "qwen2.5:7b",
    "apiKey": "ollama"
  },
  "llm.reasoning": {
    "provider": "openai-compatible",
    "baseUrl": "http://localhost:11434/v1",
    "model": "qwen2.5:32b",
    "apiKey": "ollama"
  }
}

GPU vs CPU 效能

GPU 推理（強烈建議）

Ollama 自動偵測並使用可用的 GPU。支援：

NVIDIA GPU： 透過 CUDA，需要安裝 NVIDIA 驅動程式和 CUDA Toolkit
Apple Silicon： 原生支援 Metal，M1/M2/M3/M4 的統一記憶體可以完全用於模型推理
AMD GPU： 透過 ROCm（Linux），支援較新的消費級和專業卡

# 確認 GPU 是否被偵測到
ollama ps
# 應該顯示 GPU 相關資訊

Apple Silicon 的特殊優勢： M 系列晶片的統一記憶體架構意味著系統記憶體和 GPU 記憶體是共享的。一台 32GB 的 MacBook Pro 可以輕鬆運行 14B 參數的模型，甚至能跑 32B 量化模型^[5]。

CPU 推理

沒有獨立 GPU？Ollama 也可以用 CPU 運行。速度會慢很多，但對於個人助理的使用場景（你不需要每秒產生 100 個 Token），可能還是可以接受的。

CPU 推理的經驗數據：

CPU	模型	速度
Intel i7-13700	llama3.3:8b	8-12 tok/s
AMD Ryzen 7 7800X	qwen2.5:14b	5-8 tok/s
Apple M3 (CPU only)	qwen2.5:14b	15-20 tok/s

8 tok/s 意味著一個 200 字的回覆需要大約 25 秒。堪用，但不太舒服。

硬體需求總結

使用等級	最低硬體	建議硬體
基本聊天	8GB RAM, 任何現代 CPU	16GB RAM, 6GB VRAM GPU
日常助理	16GB RAM, 6GB VRAM	32GB RAM, 12GB VRAM
重度使用	32GB RAM, 12GB VRAM	64GB RAM, 24GB VRAM

效能調校

Ollama 環境變數

# 設定 GPU 層數（越高越快，但需要更多 VRAM）
export OLLAMA_NUM_GPU=999  # 盡可能多地使用 GPU

# 設定並行推理數量（預設 1）
export OLLAMA_NUM_PARALLEL=1

# 設定模型在記憶體中保留的時間（避免頻繁載入）
export OLLAMA_KEEP_ALIVE=24h

# 限制 CPU 線程數
export OLLAMA_NUM_THREAD=8

建立 systemd override 來永久設定（Linux）：

sudo systemctl edit ollama

加入：

[Service]
Environment="OLLAMA_KEEP_ALIVE=24h"
Environment="OLLAMA_NUM_GPU=999"

模型量化

如果你的 VRAM 不夠運行完整精度的模型，可以使用量化版本：

# Q4_K_M — 品質和大小的最佳平衡
ollama pull qwen2.5:14b-instruct-q4_K_M

# Q5_K_M — 稍微大一點，品質稍微好一點
ollama pull qwen2.5:14b-instruct-q5_K_M

# Q8_0 — 接近原始精度，需要更多記憶體
ollama pull qwen2.5:14b-instruct-q8_0

品質差異的實際感受： Q4 量化的模型在大多數日常任務中表現良好。只有在需要精確的數學計算、複雜的邏輯推理或程式碼生成時，才會明顯感受到與全精度模型的差距^[6]。

本地 LLM 的限制

誠實地說，本地模型和雲端頂級模型之間存在明顯差距。了解這些限制有助於你設定合理的期望。

推理能力

Claude Opus 和 GPT-4o 在複雜推理、多步驟規劃和細微語境理解方面仍然領先。本地開源模型在簡單對話和結構化任務上表現不錯，但在以下場景可能力不從心：

複雜的多步驟工作流程
需要精確理解細微指令的任務
長篇內容的深度分析

工具使用 (Function Calling)

OpenClaw 的核心能力之一是工具使用——讓 AI 呼叫外部工具來完成任務。雲端模型在這方面經過大量專門訓練，表現穩定。本地模型的工具使用能力在持續改善，但穩定性仍然不及 Claude 或 GPT-4o^[7]。

上下文長度

雖然許多開源模型宣稱支援 128K 上下文，但在超長上下文下的品質往往會下降。實際使用中，32K 以內的上下文是比較可靠的範圍。

中文能力

對於繁體中文使用者，模型選擇更需要注意。Qwen 系列在中文方面表現最好（畢竟是阿里巴巴訓練的），Llama 系列的中文能力也在持續改善。但整體而言，中文表現仍不及雲端頂級模型。

混合方案：兩全其美

最務實的方案可能是混合使用本地和雲端模型。

設定方式

在 OpenClaw 中，你可以配置多個 LLM 後端，並根據任務類型自動切換：

{
  "llm": {
    "provider": "openai-compatible",
    "baseUrl": "http://localhost:11434/v1",
    "model": "qwen2.5:14b",
    "apiKey": "ollama"
  },
  "llm.fallback": {
    "provider": "anthropic",
    "model": "claude-sonnet-4-20250514",
    "apiKey": "sk-ant-your-key"
  }
}

混合策略

日常對話、簡單問答： 使用本地模型，零成本
複雜推理、重要工作流程： 切換到雲端模型，確保品質
離線時： 自動回退到本地模型
敏感內容： 強制使用本地模型，確保隱私

這個方案讓你在大多數時間享受零成本，同時在需要時仍然能使用最強的模型。

如果這一切太麻煩

設定 Ollama、選擇模型、調整參數、管理 VRAM——這些步驟對技術人員來說是樂趣，對其他人可能是負擔。

ClawTank 提供託管的 OpenClaw 實例，直接使用雲端 API，不需要管理任何基礎設施。你只需要帶上自己的 API 金鑰（或使用 ClawTank 提供的額度），幾分鐘內就能有一個運行中的 AI 助理。

但如果你享受動手搭建的過程，並且重視零成本和完全隱私——Ollama + OpenClaw 的組合是目前最好的方案。

常見問題

Ollama 啟動後佔用大量記憶體怎麼辦？

模型會在首次使用時載入到記憶體中，並保持一段時間（預設 5 分鐘）。設定 OLLAMA_KEEP_ALIVE 可以控制這個行為。

可以同時運行多個模型嗎？

可以，但每個模型都會佔用獨立的 VRAM 空間。如果記憶體不足，Ollama 會卸載較早使用的模型。

為什麼推理速度很慢？

最常見的原因是模型沒有使用 GPU。用 ollama ps 確認 GPU 是否被使用。如果顯示 CPU，檢查你的 GPU 驅動程式安裝。

如何更新模型？

ollama pull qwen2.5:14b
# Ollama 會自動下載更新的版本

OpenClaw 報錯 "connection refused" 怎麼辦？

確認 Ollama 服務正在運行：

# 檢查服務狀態
systemctl status ollama  # Linux
# 或
ollama ps  # 任何平台

# 重啟 Ollama
ollama serve

總結

OpenClaw + Ollama 的組合讓你擁有一個完全免費、完全私密、可以離線運行的 AI 助理。這不是一個完美的方案——本地模型在能力上仍有局限——但對於日常使用來說，它的價值主張非常吸引人。

核心步驟回顧：

安裝 Ollama
下載合適的模型（推薦 qwen2.5:14b 或 llama3.3:8b）
在 OpenClaw 中設定 openai-compatible 提供者
指向 http://localhost:11434/v1
享受零成本的 AI 助理

如果你願意投入一點時間來設定，回報是每月省下的 API 費用和完全掌控自己資料的安心感。

References

模型	參數量	VRAM 需求	適用場景	推理速度
`qwen2.5:32b`	32B	20GB	最佳品質，需要高階 GPU	15-25 tok/s
`qwen2.5:14b`	14B	10GB	品質與速度的最佳平衡	30-50 tok/s
`llama3.3:8b`	8B	6GB	大多數消費級 GPU 可用	40-80 tok/s
`qwen2.5:7b`	7B	5GB	輕量替代方案	50-90 tok/s
`gemma2:9b`	9B	7GB	Google 開源，中文表現不錯	35-60 tok/s
`phi-4:14b`	14B	10GB	微軟出品，推理能力強	25-40 tok/s

進階：模型路由

OpenClaw 支援為不同任務使用不同模型。你可以設定較小的模型處理簡單的對話，大模型處理複雜的推理任務：

{
  "llm": {
    "provider": "openai-compatible",
    "baseUrl": "http://localhost:11434/v1",
    "model": "qwen2.5:7b",
    "apiKey": "ollama"
  },
  "llm.reasoning": {
    "provider": "openai-compatible",
    "baseUrl": "http://localhost:11434/v1",
    "model": "qwen2.5:32b",
    "apiKey": "ollama"
  }
}

GPU vs CPU 效能

GPU 推理（強烈建議）

Ollama 自動偵測並使用可用的 GPU。支援：

NVIDIA GPU： 透過 CUDA，需要安裝 NVIDIA 驅動程式和 CUDA Toolkit
Apple Silicon： 原生支援 Metal，M1/M2/M3/M4 的統一記憶體可以完全用於模型推理
AMD GPU： 透過 ROCm（Linux），支援較新的消費級和專業卡

# 確認 GPU 是否被偵測到
ollama ps
# 應該顯示 GPU 相關資訊

CPU 推理

沒有獨立 GPU？Ollama 也可以用 CPU 運行。速度會慢很多，但對於個人助理的使用場景（你不需要每秒產生 100 個 Token），可能還是可以接受的。

CPU 推理的經驗數據：

CPU	模型	速度
Intel i7-13700	llama3.3:8b	8-12 tok/s
AMD Ryzen 7 7800X	qwen2.5:14b	5-8 tok/s
Apple M3 (CPU only)	qwen2.5:14b	15-20 tok/s

8 tok/s 意味著一個 200 字的回覆需要大約 25 秒。堪用，但不太舒服。

硬體需求總結

使用等級	最低硬體	建議硬體
基本聊天	8GB RAM, 任何現代 CPU	16GB RAM, 6GB VRAM GPU
日常助理	16GB RAM, 6GB VRAM	32GB RAM, 12GB VRAM
重度使用	32GB RAM, 12GB VRAM	64GB RAM, 24GB VRAM

效能調校

Ollama 環境變數

# 設定 GPU 層數（越高越快，但需要更多 VRAM）
export OLLAMA_NUM_GPU=999  # 盡可能多地使用 GPU

# 設定並行推理數量（預設 1）
export OLLAMA_NUM_PARALLEL=1

# 設定模型在記憶體中保留的時間（避免頻繁載入）
export OLLAMA_KEEP_ALIVE=24h

# 限制 CPU 線程數
export OLLAMA_NUM_THREAD=8

建立 systemd override 來永久設定（Linux）：

sudo systemctl edit ollama

加入：

[Service]
Environment="OLLAMA_KEEP_ALIVE=24h"
Environment="OLLAMA_NUM_GPU=999"

模型量化

如果你的 VRAM 不夠運行完整精度的模型，可以使用量化版本：

# Q4_K_M — 品質和大小的最佳平衡
ollama pull qwen2.5:14b-instruct-q4_K_M

# Q5_K_M — 稍微大一點，品質稍微好一點
ollama pull qwen2.5:14b-instruct-q5_K_M

# Q8_0 — 接近原始精度，需要更多記憶體
ollama pull qwen2.5:14b-instruct-q8_0

本地 LLM 的限制

誠實地說，本地模型和雲端頂級模型之間存在明顯差距。了解這些限制有助於你設定合理的期望。

推理能力

複雜的多步驟工作流程
需要精確理解細微指令的任務
長篇內容的深度分析

工具使用 (Function Calling)

上下文長度

雖然許多開源模型宣稱支援 128K 上下文，但在超長上下文下的品質往往會下降。實際使用中，32K 以內的上下文是比較可靠的範圍。

中文能力

混合方案：兩全其美

最務實的方案可能是混合使用本地和雲端模型。

設定方式

在 OpenClaw 中，你可以配置多個 LLM 後端，並根據任務類型自動切換：

{
  "llm": {
    "provider": "openai-compatible",
    "baseUrl": "http://localhost:11434/v1",
    "model": "qwen2.5:14b",
    "apiKey": "ollama"
  },
  "llm.fallback": {
    "provider": "anthropic",
    "model": "claude-sonnet-4-20250514",
    "apiKey": "sk-ant-your-key"
  }
}

混合策略

日常對話、簡單問答： 使用本地模型，零成本
複雜推理、重要工作流程： 切換到雲端模型，確保品質
離線時： 自動回退到本地模型
敏感內容： 強制使用本地模型，確保隱私

這個方案讓你在大多數時間享受零成本，同時在需要時仍然能使用最強的模型。

如果這一切太麻煩

設定 Ollama、選擇模型、調整參數、管理 VRAM——這些步驟對技術人員來說是樂趣，對其他人可能是負擔。

但如果你享受動手搭建的過程，並且重視零成本和完全隱私——Ollama + OpenClaw 的組合是目前最好的方案。

常見問題

Ollama 啟動後佔用大量記憶體怎麼辦？

模型會在首次使用時載入到記憶體中，並保持一段時間（預設 5 分鐘）。設定 OLLAMA_KEEP_ALIVE 可以控制這個行為。

可以同時運行多個模型嗎？

可以，但每個模型都會佔用獨立的 VRAM 空間。如果記憶體不足，Ollama 會卸載較早使用的模型。

為什麼推理速度很慢？

最常見的原因是模型沒有使用 GPU。用 ollama ps 確認 GPU 是否被使用。如果顯示 CPU，檢查你的 GPU 驅動程式安裝。

如何更新模型？

ollama pull qwen2.5:14b
# Ollama 會自動下載更新的版本

OpenClaw 報錯 "connection refused" 怎麼辦？

確認 Ollama 服務正在運行：

# 檢查服務狀態
systemctl status ollama  # Linux
# 或
ollama ps  # 任何平台

# 重啟 Ollama
ollama serve

總結

核心步驟回顧：

安裝 Ollama
下載合適的模型（推薦 qwen2.5:14b 或 llama3.3:8b）
在 OpenClaw 中設定 openai-compatible 提供者
指向 http://localhost:11434/v1
享受零成本的 AI 助理

如果你願意投入一點時間來設定，回報是每月省下的 API 費用和完全掌控自己資料的安心感。

為什麼要在本地運行 LLM

隱私

成本

離線可用

安裝 Ollama

macOS

Linux

Windows

啟動 Ollama 服務

模型選擇指南

推薦模型

下載模型

關於上下文長度

設定 OpenClaw 使用 Ollama

修改 openclaw.json

驗證連線

部署你專屬的 AI 助理

進階：模型路由

GPU vs CPU 效能

GPU 推理（強烈建議）

CPU 推理

硬體需求總結

效能調校

Ollama 環境變數

模型量化

本地 LLM 的限制

推理能力

工具使用 (Function Calling)

上下文長度

中文能力

混合方案：兩全其美

設定方式

混合策略

如果這一切太麻煩

常見問題

Ollama 啟動後佔用大量記憶體怎麼辦？

可以同時運行多個模型嗎？

為什麼推理速度很慢？

如何更新模型？

OpenClaw 報錯 "connection refused" 怎麼辦？

總結

References

喜歡這篇文章嗎？

相關文章

OpenClaw 到底要花多少錢？2026 費用完整分析

為什麼要在本地運行 LLM

隱私

成本

離線可用

安裝 Ollama

macOS

Linux

Windows

啟動 Ollama 服務

模型選擇指南

推薦模型

下載模型

關於上下文長度

設定 OpenClaw 使用 Ollama

修改 openclaw.json

驗證連線

部署你專屬的 AI 助理

進階：模型路由

GPU vs CPU 效能

GPU 推理（強烈建議）

CPU 推理

硬體需求總結

效能調校

Ollama 環境變數

模型量化

本地 LLM 的限制

推理能力

工具使用 (Function Calling)

上下文長度

中文能力

混合方案：兩全其美

設定方式

混合策略

如果這一切太麻煩

常見問題