まだ OpenClaw をインストールしていませんか?
パソコンへの影響が心配?ClawTank なら60秒でクラウドデプロイ、ファイルへのリスクゼロ。
OpenClaw と Ollama を使う:無料でプライベートなローカル LLM AI エージェント
クラウド LLM プロバイダーへのリクエストにはすべてコストがかかります。数回のツール呼び出しを含む典型的な OpenClaw 会話は $0.02〜$0.10 かかることがあります。エージェントを頻繁に実行すると、月額 API 請求が $20〜$50 以上に達する可能性があります。
Ollama はこの方程式を完全に変えます。自分のハードウェアでオープンソース言語モデルを実行することで、ゼロ API コスト、完全なデータプライバシー、インターネット依存なしで OpenClaw を運用できます。トレードオフは能力です — ローカルモデルはフロンティアクラウドモデルほど強力ではありません — しかし、多くの日常的なエージェントタスクには十分です。
なぜローカル LLM を実行するのか?
コスト: 初期のハードウェア投資後のローカル推論コストは電気代のみ — 専用 GPU でも1時間数セントです。
プライバシー: ローカル LLM はすべてをマシン上で処理します。何もネットワーク外に出ません。医療記録、財務書類、プロプライエタリコードなどの機密データに重要です。
可用性: ローカル LLM は機内モード、ISP 障害時、API キーなしで動作します。常時稼働エージェントにとって、ローカル推論は障害モードの全カテゴリを排除します。
Ollama のインストール
# Linux
curl -fsSL https://ollama.com/install.sh | sh
# macOS
brew install ollama
# 確認と起動
ollama --version
ollama serve
デフォルトでは Ollama は http://localhost:11434 でリッスンします。以下で確認:
curl http://localhost:11434/api/tags
適切なモデルの選択
エージェントワークロードには、強力な指示追従、信頼性の高いツール使用フォーマット、十分なコンテキスト長が必要です。OpenClaw に最適なモデルを能力順にランキングします。
ティア1:最高品質(ワークステーション GPU)
| モデル |
パラメータ |
VRAM |
コンテキスト |
最適な用途 |
| Qwen 2.5 72B (Q4) |
72B |
48 GB |
128K |
クラウド品質に最も近い |
| Llama 3.3 70B (Q4) |
70B |
44 GB |
128K |
強力な汎用モデル |
| DeepSeek-R1 70B (Q4) |
70B |
44 GB |
64K |
推論重視タスク |
ティア2:スイートスポット(コンシューマー GPU)
| モデル |
パラメータ |
VRAM |
コンテキスト |
最適な用途 |
| Qwen 2.5 32B (Q4) |
32B |
20 GB |
128K |
品質/速度の最良バランス |
| DeepSeek-R1 32B (Q4) |
32B |
20 GB |
64K |
複雑な推論 |
| Mistral Small 24B (Q4) |
24B |
16 GB |
128K |
高速、良好なツール使用 |
# RTX 3090/4080/4090 向けの推奨スタートポイント
ollama pull qwen2.5:32b-instruct-q4_K_M
Q4 量子化の32B モデルは、モダンなゲーミング GPU を持つほとんどのユーザーにとってスイートスポットです[1]。
ティア3:アクセシブル(任意の GPU または CPU)
| モデル |
パラメータ |
VRAM |
コンテキスト |
最適な用途 |
| Llama 3.1 8B (Q4) |
8B |
6 GB |
128K |
軽量タスク、高速レスポンス |
| Mistral 7B (Q4) |
7B |
5 GB |
32K |
シンプルな自動化 |
| Qwen 2.5 7B (Q4) |
7B |
5 GB |
128K |
多言語タスク |
コンテキスト長
OpenClaw はすべてのプロンプトに会話履歴、スキル定義、ツール結果、システム指示を含めます。マルチステップタスクは 30,000〜50,000 トークンに達することがあります。最小コンテキスト長:64K トークン。 128K コンテキストのモデルが望ましいです。
OpenClaw を Ollama 用に設定
~/.openclaw/openclaw.json を編集:
{
"providers": {
"ollama": {
"type": "openai-compatible",
"baseUrl": "http://localhost:11434/v1",
"apiKey": "ollama",
"models": ["qwen2.5:32b-instruct-q4_K_M"]
}
},
"defaultProvider": "ollama",
"defaultModel": "qwen2.5:32b-instruct-q4_K_M",
"gateway": {
"port": 3700,
"maxConcurrentTasks": 1,
"taskTimeout": 300
}
}
キー設定:type: "openai-compatible" は Ollama の OpenAI 互換エンドポイントを使用。apiKey: "ollama" はプレースホルダーです。Ollama は認証不要ですがフィールドは空にできません。maxConcurrentTasks: 1 は並列推論によるメモリ圧力を回避。taskTimeout: 300 はローカルモデルに十分な時間を提供。
以下で確認:
openclaw status
openclaw chat "What time is it?"
ハードウェアとパフォーマンス
GPU 推論
| GPU |
モデルサイズ |
トークン/秒 |
500トークンレスポンス |
| RTX 4090 (24 GB) |
32B Q4 |
35--45 t/s |
11--14秒 |
| RTX 3090 (24 GB) |
32B Q4 |
25--35 t/s |
14--20秒 |
| RTX 3060 (12 GB) |
8B Q4 |
50--70 t/s |
7--10秒 |
| M2 Max (32 GB) |
32B Q4 |
20--30 t/s |
17--25秒 |
快適なエージェント使用には、20トークン/秒以上を目指してください[2]。
CPU 推論(最終手段)
| CPU |
モデルサイズ |
トークン/秒 |
500トークンレスポンス |
| Ryzen 9 7950X |
8B Q4 |
12--18 t/s |
28--42秒 |
| Core i7-13700 |
8B Q4 |
10--15 t/s |
33--50秒 |
CPU では 8B 以下のモデルに留めてください。
エージェントワークロード向けチューニング
コールドスタートの遅延を避けるためモデルをロード状態に保持:
# In /etc/systemd/system/ollama.service.d/override.conf
[Service]
Environment="OLLAMA_KEEP_ALIVE=24h"
カスタム Modelfile でコンテキストサイズと温度を明示的に設定:
cat > ~/.ollama/Modelfile-openclaw <<'EOF'
FROM qwen2.5:32b-instruct-q4_K_M
PARAMETER num_ctx 65536
PARAMETER temperature 0.3
PARAMETER repeat_penalty 1.1
EOF
ollama create openclaw-qwen -f ~/.ollama/Modelfile-openclaw
低い温度(0.3)はより一貫したエージェント動作を生みます。リピートペナルティはローカルモデルが陥りがちなループを防ぎます。
ローカルモデルの制限
ローカルモデルはフロンティアクラウドモデルよりいくつかの点で劣ります。指示追従の精度が低く、ローカルモデルはステップを飛ばしたり存在しないツール呼び出しをハルシネーションすることがあります。複雑な推論は顕著に弱く、32B ローカルモデルは2〜3世代前のクラウドモデルのレベルで動作します[3]。ツール使用の信頼性が低く、不正な JSON や間違ったパラメータ名が時々発生します。そして長いコンテキストの品質はクラウドモデルより劣化が大きいです。
ハイブリッド戦略
日常タスクにはローカル、複雑な作業にはクラウドを使用:
{
"providers": {
"ollama": {
"type": "openai-compatible",
"baseUrl": "http://localhost:11434/v1",
"apiKey": "ollama",
"models": ["qwen2.5:32b-instruct-q4_K_M"]
},
"anthropic": { "apiKey": "sk-ant-..." }
},
"defaultProvider": "ollama",
"defaultModel": "qwen2.5:32b-instruct-q4_K_M",
"routing": {
"complex": {
"provider": "anthropic",
"model": "claude-sonnet-4-20250514"
}
}
}
メッセージごとにオーバーライド:
openclaw chat "Check if my backup ran last night" # local
openclaw chat --provider anthropic "Review this PR and suggest fixes" # cloud
これにより通常、クラウド API コストが 60〜80% 削減されます。
リモート Ollama とオフライン運用
GPU マシンで Ollama を実行し、Raspberry Pi やラップトップから接続:
# GPU マシン上
OLLAMA_HOST=0.0.0.0:11434 ollama serve
# クライアントの openclaw.json 内
"baseUrl": "http://192.168.1.100:11434/v1"
完全なエアギャップ環境では、接続マシンでモデルを事前ダウンロードし、~/.ollama/ をオフラインマシンにコピー:
# 接続マシン上
ollama pull qwen2.5:32b-instruct-q4_K_M
# オフラインマシンに転送
rsync -av ~/.ollama/ user@offline-machine:~/.ollama/
その後、オフラインマシンで通常通り Ollama と OpenClaw を起動します。これにより、分類環境、遠隔地、データがローカルマシンから出てはならないあらゆるシナリオで OpenClaw が使用可能になります。
このインフラの管理が向いていない場合、ClawTank がプロバイダー管理込みのホステッドインスタンスを提供しています。
セキュリティ注意: Ollama にはデフォルトで認証がありません。信頼できるネットワークにのみ公開するか、リモートアクセスには SSH トンネルを使用してください:
ssh -L 11434:localhost:11434 user@gpu-machine -N &
パフォーマンスの監視
ローカル推論を注視してください:
# ロードされたモデルとメモリ使用量を確認
ollama ps
# リアルタイムで推論を監視
journalctl -u ollama -f
パフォーマンスが低下した場合、GPU 温度(サーマルスロットリング)を確認し、nvidia-smi で VRAM がオーバーサブスクライブされていないことを確認し、モデルが RAM スピルなしに完全に VRAM にロードされていることを確認し、メモリフラグメンテーションをクリアするために Ollama を再起動してください。
まとめ
OpenClaw と Ollama の組み合わせにより、プライベートでゼロコストの AI エージェントが得られます。実用的なパス:
- Ollama をインストールしてハードウェアに合ったモデルをプル
- Qwen 2.5 32B から開始(24 GB GPU)または Llama 3.1 8B(小さい GPU)
- OpenClaw を設定(
openai-compatible プロバイダータイプ)
- ハイブリッド戦略を使用(コスト削減と必要な場面での品質確保)
- コンテキスト長とキープアライブをチューニング(エージェントワークロード向け)
ローカルモデルは日常タスクの 70〜80% を十分に処理し、残りにはいつでもクラウドが使えます。
参考文献
- Ollama model library and quantization formats
- LLM inference benchmarks across consumer GPUs - Simon Willison
- Open LLM Leaderboard - Hugging Face
- Ollama OpenAI compatibility documentation
- OpenClaw provider configuration guide
- Qwen 2.5 model family - technical report
OpenClaw をデプロイしませんか?
Docker・SSH・DevOps 不要。1分以内でセットアップ。
無料トライアルを始める