ClawTank
ドキュメント活用法ブログ今すぐデプロイ
すべての記事
OpenClaw と Ollama を使う:無料でプライベートなローカル LLM AI エージェント

OpenClaw と Ollama を使う:無料でプライベートなローカル LLM AI エージェント

2026年2月8日|5 分で読める
目次
  • なぜローカル LLM を実行するのか?
  • Ollama のインストール
  • 適切なモデルの選択
  • ティア1:最高品質(ワークステーション GPU)
  • ティア2:スイートスポット(コンシューマー GPU)
  • ティア3:アクセシブル(任意の GPU または CPU)
  • コンテキスト長
  • OpenClaw を Ollama 用に設定
  • ハードウェアとパフォーマンス
  • GPU 推論
  • CPU 推論(最終手段)
  • エージェントワークロード向けチューニング
  • ローカルモデルの制限
  • ハイブリッド戦略
  • リモート Ollama とオフライン運用
  • パフォーマンスの監視
  • まとめ
  • 参考文献

まだ OpenClaw をインストールしていませんか?

curl -fsSL https://openclaw.ai/install.sh | bash
iwr -useb https://openclaw.ai/install.ps1 | iex
curl -fsSL https://openclaw.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

パソコンへの影響が心配?ClawTank なら60秒でクラウドデプロイ、ファイルへのリスクゼロ。

OpenClaw と Ollama を使う:無料でプライベートなローカル LLM AI エージェント

クラウド LLM プロバイダーへのリクエストにはすべてコストがかかります。数回のツール呼び出しを含む典型的な OpenClaw 会話は $0.02〜$0.10 かかることがあります。エージェントを頻繁に実行すると、月額 API 請求が $20〜$50 以上に達する可能性があります。

Ollama はこの方程式を完全に変えます。自分のハードウェアでオープンソース言語モデルを実行することで、ゼロ API コスト、完全なデータプライバシー、インターネット依存なしで OpenClaw を運用できます。トレードオフは能力です — ローカルモデルはフロンティアクラウドモデルほど強力ではありません — しかし、多くの日常的なエージェントタスクには十分です。

なぜローカル LLM を実行するのか?

コスト: 初期のハードウェア投資後のローカル推論コストは電気代のみ — 専用 GPU でも1時間数セントです。

プライバシー: ローカル LLM はすべてをマシン上で処理します。何もネットワーク外に出ません。医療記録、財務書類、プロプライエタリコードなどの機密データに重要です。

可用性: ローカル LLM は機内モード、ISP 障害時、API キーなしで動作します。常時稼働エージェントにとって、ローカル推論は障害モードの全カテゴリを排除します。

Ollama のインストール

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# macOS
brew install ollama

# 確認と起動
ollama --version
ollama serve

デフォルトでは Ollama は http://localhost:11434 でリッスンします。以下で確認:

curl http://localhost:11434/api/tags

適切なモデルの選択

エージェントワークロードには、強力な指示追従、信頼性の高いツール使用フォーマット、十分なコンテキスト長が必要です。OpenClaw に最適なモデルを能力順にランキングします。

ティア1:最高品質(ワークステーション GPU)

モデル パラメータ VRAM コンテキスト 最適な用途
Qwen 2.5 72B (Q4) 72B 48 GB 128K クラウド品質に最も近い
Llama 3.3 70B (Q4) 70B 44 GB 128K 強力な汎用モデル
DeepSeek-R1 70B (Q4) 70B 44 GB 64K 推論重視タスク

ティア2:スイートスポット(コンシューマー GPU)

モデル パラメータ VRAM コンテキスト 最適な用途
Qwen 2.5 32B (Q4) 32B 20 GB 128K 品質/速度の最良バランス
DeepSeek-R1 32B (Q4) 32B 20 GB 64K 複雑な推論
Mistral Small 24B (Q4) 24B 16 GB 128K 高速、良好なツール使用
# RTX 3090/4080/4090 向けの推奨スタートポイント
ollama pull qwen2.5:32b-instruct-q4_K_M

Q4 量子化の32B モデルは、モダンなゲーミング GPU を持つほとんどのユーザーにとってスイートスポットです[1]。

ティア3:アクセシブル(任意の GPU または CPU)

モデル パラメータ VRAM コンテキスト 最適な用途
Llama 3.1 8B (Q4) 8B 6 GB 128K 軽量タスク、高速レスポンス
Mistral 7B (Q4) 7B 5 GB 32K シンプルな自動化
Qwen 2.5 7B (Q4) 7B 5 GB 128K 多言語タスク

コンテキスト長

OpenClaw はすべてのプロンプトに会話履歴、スキル定義、ツール結果、システム指示を含めます。マルチステップタスクは 30,000〜50,000 トークンに達することがあります。最小コンテキスト長:64K トークン。 128K コンテキストのモデルが望ましいです。

OpenClaw を Ollama 用に設定

~/.openclaw/openclaw.json を編集:

{
  "providers": {
    "ollama": {
      "type": "openai-compatible",
      "baseUrl": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "models": ["qwen2.5:32b-instruct-q4_K_M"]
    }
  },
  "defaultProvider": "ollama",
  "defaultModel": "qwen2.5:32b-instruct-q4_K_M",
  "gateway": {
    "port": 3700,
    "maxConcurrentTasks": 1,
    "taskTimeout": 300
  }
}

キー設定:type: "openai-compatible" は Ollama の OpenAI 互換エンドポイントを使用。apiKey: "ollama" はプレースホルダーです。Ollama は認証不要ですがフィールドは空にできません。maxConcurrentTasks: 1 は並列推論によるメモリ圧力を回避。taskTimeout: 300 はローカルモデルに十分な時間を提供。

あなた専用の AI アシスタントをデプロイ

ClawTank なら OpenClaw を簡単にデプロイ — サーバー・Docker・SSH 不要。14日間無料トライアル付き。

無料トライアルを始める

以下で確認:

openclaw status
openclaw chat "What time is it?"

ハードウェアとパフォーマンス

GPU 推論

GPU モデルサイズ トークン/秒 500トークンレスポンス
RTX 4090 (24 GB) 32B Q4 35--45 t/s 11--14秒
RTX 3090 (24 GB) 32B Q4 25--35 t/s 14--20秒
RTX 3060 (12 GB) 8B Q4 50--70 t/s 7--10秒
M2 Max (32 GB) 32B Q4 20--30 t/s 17--25秒

快適なエージェント使用には、20トークン/秒以上を目指してください[2]。

CPU 推論(最終手段)

CPU モデルサイズ トークン/秒 500トークンレスポンス
Ryzen 9 7950X 8B Q4 12--18 t/s 28--42秒
Core i7-13700 8B Q4 10--15 t/s 33--50秒

CPU では 8B 以下のモデルに留めてください。

エージェントワークロード向けチューニング

コールドスタートの遅延を避けるためモデルをロード状態に保持:

# In /etc/systemd/system/ollama.service.d/override.conf
[Service]
Environment="OLLAMA_KEEP_ALIVE=24h"

カスタム Modelfile でコンテキストサイズと温度を明示的に設定:

cat > ~/.ollama/Modelfile-openclaw <<'EOF'
FROM qwen2.5:32b-instruct-q4_K_M
PARAMETER num_ctx 65536
PARAMETER temperature 0.3
PARAMETER repeat_penalty 1.1
EOF

ollama create openclaw-qwen -f ~/.ollama/Modelfile-openclaw

低い温度(0.3)はより一貫したエージェント動作を生みます。リピートペナルティはローカルモデルが陥りがちなループを防ぎます。

ローカルモデルの制限

ローカルモデルはフロンティアクラウドモデルよりいくつかの点で劣ります。指示追従の精度が低く、ローカルモデルはステップを飛ばしたり存在しないツール呼び出しをハルシネーションすることがあります。複雑な推論は顕著に弱く、32B ローカルモデルは2〜3世代前のクラウドモデルのレベルで動作します[3]。ツール使用の信頼性が低く、不正な JSON や間違ったパラメータ名が時々発生します。そして長いコンテキストの品質はクラウドモデルより劣化が大きいです。

ハイブリッド戦略

日常タスクにはローカル、複雑な作業にはクラウドを使用:

{
  "providers": {
    "ollama": {
      "type": "openai-compatible",
      "baseUrl": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "models": ["qwen2.5:32b-instruct-q4_K_M"]
    },
    "anthropic": { "apiKey": "sk-ant-..." }
  },
  "defaultProvider": "ollama",
  "defaultModel": "qwen2.5:32b-instruct-q4_K_M",
  "routing": {
    "complex": {
      "provider": "anthropic",
      "model": "claude-sonnet-4-20250514"
    }
  }
}

メッセージごとにオーバーライド:

openclaw chat "Check if my backup ran last night"                      # local
openclaw chat --provider anthropic "Review this PR and suggest fixes"  # cloud

これにより通常、クラウド API コストが 60〜80% 削減されます。

リモート Ollama とオフライン運用

GPU マシンで Ollama を実行し、Raspberry Pi やラップトップから接続:

# GPU マシン上
OLLAMA_HOST=0.0.0.0:11434 ollama serve

# クライアントの openclaw.json 内
"baseUrl": "http://192.168.1.100:11434/v1"

完全なエアギャップ環境では、接続マシンでモデルを事前ダウンロードし、~/.ollama/ をオフラインマシンにコピー:

# 接続マシン上
ollama pull qwen2.5:32b-instruct-q4_K_M

# オフラインマシンに転送
rsync -av ~/.ollama/ user@offline-machine:~/.ollama/

その後、オフラインマシンで通常通り Ollama と OpenClaw を起動します。これにより、分類環境、遠隔地、データがローカルマシンから出てはならないあらゆるシナリオで OpenClaw が使用可能になります。

このインフラの管理が向いていない場合、ClawTank がプロバイダー管理込みのホステッドインスタンスを提供しています。

セキュリティ注意: Ollama にはデフォルトで認証がありません。信頼できるネットワークにのみ公開するか、リモートアクセスには SSH トンネルを使用してください:

ssh -L 11434:localhost:11434 user@gpu-machine -N &

パフォーマンスの監視

ローカル推論を注視してください:

# ロードされたモデルとメモリ使用量を確認
ollama ps

# リアルタイムで推論を監視
journalctl -u ollama -f

パフォーマンスが低下した場合、GPU 温度(サーマルスロットリング)を確認し、nvidia-smi で VRAM がオーバーサブスクライブされていないことを確認し、モデルが RAM スピルなしに完全に VRAM にロードされていることを確認し、メモリフラグメンテーションをクリアするために Ollama を再起動してください。

まとめ

OpenClaw と Ollama の組み合わせにより、プライベートでゼロコストの AI エージェントが得られます。実用的なパス:

  1. Ollama をインストールしてハードウェアに合ったモデルをプル
  2. Qwen 2.5 32B から開始(24 GB GPU)または Llama 3.1 8B(小さい GPU)
  3. OpenClaw を設定(openai-compatible プロバイダータイプ)
  4. ハイブリッド戦略を使用(コスト削減と必要な場面での品質確保)
  5. コンテキスト長とキープアライブをチューニング(エージェントワークロード向け)

ローカルモデルは日常タスクの 70〜80% を十分に処理し、残りにはいつでもクラウドが使えます。

参考文献

  1. Ollama model library and quantization formats
  2. LLM inference benchmarks across consumer GPUs - Simon Willison
  3. Open LLM Leaderboard - Hugging Face
  4. Ollama OpenAI compatibility documentation
  5. OpenClaw provider configuration guide
  6. Qwen 2.5 model family - technical report

この記事はいかがでしたか?

新しいガイドやチュートリアルの公開時にお知らせします。

関連記事

OpenClawの実際のコストは?2026年料金詳細ガイド

OpenClawの実際のコストは?2026年料金詳細ガイド

2 min read

OpenClaw をデプロイしませんか?

Docker・SSH・DevOps 不要。1分以内でセットアップ。

無料トライアルを始める
ClawTank
利用規約プライバシー