OpenClaw と Ollama を使う：無料でプライベートなローカル LLM AI エージェント

2026年2月8日|5 分で読める

まだ OpenClaw をインストールしていませんか？

macOS / Linux PowerShell CMD

curl -fsSL https://openclaw.ai/install.sh | bash

iwr -useb https://openclaw.ai/install.ps1 | iex

curl -fsSL https://openclaw.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

パソコンへの影響が心配？ClawTank なら60秒でクラウドデプロイ、ファイルへのリスクゼロ。

OpenClaw と Ollama を使う：無料でプライベートなローカル LLM AI エージェント

クラウド LLM プロバイダーへのリクエストにはすべてコストがかかります。数回のツール呼び出しを含む典型的な OpenClaw 会話は $0.02〜$0.10 かかることがあります。エージェントを頻繁に実行すると、月額 API 請求が $20〜$50 以上に達する可能性があります。

Ollama はこの方程式を完全に変えます。自分のハードウェアでオープンソース言語モデルを実行することで、ゼロ API コスト、完全なデータプライバシー、インターネット依存なしで OpenClaw を運用できます。トレードオフは能力です — ローカルモデルはフロンティアクラウドモデルほど強力ではありません — しかし、多くの日常的なエージェントタスクには十分です。

なぜローカル LLM を実行するのか？

コスト： 初期のハードウェア投資後のローカル推論コストは電気代のみ — 専用 GPU でも1時間数セントです。

プライバシー： ローカル LLM はすべてをマシン上で処理します。何もネットワーク外に出ません。医療記録、財務書類、プロプライエタリコードなどの機密データに重要です。

可用性： ローカル LLM は機内モード、ISP 障害時、API キーなしで動作します。常時稼働エージェントにとって、ローカル推論は障害モードの全カテゴリを排除します。

Ollama のインストール

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# macOS
brew install ollama

# 確認と起動
ollama --version
ollama serve

デフォルトでは Ollama は http://localhost:11434 でリッスンします。以下で確認：

curl http://localhost:11434/api/tags

適切なモデルの選択

エージェントワークロードには、強力な指示追従、信頼性の高いツール使用フォーマット、十分なコンテキスト長が必要です。OpenClaw に最適なモデルを能力順にランキングします。

ティア1：最高品質（ワークステーション GPU）

モデル	パラメータ	VRAM	コンテキスト	最適な用途
Qwen 2.5 72B (Q4)	72B	48 GB	128K	クラウド品質に最も近い
Llama 3.3 70B (Q4)	70B	44 GB	128K	強力な汎用モデル
DeepSeek-R1 70B (Q4)	70B	44 GB	64K	推論重視タスク

ティア2：スイートスポット（コンシューマー GPU）

モデル	パラメータ	VRAM	コンテキスト	最適な用途
Qwen 2.5 32B (Q4)	32B	20 GB	128K	品質/速度の最良バランス
DeepSeek-R1 32B (Q4)	32B	20 GB	64K	複雑な推論
Mistral Small 24B (Q4)	24B	16 GB	128K	高速、良好なツール使用

# RTX 3090/4080/4090 向けの推奨スタートポイント
ollama pull qwen2.5:32b-instruct-q4_K_M

Q4 量子化の32B モデルは、モダンなゲーミング GPU を持つほとんどのユーザーにとってスイートスポットです^[1]。

ティア3：アクセシブル（任意の GPU または CPU）

モデル	パラメータ	VRAM	コンテキスト	最適な用途
Llama 3.1 8B (Q4)	8B	6 GB	128K	軽量タスク、高速レスポンス
Mistral 7B (Q4)	7B	5 GB	32K	シンプルな自動化
Qwen 2.5 7B (Q4)	7B	5 GB	128K	多言語タスク

コンテキスト長

OpenClaw はすべてのプロンプトに会話履歴、スキル定義、ツール結果、システム指示を含めます。マルチステップタスクは 30,000〜50,000 トークンに達することがあります。最小コンテキスト長：64K トークン。 128K コンテキストのモデルが望ましいです。

OpenClaw を Ollama 用に設定

~/.openclaw/openclaw.json を編集：

{
  "providers": {
    "ollama": {
      "type": "openai-compatible",
      "baseUrl": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "models": ["qwen2.5:32b-instruct-q4_K_M"]
    }
  },
  "defaultProvider": "ollama",
  "defaultModel": "qwen2.5:32b-instruct-q4_K_M",
  "gateway": {
    "port": 3700,
    "maxConcurrentTasks": 1,
    "taskTimeout": 300
  }
}

キー設定：type: "openai-compatible" は Ollama の OpenAI 互換エンドポイントを使用。apiKey: "ollama" はプレースホルダーです。Ollama は認証不要ですがフィールドは空にできません。maxConcurrentTasks: 1 は並列推論によるメモリ圧力を回避。taskTimeout: 300 はローカルモデルに十分な時間を提供。

あなた専用の AI アシスタントをデプロイ

ClawTank なら OpenClaw を簡単にデプロイ — サーバー・Docker・SSH 不要。14日間無料トライアル付き。

無料トライアルを始める

以下で確認：

openclaw status
openclaw chat "What time is it?"

ハードウェアとパフォーマンス

GPU 推論

GPU	モデルサイズ	トークン/秒	500トークンレスポンス
RTX 4090 (24 GB)	32B Q4	35--45 t/s	11--14秒
RTX 3090 (24 GB)	32B Q4	25--35 t/s	14--20秒
RTX 3060 (12 GB)	8B Q4	50--70 t/s	7--10秒
M2 Max (32 GB)	32B Q4	20--30 t/s	17--25秒

快適なエージェント使用には、20トークン/秒以上を目指してください^[2]。

CPU 推論（最終手段）

CPU	モデルサイズ	トークン/秒	500トークンレスポンス
Ryzen 9 7950X	8B Q4	12--18 t/s	28--42秒
Core i7-13700	8B Q4	10--15 t/s	33--50秒

CPU では 8B 以下のモデルに留めてください。

エージェントワークロード向けチューニング

コールドスタートの遅延を避けるためモデルをロード状態に保持：

# In /etc/systemd/system/ollama.service.d/override.conf
[Service]
Environment="OLLAMA_KEEP_ALIVE=24h"

カスタム Modelfile でコンテキストサイズと温度を明示的に設定：

cat > ~/.ollama/Modelfile-openclaw <<'EOF'
FROM qwen2.5:32b-instruct-q4_K_M
PARAMETER num_ctx 65536
PARAMETER temperature 0.3
PARAMETER repeat_penalty 1.1
EOF

ollama create openclaw-qwen -f ~/.ollama/Modelfile-openclaw

低い温度（0.3）はより一貫したエージェント動作を生みます。リピートペナルティはローカルモデルが陥りがちなループを防ぎます。

ローカルモデルの制限

ローカルモデルはフロンティアクラウドモデルよりいくつかの点で劣ります。指示追従の精度が低く、ローカルモデルはステップを飛ばしたり存在しないツール呼び出しをハルシネーションすることがあります。複雑な推論は顕著に弱く、32B ローカルモデルは2〜3世代前のクラウドモデルのレベルで動作します^[3]。ツール使用の信頼性が低く、不正な JSON や間違ったパラメータ名が時々発生します。そして長いコンテキストの品質はクラウドモデルより劣化が大きいです。

ハイブリッド戦略

日常タスクにはローカル、複雑な作業にはクラウドを使用：

{
  "providers": {
    "ollama": {
      "type": "openai-compatible",
      "baseUrl": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "models": ["qwen2.5:32b-instruct-q4_K_M"]
    },
    "anthropic": { "apiKey": "sk-ant-..." }
  },
  "defaultProvider": "ollama",
  "defaultModel": "qwen2.5:32b-instruct-q4_K_M",
  "routing": {
    "complex": {
      "provider": "anthropic",
      "model": "claude-sonnet-4-20250514"
    }
  }
}

メッセージごとにオーバーライド：

openclaw chat "Check if my backup ran last night"                      # local
openclaw chat --provider anthropic "Review this PR and suggest fixes"  # cloud

これにより通常、クラウド API コストが 60〜80% 削減されます。

リモート Ollama とオフライン運用

GPU マシンで Ollama を実行し、Raspberry Pi やラップトップから接続：

# GPU マシン上
OLLAMA_HOST=0.0.0.0:11434 ollama serve

# クライアントの openclaw.json 内
"baseUrl": "http://192.168.1.100:11434/v1"

完全なエアギャップ環境では、接続マシンでモデルを事前ダウンロードし、~/.ollama/ をオフラインマシンにコピー：

# 接続マシン上
ollama pull qwen2.5:32b-instruct-q4_K_M

# オフラインマシンに転送
rsync -av ~/.ollama/ user@offline-machine:~/.ollama/

その後、オフラインマシンで通常通り Ollama と OpenClaw を起動します。これにより、分類環境、遠隔地、データがローカルマシンから出てはならないあらゆるシナリオで OpenClaw が使用可能になります。

このインフラの管理が向いていない場合、ClawTank がプロバイダー管理込みのホステッドインスタンスを提供しています。

セキュリティ注意： Ollama にはデフォルトで認証がありません。信頼できるネットワークにのみ公開するか、リモートアクセスには SSH トンネルを使用してください：

ssh -L 11434:localhost:11434 user@gpu-machine -N &

パフォーマンスの監視

ローカル推論を注視してください：

# ロードされたモデルとメモリ使用量を確認
ollama ps

# リアルタイムで推論を監視
journalctl -u ollama -f

パフォーマンスが低下した場合、GPU 温度（サーマルスロットリング）を確認し、nvidia-smi で VRAM がオーバーサブスクライブされていないことを確認し、モデルが RAM スピルなしに完全に VRAM にロードされていることを確認し、メモリフラグメンテーションをクリアするために Ollama を再起動してください。

まとめ

OpenClaw と Ollama の組み合わせにより、プライベートでゼロコストの AI エージェントが得られます。実用的なパス：

Ollama をインストールしてハードウェアに合ったモデルをプル
Qwen 2.5 32B から開始（24 GB GPU）または Llama 3.1 8B（小さい GPU）
OpenClaw を設定（openai-compatible プロバイダータイプ）
ハイブリッド戦略を使用（コスト削減と必要な場面での品質確保）
コンテキスト長とキープアライブをチューニング（エージェントワークロード向け）

ローカルモデルは日常タスクの 70〜80% を十分に処理し、残りにはいつでもクラウドが使えます。

参考文献

この記事はいかがでしたか？

新しいガイドやチュートリアルの公開時にお知らせします。

OpenClawの実際のコストは？2026年料金詳細ガイド

2 min read

OpenClaw をデプロイしませんか？

Docker・SSH・DevOps 不要。1分以内でセットアップ。

無料トライアルを始める

すべての記事

OpenClaw と Ollama を使う：無料でプライベートなローカル LLM AI エージェント

2026年2月8日|5 分で読める

まだ OpenClaw をインストールしていませんか？

macOS / Linux PowerShell CMD

curl -fsSL https://openclaw.ai/install.sh | bash

iwr -useb https://openclaw.ai/install.ps1 | iex

curl -fsSL https://openclaw.ai/install.cmd -o install.cmd && install.cmd && del install.cmd

パソコンへの影響が心配？ClawTank なら60秒でクラウドデプロイ、ファイルへのリスクゼロ。

OpenClaw と Ollama を使う：無料でプライベートなローカル LLM AI エージェント

なぜローカル LLM を実行するのか？

コスト： 初期のハードウェア投資後のローカル推論コストは電気代のみ — 専用 GPU でも1時間数セントです。

Ollama のインストール

# Linux
curl -fsSL https://ollama.com/install.sh | sh

# macOS
brew install ollama

# 確認と起動
ollama --version
ollama serve

デフォルトでは Ollama は http://localhost:11434 でリッスンします。以下で確認：

curl http://localhost:11434/api/tags

適切なモデルの選択

ティア1：最高品質（ワークステーション GPU）

モデル	パラメータ	VRAM	コンテキスト	最適な用途
Qwen 2.5 72B (Q4)	72B	48 GB	128K	クラウド品質に最も近い
Llama 3.3 70B (Q4)	70B	44 GB	128K	強力な汎用モデル
DeepSeek-R1 70B (Q4)	70B	44 GB	64K	推論重視タスク

ティア2：スイートスポット（コンシューマー GPU）

モデル	パラメータ	VRAM	コンテキスト	最適な用途
Qwen 2.5 32B (Q4)	32B	20 GB	128K	品質/速度の最良バランス
DeepSeek-R1 32B (Q4)	32B	20 GB	64K	複雑な推論
Mistral Small 24B (Q4)	24B	16 GB	128K	高速、良好なツール使用

# RTX 3090/4080/4090 向けの推奨スタートポイント
ollama pull qwen2.5:32b-instruct-q4_K_M

Q4 量子化の32B モデルは、モダンなゲーミング GPU を持つほとんどのユーザーにとってスイートスポットです^[1]。

ティア3：アクセシブル（任意の GPU または CPU）

モデル	パラメータ	VRAM	コンテキスト	最適な用途
Llama 3.1 8B (Q4)	8B	6 GB	128K	軽量タスク、高速レスポンス
Mistral 7B (Q4)	7B	5 GB	32K	シンプルな自動化
Qwen 2.5 7B (Q4)	7B	5 GB	128K	多言語タスク

コンテキスト長

OpenClaw を Ollama 用に設定

~/.openclaw/openclaw.json を編集：

{
  "providers": {
    "ollama": {
      "type": "openai-compatible",
      "baseUrl": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "models": ["qwen2.5:32b-instruct-q4_K_M"]
    }
  },
  "defaultProvider": "ollama",
  "defaultModel": "qwen2.5:32b-instruct-q4_K_M",
  "gateway": {
    "port": 3700,
    "maxConcurrentTasks": 1,
    "taskTimeout": 300
  }
}

あなた専用の AI アシスタントをデプロイ

ClawTank なら OpenClaw を簡単にデプロイ — サーバー・Docker・SSH 不要。14日間無料トライアル付き。

無料トライアルを始める

以下で確認：

openclaw status
openclaw chat "What time is it?"

ハードウェアとパフォーマンス

GPU 推論

GPU	モデルサイズ	トークン/秒	500トークンレスポンス
RTX 4090 (24 GB)	32B Q4	35--45 t/s	11--14秒
RTX 3090 (24 GB)	32B Q4	25--35 t/s	14--20秒
RTX 3060 (12 GB)	8B Q4	50--70 t/s	7--10秒
M2 Max (32 GB)	32B Q4	20--30 t/s	17--25秒

快適なエージェント使用には、20トークン/秒以上を目指してください^[2]。

CPU 推論（最終手段）

CPU	モデルサイズ	トークン/秒	500トークンレスポンス
Ryzen 9 7950X	8B Q4	12--18 t/s	28--42秒
Core i7-13700	8B Q4	10--15 t/s	33--50秒

CPU では 8B 以下のモデルに留めてください。

エージェントワークロード向けチューニング

コールドスタートの遅延を避けるためモデルをロード状態に保持：

# In /etc/systemd/system/ollama.service.d/override.conf
[Service]
Environment="OLLAMA_KEEP_ALIVE=24h"

カスタム Modelfile でコンテキストサイズと温度を明示的に設定：

cat > ~/.ollama/Modelfile-openclaw <<'EOF'
FROM qwen2.5:32b-instruct-q4_K_M
PARAMETER num_ctx 65536
PARAMETER temperature 0.3
PARAMETER repeat_penalty 1.1
EOF

ollama create openclaw-qwen -f ~/.ollama/Modelfile-openclaw

低い温度（0.3）はより一貫したエージェント動作を生みます。リピートペナルティはローカルモデルが陥りがちなループを防ぎます。

ローカルモデルの制限

ハイブリッド戦略

日常タスクにはローカル、複雑な作業にはクラウドを使用：

{
  "providers": {
    "ollama": {
      "type": "openai-compatible",
      "baseUrl": "http://localhost:11434/v1",
      "apiKey": "ollama",
      "models": ["qwen2.5:32b-instruct-q4_K_M"]
    },
    "anthropic": { "apiKey": "sk-ant-..." }
  },
  "defaultProvider": "ollama",
  "defaultModel": "qwen2.5:32b-instruct-q4_K_M",
  "routing": {
    "complex": {
      "provider": "anthropic",
      "model": "claude-sonnet-4-20250514"
    }
  }
}

メッセージごとにオーバーライド：

openclaw chat "Check if my backup ran last night"                      # local
openclaw chat --provider anthropic "Review this PR and suggest fixes"  # cloud

これにより通常、クラウド API コストが 60〜80% 削減されます。

リモート Ollama とオフライン運用

GPU マシンで Ollama を実行し、Raspberry Pi やラップトップから接続：

# GPU マシン上
OLLAMA_HOST=0.0.0.0:11434 ollama serve

# クライアントの openclaw.json 内
"baseUrl": "http://192.168.1.100:11434/v1"

完全なエアギャップ環境では、接続マシンでモデルを事前ダウンロードし、~/.ollama/ をオフラインマシンにコピー：

# 接続マシン上
ollama pull qwen2.5:32b-instruct-q4_K_M

# オフラインマシンに転送
rsync -av ~/.ollama/ user@offline-machine:~/.ollama/

このインフラの管理が向いていない場合、ClawTank がプロバイダー管理込みのホステッドインスタンスを提供しています。

ssh -L 11434:localhost:11434 user@gpu-machine -N &

パフォーマンスの監視

ローカル推論を注視してください：

# ロードされたモデルとメモリ使用量を確認
ollama ps

# リアルタイムで推論を監視
journalctl -u ollama -f

まとめ

OpenClaw と Ollama の組み合わせにより、プライベートでゼロコストの AI エージェントが得られます。実用的なパス：

Ollama をインストールしてハードウェアに合ったモデルをプル
Qwen 2.5 32B から開始（24 GB GPU）または Llama 3.1 8B（小さい GPU）
OpenClaw を設定（openai-compatible プロバイダータイプ）
ハイブリッド戦略を使用（コスト削減と必要な場面での品質確保）
コンテキスト長とキープアライブをチューニング（エージェントワークロード向け）

ローカルモデルは日常タスクの 70〜80% を十分に処理し、残りにはいつでもクラウドが使えます。

参考文献

この記事はいかがでしたか？

新しいガイドやチュートリアルの公開時にお知らせします。

OpenClawの実際のコストは？2026年料金詳細ガイド

2 min read

OpenClaw をデプロイしませんか？

Docker・SSH・DevOps 不要。1分以内でセットアップ。

無料トライアルを始める

OpenClaw と Ollama を使う：無料でプライベートなローカル LLM AI エージェント

なぜローカル LLM を実行するのか？

Ollama のインストール

適切なモデルの選択

ティア1：最高品質（ワークステーション GPU）

ティア2：スイートスポット（コンシューマー GPU）

ティア3：アクセシブル（任意の GPU または CPU）

コンテキスト長

OpenClaw を Ollama 用に設定

あなた専用の AI アシスタントをデプロイ

ハードウェアとパフォーマンス

GPU 推論

CPU 推論（最終手段）

エージェントワークロード向けチューニング

ローカルモデルの制限

ハイブリッド戦略

リモート Ollama とオフライン運用

パフォーマンスの監視

まとめ

参考文献

この記事はいかがでしたか？

関連記事

OpenClawの実際のコストは？2026年料金詳細ガイド

OpenClaw と Ollama を使う：無料でプライベートなローカル LLM AI エージェント

なぜローカル LLM を実行するのか？

Ollama のインストール

適切なモデルの選択

ティア1：最高品質（ワークステーション GPU）

ティア2：スイートスポット（コンシューマー GPU）

ティア3：アクセシブル（任意の GPU または CPU）

コンテキスト長

OpenClaw を Ollama 用に設定

あなた専用の AI アシスタントをデプロイ

ハードウェアとパフォーマンス

GPU 推論

CPU 推論（最終手段）

エージェントワークロード向けチューニング

ローカルモデルの制限

ハイブリッド戦略

リモート Ollama とオフライン運用

パフォーマンスの監視

まとめ

参考文献

この記事はいかがでしたか？

関連記事

OpenClawの実際のコストは？2026年料金詳細ガイド