Ejecutar OpenClaw con Ollama: Guía de Modelos Locales

Cómo ejecutar OpenClaw con Ollama gratis, con privacidad e inferencia LLM local. Cubre requisitos de hardware, modelos recomendados por nivel de GPU/RAM, Nanbeige4.1-3B para máquinas modestas, configuración completa y estrategias de fallback.

Ejecutar OpenClaw con Ollama: Guía de Modelos Locales

Llevo un tiempo usando OpenClaw con proveedores de API, y las facturas se acumulan. Incluso modelos baratos como GLM-5 y MiniMax M2.5 cuestan algo, y cada mensaje pasa por el servidor de otra persona. Así que configuré Ollama en la misma máquina y apunté OpenClaw hacia él. Cero coste por token, privacidad total, y la latencia es bastante decente si eliges el modelo adecuado para tu hardware.

Esta guía cubre cómo hacer que OpenClaw se comunique con Ollama, qué modelos funcionan bien para diferentes niveles de hardware, y qué hacer cuando tu máquina no puede con los modelos más grandes. Respuesta corta a esto último: Nanbeige4.1-3B es sorprendentemente bueno para ser un modelo de 3B.

Lo Que Necesitarás

  • OpenClaw instalado y funcionando (guía de configuración aquí)
  • Una máquina con al menos 8GB de RAM (16GB+ recomendado para buenos modelos)
  • Ollama instalado (un solo comando en Linux/macOS)
  • No se necesitan API keys — todo se ejecuta localmente

Por Qué Ejecutar Modelos Locales con OpenClaw

Tres razones para molestarse con esto en lugar de simplemente usar una API:

  • $0 por token — Ollama es gratis. Sin facturas de API, sin límites de velocidad, sin topes de uso
  • Privacidad — las conversaciones nunca salen de tu máquina. Sin logging de terceros, sin políticas de retención de datos que leer
  • Sin dependencia de internet — funciona en una red aislada, durante cortes, en un avión

La contrapartida es real: los modelos locales son más lentos y menos capaces que Claude Opus o GPT-5. Pero para las tareas cotidianas de OpenClaw como responder mensajes y ejecutar trabajos programados, un modelo local decente lo maneja bien.

Requisitos de Hardware

Esta es la parte que la mayoría de guías se equivocan. Te dicen el tamaño del modelo y se olvidan de la experiencia real. Esto es lo que he encontrado ejecutando diferentes niveles.

La VRAM Es Lo Que Importa

Los modelos se ejecutan en la VRAM de la GPU cuando está disponible. Si el modelo no cabe en la VRAM, se desborda a la RAM del sistema y se vuelve mucho más lento. La inferencia solo con CPU funciona, pero espera respuestas 5-10x más lentas.

Nivel de HardwareVRAM / RAMMejor Tamaño de ModeloVelocidad de Respuesta
Gama baja (sin GPU, 8GB RAM)8GB sistemaModelos 1B-3BLenta (5-15 tok/s)
Gama media (sin GPU, 16-32GB RAM)16-32GB sistemaModelos 7B-8BModerada (10-25 tok/s)
GPU básica (RTX 3060 12GB / M1 16GB)12-16GBModelos 7B-14BBuena (30-60 tok/s)
GPU media (RTX 4070 Ti 16GB / M2 Pro 32GB)16-32GBModelos 14B-32BBuena (40-80 tok/s)
GPU alta (RTX 4090 24GB / M4 Max 128GB)24-128GBModelos 32B-70BRápida (50-100+ tok/s)

Nota sobre Apple Silicon

Los Mac con M1/M2/M3/M4 comparten memoria unificada entre CPU y GPU, así que Ollama puede usar toda la RAM del sistema como VRAM. Un Mac Mini M4 con 32GB de RAM puede ejecutar cómodamente modelos de 14B-32B. Por eso los Mac Mini son populares para configuraciones de OpenClaw.

Configuraciones Recomendadas

Hetzner CAX31 o similar

  • 8 vCPU (ARM), 32GB RAM, sin GPU
  • Ejecuta modelos 7B-8B a velocidades usables
  • Mejor modelo: qwen3:8b o gpt-oss:20b
  • Coste: ~€15/mes en Hetzner

Suficiente para un asistente personal que gestione mensajes y tareas simples. No esperes respuestas rápidas en problemas complejos de programación.

Mac Mini M4 con 32GB RAM

  • La memoria unificada actúa como VRAM
  • Ejecuta modelos 14B-32B cómodamente
  • Mejor modelo: qwen2.5-coder:32b o qwen3:32b
  • Coste: ~$800 único

El punto ideal para la mayoría de personas. Los modelos de 32B manejan bien programación, escritura y tool calls. Esto es lo que compraría si empezara de cero.

RTX 4090 24GB o configuración dual GPU

  • 24GB de VRAM para un solo modelo 70B cuantizado
  • Mejor modelo: llama3.3:70b o deepseek-r1:70b
  • Coste: ~$2000+ único por la GPU

Los modelos de 70B se acercan a la calidad de respuesta de las API. Merece la pena si estás reemplazando un gasto de $100+/mes en API.

Cualquier máquina con 8GB RAM

  • Inferencia solo CPU, lenta pero funciona
  • Mejor modelo: nanbeige4.1-3b (ver sección más abajo)
  • Alternativa: qwen3:1.7b o llama3.2:3b

Sorprendentemente usable para conversaciones simples y tareas básicas. No es ideal para programación.


Instalar Ollama

Un solo comando:

curl -fsSL https://ollama.ai/install.sh | sh

En macOS, descarga desde ollama.ai o usa Homebrew:

brew install ollama

Verifica que está funcionando:

ollama --version
ollama list

Si ollama list funciona, estás listo.


Elegir el Modelo Correcto

No todos los modelos funcionan bien con OpenClaw. Necesitas soporte de tool calling (para que el agente pueda usar sus herramientas) e idealmente buen seguimiento de instrucciones. Aquí están los modelos que he probado, ordenados por nivel de hardware.

Mejores Modelos por Nivel

ModeloTamañoVRAM NecesariaTool CallingMejor Para
qwen2.5-coder:32b32B~20GBProgramación, tareas complejas
qwen3:32b32B~20GBGeneral + razonamiento
gpt-oss:20b20B~14GBGeneral, uso de herramientas
qwen3:8b8B~6GBPropósito general
llama3.3:70b70B~42GBMejor calidad local
qwen2.5-coder:14b14B~10GBProgramación en gama media
deepseek-r1:14b14B~10GBTareas de razonamiento
mistral-small3.2:24b24B~16GBVisión + herramientas
qwen3:4b4B~3GBGeneral económico
nanbeige4.1-3b*3B~2.5GBEconómico, ver abajo

* Subida comunitaria en Ollama — ver sección de Nanbeige más abajo.

Mis Recomendaciones

  • Mac Mini 32GB o GPU de 16GB+: qwen2.5-coder:32b como principal, qwen3:8b como fallback
  • 16GB RAM, sin GPU: qwen3:8b como principal, qwen3:4b como fallback
  • 8GB RAM: nanbeige4.1-3b o qwen3:4b

Descarga tu modelo elegido:

ollama pull qwen2.5-coder:32b
# o para hardware más modesto:
ollama pull qwen3:8b
# o para hardware mínimo:
ollama pull tomng/nanbeige4.1

Nanbeige4.1-3B: La Sorpresa Económica

Este modelo me pilló desprevenido. Nanbeige4.1-3B es un modelo de 3B parámetros de Nanbeige Lab (un equipo de Kanzhun/BOSS Zhipin) que rinde muy por encima de su categoría. Mira estos números:

BenchmarkNanbeige4.1-3BQwen3-4BQwen3-8BQwen3-32B
LiveCodeBench-V676.957.449.455.7
AIME 2026 I (matemáticas)87.481.570.475.8
GPQA (ciencia)83.865.862.068.4
Arena-Hard-v2 (alineación)73.234.926.356.0
BFCL-V4 (uso de herramientas)56.544.942.247.9

Un modelo de 3B superando a Qwen3-32B en benchmarks de programación. Obtiene 56.5 en BFCL-V4 (uso de herramientas), lo cual importa porque OpenClaw depende del tool calling. También puede manejar más de 500 rondas de invocaciones de herramientas para tareas de búsqueda profunda. No conozco otro modelo de menos de 4B que pueda hacer eso.

Cuándo Usarlo

  • Tu máquina tiene 8GB de RAM y no tiene GPU
  • Quieres un modelo de respaldo que use recursos mínimos
  • Estás ejecutándolo en un Raspberry Pi 5 o placa ARM similar
  • Necesitas un fallback de emergencia cuando tu modelo principal es demasiado lento

Cuándo NO Usarlo

  • Tienes hardware para modelos más grandes — los de 8B+ seguirán dando mejores resultados en tareas complejas
  • Necesitas escritura creativa extensa o conversación con matices
  • Estás haciendo refactorización pesada de código en múltiples archivos

Instalar Nanbeige4.1-3B

El modelo está disponible a través de subidas comunitarias en Ollama. La versión más popular con soporte de herramientas:

ollama pull tomng/nanbeige4.1

También puedes importar el GGUF desde HuggingFace si quieres una cuantización específica:

# Download the Q4_K_M quantization (smallest useful size, ~2.3GB)
# From: huggingface.co/Edge-Quant/Nanbeige4.1-3B-Q4_K_M-GGUF

# Create a Modelfile
cat > Modelfile << 'EOF'
FROM ./Nanbeige4.1-3B-Q4_K_M.gguf
PARAMETER temperature 0.6
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0
TEMPLATE """{{- if .System }}{{ .System }}{{ end }}
{{- range .Messages }}
{{- if eq .Role "user" }}
{{ .Content }}
{{- else if eq .Role "assistant" }}
{{ .Content }}
{{- end }}
{{- end }}"""
EOF

ollama create nanbeige4.1-3b -f Modelfile

Configurar OpenClaw para Ollama

Paso 1: Habilitar Ollama

Establece la variable de entorno que le dice a OpenClaw que busque Ollama:

export OLLAMA_API_KEY="ollama-local"

O añádelo permanentemente a tu entorno de OpenClaw:

# Add to ~/.openclaw/.env
echo 'OLLAMA_API_KEY=ollama-local' >> ~/.openclaw/.env

El valor no importa (Ollama no lo verifica), pero OpenClaw lo necesita configurado para habilitar el proveedor de Ollama.

Paso 2: Verificar el Descubrimiento

OpenClaw descubre automáticamente los modelos de Ollama con soporte de herramientas. Comprueba lo que encontró:

openclaw models list --local

Deberías ver tus modelos descargados listados. Si un modelo no aparece, puede que no reporte soporte de herramientas. Aún puedes usarlo añadiendo configuración explícita (ver Paso 3).

Paso 3: Establecer Tu Modelo

Para una configuración sencilla con un solo modelo:

openclaw models set ollama/qwen2.5-coder:32b

O edita tu archivo de configuración (~/.openclaw/openclaw.json):

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b"
      }
    }
  }
}

Paso 4: Configurar Fallbacks

Los fallbacks importan más con modelos locales porque un solo modelo puede ser demasiado lento o quedarse sin contexto. Configura una cadena:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b",
        "fallbacks": [
          "ollama/qwen3:8b",
          "ollama/tomng/nanbeige4.1"
        ]
      }
    }
  }
}

Si el modelo de 32B se atasca con un contexto largo, OpenClaw pasa al de 8B, y luego a Nanbeige.

Ejemplo de Configuración Completa (Hardware de Gama Media)

Aquí tienes una configuración completa para un Mac Mini de 32GB:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b",
        "fallbacks": ["ollama/qwen3:8b"]
      },
      "imageModel": {
        "primary": "ollama/mistral-small3.2:24b"
      }
    }
  }
}

Ejemplo de Configuración Completa (Hardware de Gama Baja)

Para una máquina con 8GB de RAM o Raspberry Pi:

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/tomng/nanbeige4.1",
        "fallbacks": ["ollama/qwen3:1.7b"]
      }
    }
  }
}

Configuración Explícita del Proveedor (Ollama Remoto)

Si Ollama se ejecuta en una máquina diferente (por ejemplo, un servidor GPU en tu LAN), necesitas configuración explícita en lugar del descubrimiento automático:

{
  "models": {
    "providers": {
      "ollama": {
        "baseUrl": "http://192.168.1.50:11434",
        "apiKey": "ollama-local",
        "api": "ollama",
        "models": [
          {
            "id": "qwen2.5-coder:32b",
            "name": "Qwen 2.5 Coder 32B",
            "reasoning": false,
            "input": ["text"],
            "cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
            "contextWindow": 32768,
            "maxTokens": 8192
          }
        ]
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b"
      }
    }
  }
}

Recordatorio de Seguridad

Si estás exponiendo Ollama a través de la red, asegúrate de que sea en una red de confianza (Tailscale, LAN detrás de firewall). Ollama no tiene autenticación integrada. Consulta la guía de seguridad de OpenClaw para proteger tu configuración.


Configuración Híbrida: Local + API como Fallback

La configuración que realmente recomiendo es híbrida. Modelo local como principal, API económica como fallback para cuando el modelo local no da abasto. Obtienes privacidad y coste cero para el 90% de los mensajes, y la calidad de la API está ahí cuando la necesitas.

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen2.5-coder:32b",
        "fallbacks": [
          "ollama/qwen3:8b",
          "zai/glm-5"
        ]
      }
    }
  }
}

Con esta configuración, OpenClaw prueba primero el modelo local de 32B. Si el contexto es demasiado largo o el modelo da error, pasa al de 8B local. Si ese también falla, recurre a la API de GLM-5 (que es barata). Puedes configurar GLM-5 o MiniMax M2.5 como tu fallback de API siguiendo la guía de mejores modelos open source.


Cambiar de Modelo Sobre la Marcha

No tienes que reiniciar OpenClaw para cambiar de modelo. Usa el comando /model en el chat:

/model                        # Show available models
/model list                   # Full list with providers
/model ollama/qwen3:8b        # Switch to a different model
/model status                 # Check current model + auth

Útil para probar: descarga un nuevo modelo con ollama pull, y aparece automáticamente en /model list (con el descubrimiento automático habilitado).


Ajuste de Rendimiento

Ventana de Contexto

Ollama reporta la ventana de contexto desde los metadatos del modelo. Puedes sobreescribirla en la configuración explícita:

{
  "models": {
    "providers": {
      "ollama": {
        "models": [{
          "id": "qwen2.5-coder:32b",
          "contextWindow": 65536,
          "maxTokens": 16384
        }]
      }
    }
  }
}

Las ventanas de contexto más grandes usan más VRAM. Si estás alcanzando los límites de memoria, reduce contextWindow.

Ejecutar Múltiples Modelos

Ollama puede mantener múltiples modelos cargados si tienes suficiente VRAM. Configura OLLAMA_NUM_PARALLEL para controlar la concurrencia:

OLLAMA_NUM_PARALLEL=2 ollama serve

Con suficiente VRAM, puedes ejecutar un modelo de programación y uno general simultáneamente, alternando entre ellos con /model en OpenClaw.

Capas de GPU

Si tienes una GPU pero no suficiente VRAM para el modelo completo, Ollama descarga automáticamente algunas capas a la CPU. Puedes controlar esto:

OLLAMA_GPU_LAYERS=35 ollama serve

Más capas en GPU = más rápido pero más VRAM. Experimenta para encontrar tu punto ideal.


Solución de Problemas

Problemas Comunes

El modelo no aparece en openclaw models list

El descubrimiento automático de OpenClaw solo muestra modelos con soporte de herramientas. Descarga un modelo compatible con herramientas o defínelo explícitamente en models.providers.ollama. Verifica con:

ollama list
curl http://localhost:11434/api/tags

Las respuestas son extremadamente lentas

Tu modelo probablemente se está ejecutando en CPU. Comprueba si el modelo cabe en tu VRAM/RAM disponible. Soluciones:

  • Cambia a un modelo más pequeño (qwen3:8b en lugar de qwen3:32b)
  • En Mac: cierra otras aplicaciones para liberar memoria unificada
  • En Linux con GPU: comprueba nvidia-smi para ver el uso de VRAM

Errores de “Connection refused”

Ollama no está ejecutándose. Inícialo:

ollama serve

O en macOS, abre la aplicación Ollama. Verifica que la API es accesible:

curl http://localhost:11434/api/tags

Las tool calls fallan o son ignoradas

Puede que el modelo no soporte bien el tool calling. Cambia a un modelo que maneje bien las herramientas: qwen2.5-coder, qwen3, gpt-oss, o llama3.3. Evita modelos antiguos como llama2 o codellama para OpenClaw.

Crashes por falta de memoria

El modelo es demasiado grande. Opciones:

  • Descarga una cuantización más pequeña: ollama pull qwen3:8b-q4_0
  • Cambia a un modelo más pequeño
  • Añade más RAM/swap (no es ideal pero funciona)

Nanbeige4.1-3B no encontrado

Es una subida comunitaria, no está en la biblioteca oficial. Descárgalo con el namespace:

ollama pull tomng/nanbeige4.1

Consideraciones de Seguridad

Ejecutar modelos localmente es inherentemente más privado que las llamadas a API, pero no te saltes lo básico:

  • Ollama no tiene autenticación: cualquiera en tu red que pueda alcanzar el puerto 11434 puede usar tus modelos. Vincúlalo a localhost o usa un firewall.
  • Descargas de modelos: Ollama descarga modelos desde ollama.com. Si te preocupa la seguridad, verifica los checksums de los modelos o usa instalaciones sin conexión.
  • Seguridad de OpenClaw: los modelos locales no cambian el modelo de amenazas de OpenClaw. Sigue la guía de hardening de seguridad para la configuración del gateway, modo sandbox y revisión de skills.

Guías Relacionadas


Preguntas Frecuentes

¿Puedo ejecutar OpenClaw completamente offline con Ollama?

Sí, una vez que los modelos estén descargados y OpenClaw esté instalado. No se necesita internet para la inferencia. No tendrás búsqueda web ni integraciones de canales (Telegram, WhatsApp), pero la CLI y las sesiones locales funcionan perfectamente.

¿Qué modelo ofrece la mejor calidad por dólar?

No hay dólares involucrados — Ollama es gratis. La pregunta es calidad por hardware. En un Mac Mini de 32GB, qwen2.5-coder:32b da los mejores resultados que he visto. Con 8GB de RAM, nanbeige4.1-3b es el mejor equilibrio entre velocidad y capacidad.

¿Cómo se compara Nanbeige4.1-3B con modelos de API como GLM-5?

GLM-5 sigue siendo mejor para tareas complejas, especialmente programación en múltiples pasos. Nanbeige4.1-3B es competitivo en benchmarks, pero el uso real de OpenClaw implica contextos largos y conversaciones de múltiples turnos donde los modelos más grandes tienen ventaja. Usa Nanbeige para tareas rápidas y mensajes, modelos de API para lo pesado.

¿Puedo usar Ollama y proveedores de API al mismo tiempo?

Sí, y lo recomiendo. Configura un modelo de Ollama como principal y un modelo de API económico como fallback. OpenClaw gestiona el cambio automáticamente cuando un modelo falla o no puede manejar el contexto.

¿Funciona el tool calling con todos los modelos de Ollama?

No. El descubrimiento automático de OpenClaw solo muestra modelos que reportan soporte de herramientas. Los modelos más antiguos y algunos más pequeños no lo soportan. Los modelos listados en esta guía todos soportan tool calling. Puedes verificarlo con ollama show <modelo> y buscar tools en las capacidades.

¿Qué hay de ejecutar Ollama en un Raspberry Pi?

Un Raspberry Pi 5 con 8GB de RAM puede ejecutar modelos de 1B-3B. Nanbeige4.1-3B o qwen3:1.7b son tus mejores opciones. Las respuestas serán lentas (2-5 tokens/segundo) pero funcionales para tareas simples. No esperes que maneje preguntas de programación.

¿Es vLLM mejor que Ollama para OpenClaw?

vLLM ofrece mejor throughput en configuraciones multi-GPU y cargas de trabajo en producción. Ollama es más sencillo de configurar y mejor para escenarios de un solo usuario. Para una instancia personal de OpenClaw, Ollama es la elección correcta. Si estás ejecutando múltiples agentes o necesitas inferencia concurrente, considera vLLM.

¿Cuánta RAM necesito realmente para el modelo X?

Fórmula aproximada: parámetros del modelo × 0.6GB para cuantización Q4. Así que un modelo de 7B necesita ~4.2GB, uno de 14B necesita ~8.4GB, uno de 32B necesita ~19.2GB. Añade 2-4GB de margen para el sistema y la sobrecarga de Ollama. Estos son mínimos — más RAM significa ventanas de contexto más grandes.

Los modelos locales con Ollama no van a reemplazar a Claude Opus para trabajo complejo. Pero cubren el 80-90% de lo que uso OpenClaw: responder mensajes, ejecutar cron jobs, búsquedas, automatizaciones. La configuración híbrida (local como principal + API como fallback) significa privacidad y coste cero la mayor parte del tiempo, con calidad de API cuando realmente la necesitas.

Empieza con el modelo que se ajuste a tu hardware. Si tienes un Mac Mini, ve directo a qwen2.5-coder:32b. Si estás en un VPS económico con 8GB de RAM, descarga Nanbeige4.1-3B y sorpréndete.

Para el resto del stack de OpenClaw: guía de configuración, recomendaciones de modelos de API, búsqueda web gratuita, hardening de seguridad, dashboards y plataformas alternativas.