Ejecutar OpenClaw con Ollama: Guía de Modelos Locales
Cómo ejecutar OpenClaw con Ollama gratis, con privacidad e inferencia LLM local. Cubre requisitos de hardware, modelos recomendados por nivel de GPU/RAM, Nanbeige4.1-3B para máquinas modestas, configuración completa y estrategias de fallback.
Llevo un tiempo usando OpenClaw con proveedores de API, y las facturas se acumulan. Incluso modelos baratos como GLM-5 y MiniMax M2.5 cuestan algo, y cada mensaje pasa por el servidor de otra persona. Así que configuré Ollama en la misma máquina y apunté OpenClaw hacia él. Cero coste por token, privacidad total, y la latencia es bastante decente si eliges el modelo adecuado para tu hardware.
Esta guía cubre cómo hacer que OpenClaw se comunique con Ollama, qué modelos funcionan bien para diferentes niveles de hardware, y qué hacer cuando tu máquina no puede con los modelos más grandes. Respuesta corta a esto último: Nanbeige4.1-3B es sorprendentemente bueno para ser un modelo de 3B.
Lo Que Necesitarás
- OpenClaw instalado y funcionando (guía de configuración aquí)
- Una máquina con al menos 8GB de RAM (16GB+ recomendado para buenos modelos)
- Ollama instalado (un solo comando en Linux/macOS)
- No se necesitan API keys — todo se ejecuta localmente
Por Qué Ejecutar Modelos Locales con OpenClaw
Tres razones para molestarse con esto en lugar de simplemente usar una API:
- $0 por token — Ollama es gratis. Sin facturas de API, sin límites de velocidad, sin topes de uso
- Privacidad — las conversaciones nunca salen de tu máquina. Sin logging de terceros, sin políticas de retención de datos que leer
- Sin dependencia de internet — funciona en una red aislada, durante cortes, en un avión
La contrapartida es real: los modelos locales son más lentos y menos capaces que Claude Opus o GPT-5. Pero para las tareas cotidianas de OpenClaw como responder mensajes y ejecutar trabajos programados, un modelo local decente lo maneja bien.
Requisitos de Hardware
Esta es la parte que la mayoría de guías se equivocan. Te dicen el tamaño del modelo y se olvidan de la experiencia real. Esto es lo que he encontrado ejecutando diferentes niveles.
La VRAM Es Lo Que Importa
Los modelos se ejecutan en la VRAM de la GPU cuando está disponible. Si el modelo no cabe en la VRAM, se desborda a la RAM del sistema y se vuelve mucho más lento. La inferencia solo con CPU funciona, pero espera respuestas 5-10x más lentas.
| Nivel de Hardware | VRAM / RAM | Mejor Tamaño de Modelo | Velocidad de Respuesta |
|---|---|---|---|
| Gama baja (sin GPU, 8GB RAM) | 8GB sistema | Modelos 1B-3B | Lenta (5-15 tok/s) |
| Gama media (sin GPU, 16-32GB RAM) | 16-32GB sistema | Modelos 7B-8B | Moderada (10-25 tok/s) |
| GPU básica (RTX 3060 12GB / M1 16GB) | 12-16GB | Modelos 7B-14B | Buena (30-60 tok/s) |
| GPU media (RTX 4070 Ti 16GB / M2 Pro 32GB) | 16-32GB | Modelos 14B-32B | Buena (40-80 tok/s) |
| GPU alta (RTX 4090 24GB / M4 Max 128GB) | 24-128GB | Modelos 32B-70B | Rápida (50-100+ tok/s) |
Nota sobre Apple Silicon
Los Mac con M1/M2/M3/M4 comparten memoria unificada entre CPU y GPU, así que Ollama puede usar toda la RAM del sistema como VRAM. Un Mac Mini M4 con 32GB de RAM puede ejecutar cómodamente modelos de 14B-32B. Por eso los Mac Mini son populares para configuraciones de OpenClaw.
Configuraciones Recomendadas
Hetzner CAX31 o similar
- 8 vCPU (ARM), 32GB RAM, sin GPU
- Ejecuta modelos 7B-8B a velocidades usables
- Mejor modelo:
qwen3:8bogpt-oss:20b - Coste: ~€15/mes en Hetzner
Suficiente para un asistente personal que gestione mensajes y tareas simples. No esperes respuestas rápidas en problemas complejos de programación.
Mac Mini M4 con 32GB RAM
- La memoria unificada actúa como VRAM
- Ejecuta modelos 14B-32B cómodamente
- Mejor modelo:
qwen2.5-coder:32boqwen3:32b - Coste: ~$800 único
El punto ideal para la mayoría de personas. Los modelos de 32B manejan bien programación, escritura y tool calls. Esto es lo que compraría si empezara de cero.
RTX 4090 24GB o configuración dual GPU
- 24GB de VRAM para un solo modelo 70B cuantizado
- Mejor modelo:
llama3.3:70bodeepseek-r1:70b - Coste: ~$2000+ único por la GPU
Los modelos de 70B se acercan a la calidad de respuesta de las API. Merece la pena si estás reemplazando un gasto de $100+/mes en API.
Cualquier máquina con 8GB RAM
- Inferencia solo CPU, lenta pero funciona
- Mejor modelo:
nanbeige4.1-3b(ver sección más abajo) - Alternativa:
qwen3:1.7bollama3.2:3b
Sorprendentemente usable para conversaciones simples y tareas básicas. No es ideal para programación.
Instalar Ollama
Un solo comando:
curl -fsSL https://ollama.ai/install.sh | sh
En macOS, descarga desde ollama.ai o usa Homebrew:
brew install ollama
Verifica que está funcionando:
ollama --version
ollama list
Si ollama list funciona, estás listo.
Elegir el Modelo Correcto
No todos los modelos funcionan bien con OpenClaw. Necesitas soporte de tool calling (para que el agente pueda usar sus herramientas) e idealmente buen seguimiento de instrucciones. Aquí están los modelos que he probado, ordenados por nivel de hardware.
Mejores Modelos por Nivel
| Modelo | Tamaño | VRAM Necesaria | Tool Calling | Mejor Para |
|---|---|---|---|---|
qwen2.5-coder:32b | 32B | ~20GB | Sí | Programación, tareas complejas |
qwen3:32b | 32B | ~20GB | Sí | General + razonamiento |
gpt-oss:20b | 20B | ~14GB | Sí | General, uso de herramientas |
qwen3:8b | 8B | ~6GB | Sí | Propósito general |
llama3.3:70b | 70B | ~42GB | Sí | Mejor calidad local |
qwen2.5-coder:14b | 14B | ~10GB | Sí | Programación en gama media |
deepseek-r1:14b | 14B | ~10GB | Sí | Tareas de razonamiento |
mistral-small3.2:24b | 24B | ~16GB | Sí | Visión + herramientas |
qwen3:4b | 4B | ~3GB | Sí | General económico |
nanbeige4.1-3b* | 3B | ~2.5GB | Sí | Económico, ver abajo |
* Subida comunitaria en Ollama — ver sección de Nanbeige más abajo.
Mis Recomendaciones
- Mac Mini 32GB o GPU de 16GB+:
qwen2.5-coder:32bcomo principal,qwen3:8bcomo fallback - 16GB RAM, sin GPU:
qwen3:8bcomo principal,qwen3:4bcomo fallback - 8GB RAM:
nanbeige4.1-3boqwen3:4b
Descarga tu modelo elegido:
ollama pull qwen2.5-coder:32b
# o para hardware más modesto:
ollama pull qwen3:8b
# o para hardware mínimo:
ollama pull tomng/nanbeige4.1
Nanbeige4.1-3B: La Sorpresa Económica
Este modelo me pilló desprevenido. Nanbeige4.1-3B es un modelo de 3B parámetros de Nanbeige Lab (un equipo de Kanzhun/BOSS Zhipin) que rinde muy por encima de su categoría. Mira estos números:
| Benchmark | Nanbeige4.1-3B | Qwen3-4B | Qwen3-8B | Qwen3-32B |
|---|---|---|---|---|
| LiveCodeBench-V6 | 76.9 | 57.4 | 49.4 | 55.7 |
| AIME 2026 I (matemáticas) | 87.4 | 81.5 | 70.4 | 75.8 |
| GPQA (ciencia) | 83.8 | 65.8 | 62.0 | 68.4 |
| Arena-Hard-v2 (alineación) | 73.2 | 34.9 | 26.3 | 56.0 |
| BFCL-V4 (uso de herramientas) | 56.5 | 44.9 | 42.2 | 47.9 |
Un modelo de 3B superando a Qwen3-32B en benchmarks de programación. Obtiene 56.5 en BFCL-V4 (uso de herramientas), lo cual importa porque OpenClaw depende del tool calling. También puede manejar más de 500 rondas de invocaciones de herramientas para tareas de búsqueda profunda. No conozco otro modelo de menos de 4B que pueda hacer eso.
Cuándo Usarlo
- Tu máquina tiene 8GB de RAM y no tiene GPU
- Quieres un modelo de respaldo que use recursos mínimos
- Estás ejecutándolo en un Raspberry Pi 5 o placa ARM similar
- Necesitas un fallback de emergencia cuando tu modelo principal es demasiado lento
Cuándo NO Usarlo
- Tienes hardware para modelos más grandes — los de 8B+ seguirán dando mejores resultados en tareas complejas
- Necesitas escritura creativa extensa o conversación con matices
- Estás haciendo refactorización pesada de código en múltiples archivos
Instalar Nanbeige4.1-3B
El modelo está disponible a través de subidas comunitarias en Ollama. La versión más popular con soporte de herramientas:
ollama pull tomng/nanbeige4.1
También puedes importar el GGUF desde HuggingFace si quieres una cuantización específica:
# Download the Q4_K_M quantization (smallest useful size, ~2.3GB)
# From: huggingface.co/Edge-Quant/Nanbeige4.1-3B-Q4_K_M-GGUF
# Create a Modelfile
cat > Modelfile << 'EOF'
FROM ./Nanbeige4.1-3B-Q4_K_M.gguf
PARAMETER temperature 0.6
PARAMETER top_p 0.95
PARAMETER repeat_penalty 1.0
TEMPLATE """{{- if .System }}{{ .System }}{{ end }}
{{- range .Messages }}
{{- if eq .Role "user" }}
{{ .Content }}
{{- else if eq .Role "assistant" }}
{{ .Content }}
{{- end }}
{{- end }}"""
EOF
ollama create nanbeige4.1-3b -f Modelfile
Configurar OpenClaw para Ollama
Paso 1: Habilitar Ollama
Establece la variable de entorno que le dice a OpenClaw que busque Ollama:
export OLLAMA_API_KEY="ollama-local"
O añádelo permanentemente a tu entorno de OpenClaw:
# Add to ~/.openclaw/.env
echo 'OLLAMA_API_KEY=ollama-local' >> ~/.openclaw/.env
El valor no importa (Ollama no lo verifica), pero OpenClaw lo necesita configurado para habilitar el proveedor de Ollama.
Paso 2: Verificar el Descubrimiento
OpenClaw descubre automáticamente los modelos de Ollama con soporte de herramientas. Comprueba lo que encontró:
openclaw models list --local
Deberías ver tus modelos descargados listados. Si un modelo no aparece, puede que no reporte soporte de herramientas. Aún puedes usarlo añadiendo configuración explícita (ver Paso 3).
Paso 3: Establecer Tu Modelo
Para una configuración sencilla con un solo modelo:
openclaw models set ollama/qwen2.5-coder:32b
O edita tu archivo de configuración (~/.openclaw/openclaw.json):
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen2.5-coder:32b"
}
}
}
}
Paso 4: Configurar Fallbacks
Los fallbacks importan más con modelos locales porque un solo modelo puede ser demasiado lento o quedarse sin contexto. Configura una cadena:
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen2.5-coder:32b",
"fallbacks": [
"ollama/qwen3:8b",
"ollama/tomng/nanbeige4.1"
]
}
}
}
}
Si el modelo de 32B se atasca con un contexto largo, OpenClaw pasa al de 8B, y luego a Nanbeige.
Ejemplo de Configuración Completa (Hardware de Gama Media)
Aquí tienes una configuración completa para un Mac Mini de 32GB:
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen2.5-coder:32b",
"fallbacks": ["ollama/qwen3:8b"]
},
"imageModel": {
"primary": "ollama/mistral-small3.2:24b"
}
}
}
}
Ejemplo de Configuración Completa (Hardware de Gama Baja)
Para una máquina con 8GB de RAM o Raspberry Pi:
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/tomng/nanbeige4.1",
"fallbacks": ["ollama/qwen3:1.7b"]
}
}
}
}
Configuración Explícita del Proveedor (Ollama Remoto)
Si Ollama se ejecuta en una máquina diferente (por ejemplo, un servidor GPU en tu LAN), necesitas configuración explícita en lugar del descubrimiento automático:
{
"models": {
"providers": {
"ollama": {
"baseUrl": "http://192.168.1.50:11434",
"apiKey": "ollama-local",
"api": "ollama",
"models": [
{
"id": "qwen2.5-coder:32b",
"name": "Qwen 2.5 Coder 32B",
"reasoning": false,
"input": ["text"],
"cost": { "input": 0, "output": 0, "cacheRead": 0, "cacheWrite": 0 },
"contextWindow": 32768,
"maxTokens": 8192
}
]
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen2.5-coder:32b"
}
}
}
}
Recordatorio de Seguridad
Si estás exponiendo Ollama a través de la red, asegúrate de que sea en una red de confianza (Tailscale, LAN detrás de firewall). Ollama no tiene autenticación integrada. Consulta la guía de seguridad de OpenClaw para proteger tu configuración.
Configuración Híbrida: Local + API como Fallback
La configuración que realmente recomiendo es híbrida. Modelo local como principal, API económica como fallback para cuando el modelo local no da abasto. Obtienes privacidad y coste cero para el 90% de los mensajes, y la calidad de la API está ahí cuando la necesitas.
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen2.5-coder:32b",
"fallbacks": [
"ollama/qwen3:8b",
"zai/glm-5"
]
}
}
}
}
Con esta configuración, OpenClaw prueba primero el modelo local de 32B. Si el contexto es demasiado largo o el modelo da error, pasa al de 8B local. Si ese también falla, recurre a la API de GLM-5 (que es barata). Puedes configurar GLM-5 o MiniMax M2.5 como tu fallback de API siguiendo la guía de mejores modelos open source.
Cambiar de Modelo Sobre la Marcha
No tienes que reiniciar OpenClaw para cambiar de modelo. Usa el comando /model en el chat:
/model # Show available models
/model list # Full list with providers
/model ollama/qwen3:8b # Switch to a different model
/model status # Check current model + auth
Útil para probar: descarga un nuevo modelo con ollama pull, y aparece automáticamente en /model list (con el descubrimiento automático habilitado).
Ajuste de Rendimiento
Ventana de Contexto
Ollama reporta la ventana de contexto desde los metadatos del modelo. Puedes sobreescribirla en la configuración explícita:
{
"models": {
"providers": {
"ollama": {
"models": [{
"id": "qwen2.5-coder:32b",
"contextWindow": 65536,
"maxTokens": 16384
}]
}
}
}
}
Las ventanas de contexto más grandes usan más VRAM. Si estás alcanzando los límites de memoria, reduce contextWindow.
Ejecutar Múltiples Modelos
Ollama puede mantener múltiples modelos cargados si tienes suficiente VRAM. Configura OLLAMA_NUM_PARALLEL para controlar la concurrencia:
OLLAMA_NUM_PARALLEL=2 ollama serve
Con suficiente VRAM, puedes ejecutar un modelo de programación y uno general simultáneamente, alternando entre ellos con /model en OpenClaw.
Capas de GPU
Si tienes una GPU pero no suficiente VRAM para el modelo completo, Ollama descarga automáticamente algunas capas a la CPU. Puedes controlar esto:
OLLAMA_GPU_LAYERS=35 ollama serve
Más capas en GPU = más rápido pero más VRAM. Experimenta para encontrar tu punto ideal.
Solución de Problemas
Problemas Comunes
El modelo no aparece en openclaw models list
El descubrimiento automático de OpenClaw solo muestra modelos con soporte de herramientas. Descarga un modelo compatible con herramientas o defínelo explícitamente en models.providers.ollama. Verifica con:
ollama list
curl http://localhost:11434/api/tagsLas respuestas son extremadamente lentas
Tu modelo probablemente se está ejecutando en CPU. Comprueba si el modelo cabe en tu VRAM/RAM disponible. Soluciones:
- Cambia a un modelo más pequeño (
qwen3:8ben lugar deqwen3:32b) - En Mac: cierra otras aplicaciones para liberar memoria unificada
- En Linux con GPU: comprueba
nvidia-smipara ver el uso de VRAM
Errores de “Connection refused”
Ollama no está ejecutándose. Inícialo:
ollama serveO en macOS, abre la aplicación Ollama. Verifica que la API es accesible:
curl http://localhost:11434/api/tagsLas tool calls fallan o son ignoradas
Puede que el modelo no soporte bien el tool calling. Cambia a un modelo que maneje bien las herramientas: qwen2.5-coder, qwen3, gpt-oss, o llama3.3. Evita modelos antiguos como llama2 o codellama para OpenClaw.
Crashes por falta de memoria
El modelo es demasiado grande. Opciones:
- Descarga una cuantización más pequeña:
ollama pull qwen3:8b-q4_0 - Cambia a un modelo más pequeño
- Añade más RAM/swap (no es ideal pero funciona)
Nanbeige4.1-3B no encontrado
Es una subida comunitaria, no está en la biblioteca oficial. Descárgalo con el namespace:
ollama pull tomng/nanbeige4.1 Consideraciones de Seguridad
Ejecutar modelos localmente es inherentemente más privado que las llamadas a API, pero no te saltes lo básico:
- Ollama no tiene autenticación: cualquiera en tu red que pueda alcanzar el puerto 11434 puede usar tus modelos. Vincúlalo a localhost o usa un firewall.
- Descargas de modelos: Ollama descarga modelos desde ollama.com. Si te preocupa la seguridad, verifica los checksums de los modelos o usa instalaciones sin conexión.
- Seguridad de OpenClaw: los modelos locales no cambian el modelo de amenazas de OpenClaw. Sigue la guía de hardening de seguridad para la configuración del gateway, modo sandbox y revisión de skills.
Guías Relacionadas
- Guía de Configuración de OpenClaw — instalación completa en VPS de Hetzner o Mac Mini
- Mejores Modelos Open Source para OpenClaw — modelos basados en API (GLM-5, MiniMax M2.5) para cuando lo local no es suficiente
- Búsqueda DuckDuckGo para OpenClaw — búsqueda web gratuita que combina bien con modelos locales
- Guía de Seguridad de OpenClaw — proteger tu instancia, especialmente relevante cuando se ejecuta en una LAN
- Mejores Dashboards de OpenClaw — dashboards que muestran uso de modelos y coste (útil para rastrear el uso local a $0 vs gasto en fallback de API)
- Alternativas a OpenClaw — otras plataformas con su propio soporte de modelos locales
Preguntas Frecuentes
¿Puedo ejecutar OpenClaw completamente offline con Ollama?
Sí, una vez que los modelos estén descargados y OpenClaw esté instalado. No se necesita internet para la inferencia. No tendrás búsqueda web ni integraciones de canales (Telegram, WhatsApp), pero la CLI y las sesiones locales funcionan perfectamente.
¿Qué modelo ofrece la mejor calidad por dólar?
No hay dólares involucrados — Ollama es gratis. La pregunta es calidad por hardware. En un Mac Mini de 32GB, qwen2.5-coder:32b da los mejores resultados que he visto. Con 8GB de RAM, nanbeige4.1-3b es el mejor equilibrio entre velocidad y capacidad.
¿Cómo se compara Nanbeige4.1-3B con modelos de API como GLM-5?
GLM-5 sigue siendo mejor para tareas complejas, especialmente programación en múltiples pasos. Nanbeige4.1-3B es competitivo en benchmarks, pero el uso real de OpenClaw implica contextos largos y conversaciones de múltiples turnos donde los modelos más grandes tienen ventaja. Usa Nanbeige para tareas rápidas y mensajes, modelos de API para lo pesado.
¿Puedo usar Ollama y proveedores de API al mismo tiempo?
Sí, y lo recomiendo. Configura un modelo de Ollama como principal y un modelo de API económico como fallback. OpenClaw gestiona el cambio automáticamente cuando un modelo falla o no puede manejar el contexto.
¿Funciona el tool calling con todos los modelos de Ollama?
No. El descubrimiento automático de OpenClaw solo muestra modelos que reportan soporte de herramientas. Los modelos más antiguos y algunos más pequeños no lo soportan. Los modelos listados en esta guía todos soportan tool calling. Puedes verificarlo con ollama show <modelo> y buscar tools en las capacidades.
¿Qué hay de ejecutar Ollama en un Raspberry Pi?
Un Raspberry Pi 5 con 8GB de RAM puede ejecutar modelos de 1B-3B. Nanbeige4.1-3B o qwen3:1.7b son tus mejores opciones. Las respuestas serán lentas (2-5 tokens/segundo) pero funcionales para tareas simples. No esperes que maneje preguntas de programación.
¿Es vLLM mejor que Ollama para OpenClaw?
vLLM ofrece mejor throughput en configuraciones multi-GPU y cargas de trabajo en producción. Ollama es más sencillo de configurar y mejor para escenarios de un solo usuario. Para una instancia personal de OpenClaw, Ollama es la elección correcta. Si estás ejecutando múltiples agentes o necesitas inferencia concurrente, considera vLLM.
¿Cuánta RAM necesito realmente para el modelo X?
Fórmula aproximada: parámetros del modelo × 0.6GB para cuantización Q4. Así que un modelo de 7B necesita ~4.2GB, uno de 14B necesita ~8.4GB, uno de 32B necesita ~19.2GB. Añade 2-4GB de margen para el sistema y la sobrecarga de Ollama. Estos son mínimos — más RAM significa ventanas de contexto más grandes.
Los modelos locales con Ollama no van a reemplazar a Claude Opus para trabajo complejo. Pero cubren el 80-90% de lo que uso OpenClaw: responder mensajes, ejecutar cron jobs, búsquedas, automatizaciones. La configuración híbrida (local como principal + API como fallback) significa privacidad y coste cero la mayor parte del tiempo, con calidad de API cuando realmente la necesitas.
Empieza con el modelo que se ajuste a tu hardware. Si tienes un Mac Mini, ve directo a qwen2.5-coder:32b. Si estás en un VPS económico con 8GB de RAM, descarga Nanbeige4.1-3B y sorpréndete.
Para el resto del stack de OpenClaw: guía de configuración, recomendaciones de modelos de API, búsqueda web gratuita, hardening de seguridad, dashboards y plataformas alternativas.