Mejor VPS para Ollama en 2026

¿Quieres ejecutar LLMs como Llama, Mistral o Phi en tu propio servidor? Ollama lo hace increíblemente sencillo, pero necesitas las especificaciones correctas en tu VPS. Para una comparación más amplia de opciones de alojamiento de LLMs, consulta nuestra guía de mejores VPS para hosting de LLMs. Esto es lo que realmente funciona.

¿Qué es Ollama?

Ollama es una herramienta que te permite ejecutar modelos de lenguaje de gran tamaño de forma local con un solo comando:

ollama run llama3.2

Así de simple. Sin entornos Python, sin problemas de dependencias, sin pelearse con drivers de GPU. Gestiona automáticamente las descargas de modelos, la cuantización y la inferencia.

¿Por qué autoalojar LLMs?

Privacidad — Tus prompts nunca salen de tu servidor
Sin límites de uso — Úsalo tanto como quieras
Sin costes de API — Pago único del VPS frente al precio por token
Personalización — Ajusta, modifica y experimenta libremente
Funciona sin internet — Opera sin conexión tras la descarga del modelo

Requisitos del VPS para Ollama

Ollama puede ejecutarse en CPU o GPU. Esto es lo que necesitas:

Mínimo (solo CPU, modelos pequeños)

CPU: 4+ núcleos (se requiere soporte AVX2)
RAM: 8GB (para modelos 7B)
Almacenamiento: 20GB+ SSD (los modelos pesan entre 4-8GB cada uno)

Óptimo (aceleración GPU)

GPU: NVIDIA con 8GB+ VRAM
RAM: 16GB+ de RAM del sistema
Almacenamiento: 100GB+ NVMe

Mejor VPS para Ollama (CPU)

Ejecutar LLMs en CPU es más lento, pero funciona perfectamente para uso personal y pruebas.

1. Hetzner CPX41 (Mejor Relación Calidad-Precio en CPU)

€14,99/mes | 8 vCPU (AMD EPYC), 16GB RAM, 160GB NVMe

Los CPUs AMD EPYC de Hetzner tienen un rendimiento AVX2 excelente. Con 16GB de RAM se gestionan cómodamente los modelos 13B.

Rendimiento: ~10-15 tokens/seg con Llama 3.2 8B (Q4_K_M)

# Configuración en Hetzner
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama3.2

2. Hostinger KVM8 (Económico)

$19,99/mes | 8 vCPU, 16GB RAM, 200GB NVMe

Ligeramente más barato que Hetzner con buenas especificaciones. Los 200GB de almacenamiento son ideales para mantener varios modelos a la vez.

3. Vultr High Frequency (CPU más Rápido)

$48/mes | 4 vCPU (3GHz+), 16GB RAM, 256GB NVMe

Las velocidades de reloj más altas se traducen en mejor rendimiento en un solo hilo. Vale la pena si la latencia de respuesta es importante para ti.

Mejor VPS con GPU para Ollama

La aceleración por GPU es entre 10 y 50 veces más rápida que la CPU. Para configuraciones de inferencia de IA a nivel de producción, consulta nuestra guía dedicada. Estas son tus opciones:

1. Vultr Cloud GPU (Mejor Disponibilidad)

$90/mes | NVIDIA A16 (16GB VRAM), 6 vCPU, 16GB RAM

Vultr ofrece las instancias GPU más accesibles del mercado. La A16 soporta modelos de hasta 30B parámetros.

Rendimiento: ~50-80 tokens/seg con Llama 3.2 8B

# Verificar que se detecta la GPU
nvidia-smi

# Ollama usa la GPU automáticamente
ollama run llama3.2

2. Lambda Labs (Mejor para IA)

$0,50/hr (~$360/mes) | NVIDIA A10 (24GB VRAM)

Lambda está especializada en cargas de trabajo de IA. Ideal para desarrollo serio, aunque más costosa.

3. RunPod (GPU más Barata)

$0,20/hr | NVIDIA RTX 4090 (24GB VRAM)

El precio spot lo convierte en la opción más económica para uso intermitente. No es adecuado para hosting disponible 24/7.

4. Hetzner Dedicated GPU (Mejor Valor)

€179/mes | NVIDIA RTX 4000 (8GB VRAM), 8 núcleos, 64GB RAM

Servidor GPU dedicado, no instancias en la nube. La mejor tarifa mensual si necesitas GPU siempre disponible.

Selección de Modelos según las Especificaciones del VPS

Elige tu modelo en función de la RAM o VRAM disponible:

Modelo	Tamaño	RAM mín. (CPU)	VRAM mín. (GPU)	Velocidad
Phi-3 Mini	2,2GB	4GB	4GB	Más rápido
Llama 3.2 3B	2GB	4GB	4GB	Rápido
Llama 3.2 8B	4,7GB	8GB	8GB	Bueno
Mistral 7B	4,1GB	8GB	8GB	Bueno
Llama 3.1 8B	4,7GB	8GB	8GB	Bueno
Llama 2 13B	7,4GB	16GB	16GB	Lento
Mixtral 8x7B	26GB	32GB	24GB	Lento
Llama 3.1 70B	40GB	64GB	48GB	Muy lento

Consejo: La cuantización Q4_K_M (por defecto en Ollama) ofrece el mejor equilibrio entre calidad y tamaño.

Guía de Configuración Completa

Paso 1: Crear tu VPS

Para esta guía usaremos Hetzner CPX41 (€14,99/mes, 8 vCPU, 16GB RAM):

Regístrate en Hetzner Cloud
Crear servidor → Ubuntu 22.04 → CPX41
Añade tu clave SSH
Anota la dirección IP

Paso 2: Conectarse e Instalar Ollama

ssh root@your-server-ip

# Instalar Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Iniciar el servicio de Ollama
systemctl enable ollama
systemctl start ollama

Paso 3: Ejecutar tu Primer Modelo

# Descargar y ejecutar Llama 3.2
ollama run llama3.2

# O prueba primero con un modelo más pequeño
ollama run phi3:mini

La primera ejecución descarga el modelo (4-8GB). Después arranca de forma instantánea.

Paso 4: Exponer la API (Opcional)

Ollama ejecuta una API en el puerto 11434:

# Probar localmente
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hello!"
}'

Para exponerla al exterior (⚠️ añade autenticación — consulta nuestra guía de seguridad VPS):

# Editar el servicio de Ollama
sudo systemctl edit ollama

# Añadir:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

# Reiniciar
sudo systemctl restart ollama

Paso 5: Usar con Open WebUI

Open WebUI te ofrece una interfaz similar a ChatGPT:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Accede desde http://your-server-ip:3000

Optimización del Rendimiento

1. Usar Modelos Cuantizados

# Q4_K_M es el predeterminado y ofrece el mejor equilibrio
ollama run llama3.2:8b-instruct-q4_K_M

# Q5 para una calidad ligeramente superior
ollama run llama3.2:8b-instruct-q5_K_M

2. Aumentar la Longitud del Contexto

# Crear modelfile
cat << 'EOF' > Modelfile
FROM llama3.2
PARAMETER num_ctx 8192
EOF

ollama create llama3.2-8k -f Modelfile
ollama run llama3.2-8k

3. Habilitar Swap (respaldo para CPU)

fallocate -l 16G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. Fijar Afinidad de CPU (AMD EPYC)

taskset -c 0-7 ollama serve

Comparativa de Costes: VPS vs API

Ejecutar tu propia instancia de Ollama tiene sentido económico:

Opción	Coste Mensual	Tokens/Mes
OpenAI GPT-4	$60	~1M tokens
Claude 3.5	$45	~1M tokens
Hetzner VPS + Ollama	€15	Ilimitado
Vultr GPU + Ollama	$90	Ilimitado

Si usas más de 1-2 millones de tokens al mes, el autoalojamiento se paga solo.

Preguntas Frecuentes

¿Puedo ejecutar Ollama con 4GB de RAM?

Con dificultad. Puedes ejecutar Phi-3 Mini o Llama 3.2 1B, pero los modelos más grandes se bloquearán o usarán swap de forma intensiva.

¿Es necesaria una GPU para Ollama?

¡No! La CPU funciona bien, solo es más lenta. Con 8 vCPU se obtienen velocidades aceptables para modelos de 7-8B.

¿Cuál es el mejor modelo para programar?

DeepSeek Coder o CodeLlama. Ambos están disponibles con ollama run deepseek-coder o ollama run codellama.

¿Puedo hacer fine-tuning de modelos en un VPS?

Sí, pero necesitarás un VPS con GPU. El fine-tuning en CPU es desesperantemente lento.

¿Cómo actualizo Ollama?

curl -fsSL https://ollama.ai/install.sh | sh

El mismo comando de instalación actualiza a la última versión.

Configuración Recomendada

Caso de Uso	VPS	Coste	Modelo
Pruebas/Personal	Hetzner CPX21	€8/mes	Phi-3 Mini
Uso Diario	Hetzner CPX41	€15/mes	Llama 3.2 8B
Respuestas Rápidas	Vultr GPU	$90/mes	Llama 3.2 8B
Cargas Intensivas	Lambda A10	$360/mes	Llama 3.1 70B

Para la mayoría de usuarios, Hetzner CPX41 a €15/mes ejecutando Llama 3.2 8B es el punto óptimo. Suficientemente rápido para uso real y lo bastante económico para dejarlo funcionando 24/7.

// last updated: February 8, 2026. Disclosure: This article may contain affiliate links.

Mejor VPS para Ollama 2026: Ejecuta LLMs en tu Propio Servidor