Mejor VPS para Whisper en 2026

¿Quieres transcribir audio sin enviarlo a APIs de terceros? Whisper de OpenAI se ejecuta completamente en tu propio servidor, ofreciéndote voz a texto ilimitada y privada. Aquí están las especificaciones de VPS que realmente necesitas.

¿Qué es Whisper?

Whisper es el modelo de reconocimiento de voz de código abierto de OpenAI. Se encarga de:

Transcripción — Audio a texto en más de 99 idiomas
Traducción — Traduce cualquier idioma al inglés
Generación de subtítulos — Salida con marcas de tiempo para vídeo
Diarización de hablantes — Con extensiones como WhisperX

whisper audio.mp3 --model medium --language en

¿Por qué autoalojar Whisper?

Privacidad — El audio nunca sale de tu servidor
Sin costes por minuto — OpenAI cobra $0.006/min, se acumula rápido
Sin límites de tamaño de archivo — Procesa grabaciones de horas de duración
Procesamiento por lotes — Transcribe cientos de archivos de noche
Personalización — Usa faster-whisper, WhisperX o modelos ajustados

Requisitos de VPS para Whisper

Las necesidades de recursos de Whisper dependen del tamaño del modelo y de si usas aceleración GPU.

Mínimo (solo CPU, modelo pequeño)

CPU: 4+ núcleos
RAM: 4 GB
Almacenamiento: 10 GB SSD

Óptimo (aceleración GPU)

GPU: NVIDIA con 6 GB+ VRAM
RAM: 8 GB+ RAM del sistema
Almacenamiento: 30 GB+ NVMe

Tamaños de modelos de Whisper

Elige según los recursos disponibles:

Modelo	Tamaño	VRAM mínima	RAM mínima (CPU)	Velocidad relativa	Precisión
tiny	75 MB	1 GB	2 GB	32x	Básica
base	142 MB	1 GB	2 GB	16x	Buena
small	466 MB	2 GB	4 GB	6x	Mejor
medium	1,5 GB	5 GB	8 GB	2x	Excelente
large-v3	3,1 GB	10 GB	16 GB	1x	La mejor

Consejo: El modelo medium es el punto ideal — más del 95% de precisión con una velocidad razonable. Usa large-v3 solo cuando la precisión sea crítica.

Mejor VPS para Whisper (CPU)

La transcripción por CPU funciona bien para trabajos por lotes y uso ocasional. Espera aproximadamente velocidad en tiempo real con el modelo small (1 hora de audio ≈ 1 hora de procesamiento).

1. Hetzner CPX41 (Mejor relación calidad-precio)

€14,99/mes | 8 vCPU (AMD EPYC), 16 GB RAM, 160 GB NVMe

Maneja el modelo medium cómodamente. Los procesadores AMD EPYC tienen un buen rendimiento AVX2 del que Whisper depende en gran medida.

Rendimiento: ~1x tiempo real con el modelo medium, ~3x con small

2. Hostinger KVM8 (Opción económica)

$19,99/mes | 8 vCPU, 16 GB RAM, 200 GB NVMe

Buenas especificaciones a un precio justo. Los 200 GB de almacenamiento son útiles si procesas muchos archivos de audio.

3. Contabo VPS XL (Más RAM)

€13,99/mes | 8 vCPU, 30 GB RAM, 400 GB SSD

Si quieres ejecutar large-v3 en CPU, necesitas 16 GB+ de RAM. La generosa asignación de memoria de Contabo hace esto posible a precios económicos.

Mejor VPS GPU para Whisper

La aceleración GPU hace que Whisper sea entre 10 y 30 veces más rápido. Un podcast de 1 hora se transcribe en 2-5 minutos.

1. Vultr Cloud GPU (Mejor disponibilidad)

$90/mes | NVIDIA A16 (16 GB VRAM), 6 vCPU, 16 GB RAM

Ejecuta todos los modelos de Whisper, incluido large-v3. Siempre disponible — sin complicaciones de instancias spot.

Rendimiento: ~10-15x tiempo real con large-v3

2. Hetzner Dedicated GPU (Mejor tarifa mensual)

€179/mes | NVIDIA RTX 4000 (8 GB VRAM), 8 núcleos, 64 GB RAM

El mejor valor para cargas de trabajo de transcripción continua 24/7. Ejecuta los modelos medium y small a gran velocidad.

3. RunPod (Más barato para trabajos por lotes)

$0,20/hora | NVIDIA RTX 4090 (24 GB VRAM)

Enciéndelo cuando tengas archivos que procesar, apágalo al terminar. Perfecto para transcripción masiva ocasional.

4. Lambda Labs (Cargas de trabajo intensivas)

$0,50/hora (~$360/mes) | NVIDIA A10 (24 GB VRAM)

Para pipelines de transcripción en producción que procesan miles de horas mensuales.

Guía de configuración completa

Paso 1: Crea tu VPS

Usaremos Hetzner CPX41 para esta guía:

Regístrate en Hetzner Cloud
Crea el servidor → Ubuntu 22.04 → CPX41
Agrega tu clave SSH
Anota la dirección IP

Paso 2: Instala Whisper

ssh root@your-server-ip

# Install dependencies
apt update && apt install -y python3-pip ffmpeg

# Install Whisper
pip3 install openai-whisper

Paso 3: Transcribe tu primer archivo

# Basic transcription
whisper recording.mp3 --model medium

# With language detection
whisper recording.mp3 --model medium --task transcribe

# Translate to English
whisper foreign_audio.mp3 --model medium --task translate

# Output subtitles
whisper video.mp4 --model medium --output_format srt

Paso 4: Usa faster-whisper (Recomendado)

faster-whisper usa CTranslate2 y es 4 veces más rápido que el Whisper estándar con menor uso de memoria:

pip3 install faster-whisper

python3 << 'EOF'
from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")

print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF

¿Por qué faster-whisper?

4x más rápido en CPU, 2x más rápido en GPU
Usa menos memoria (cuantización int8)
La misma precisión que el Whisper original
Reemplazo directo sin cambios

Paso 5: Configura como servicio API

Crea una API de transcripción sencilla con FastAPI:

pip3 install fastapi uvicorn python-multipart faster-whisper

# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os

app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")

@app.post("/transcribe")
async def transcribe(file: UploadFile):
    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
        tmp.write(await file.read())
        tmp_path = tmp.name

    segments, info = model.transcribe(tmp_path)
    text = " ".join(s.text for s in segments)
    os.unlink(tmp_path)

    return {
        "language": info.language,
        "text": text.strip()
    }

uvicorn transcription_api:app --host 0.0.0.0 --port 8000

Envía archivos a tu API:

curl -X POST http://your-server-ip:8000/transcribe \
  -F "file=@recording.mp3"

Paso 6: Configuración con Docker (Alternativa)

docker run -d -p 8000:8000 \
  --name whisper \
  -v whisper-models:/root/.cache \
  onerahmet/openai-whisper-asr-webservice:latest

Esto te proporciona una API REST lista para usar con documentación Swagger en http://your-server-ip:8000/docs.

Optimización del rendimiento

1. Usa faster-whisper con int8

# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")

# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")

2. Script de procesamiento por lotes

#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"

for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
    [ -f "$file" ] || continue
    filename=$(basename "$file" | sed 's/\.[^.]*$//')
    echo "Processing: $file"
    whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"

3. Habilitar swap para modelos grandes

fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. Usar VAD (Detección de actividad de voz)

Omite el silencio para acelerar el procesamiento:

segments, info = model.transcribe(
    "recording.mp3",
    vad_filter=True,
    vad_parameters=dict(min_silence_duration_ms=500)
)

Esto puede acelerar la transcripción entre 2 y 3 veces en grabaciones con mucho silencio o pausas.

Comparación de costes: VPS vs APIs

Opción	Coste mensual	Horas de audio
OpenAI Whisper API	$0,006/min	100 h = $36
Google Speech-to-Text	$0,006/min	100 h = $36
AWS Transcribe	$0,024/min	100 h = $144
Hetzner VPS + Whisper	€15/mes	Ilimitadas
Vultr GPU + Whisper	$90/mes	Ilimitadas

El autoalojamiento se amortiza en aproximadamente 40 horas/mes en Hetzner, o 250 horas/mes en Vultr GPU. Después de eso, cada hora es gratuita.

Casos de uso

Transcripción de podcasts

Usa large-v3 para mayor precisión. Un episodio de 1 hora tarda ~5 minutos en GPU, ~1 hora en CPU.

Notas de reuniones

Combina Whisper con WhisperX para diarización de hablantes:

pip install whisperx

python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"

Generación de subtítulos

whisper video.mp4 --model medium --output_format srt --word_timestamps True

Procesamiento de notas de voz

Crea un bot de Telegram o un webhook que transcriba automáticamente los mensajes de voz.

Preguntas frecuentes

¿Puedo ejecutar Whisper con 2 GB de RAM?

Sí, con el modelo tiny o base. La precisión es menor, pero es adecuada para audio en inglés claro.

¿Se requiere GPU?

No. La CPU funciona perfectamente para el procesamiento por lotes donde la velocidad no es crítica. Usa faster-whisper con int8 para obtener el mejor rendimiento en CPU.

¿Qué modelo debería usar?

medium para la mayoría de los casos de uso. large-v3 si la precisión es crítica (legal, médico). small si la velocidad importa más que la precisión perfecta.

¿Puede Whisper manejar múltiples idiomas?

Sí. Detecta el idioma automáticamente y puede transcribir más de 99 idiomas. La traducción al inglés está integrada.

¿Qué tan preciso es Whisper?

El modelo large-v3 se acerca a la precisión humana (~95-98% de tasa de error de palabras en audio limpio). medium está muy cerca con ~93-96%.

Configuración recomendada

Caso de uso	VPS	Coste	Modelo	Velocidad
Uso ocasional	Hetzner CPX21	€8/mes	small	~3x tiempo real
Transcripción diaria	Hetzner CPX41	€15/mes	medium	~1x tiempo real
Procesamiento rápido	Vultr GPU	$90/mes	large-v3	~15x tiempo real
Masivo/Producción	Lambda A10	$360/mes	large-v3	~20x tiempo real

Para la mayoría de los usuarios, Hetzner CPX41 a €15/mes con faster-whisper y el modelo medium es el punto ideal. Suficientemente preciso para trabajo real, lo bastante asequible para dejarlo en funcionamiento.

// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.

Mejor VPS para Whisper 2026: Aloja tu propio Speech-to-Text