Mejor VPS para Whisper 2026: Aloja tu propio Speech-to-Text
REVIEW 10 min read fordnox

Mejor VPS para Whisper 2026: Aloja tu propio Speech-to-Text

Encuentra el mejor VPS para ejecutar OpenAI Whisper. Compara opciones GPU y CPU para transcripción de voz a texto autoalojada en tu propio servidor.


Mejor VPS para Whisper en 2026

¿Quieres transcribir audio sin enviarlo a APIs de terceros? Whisper de OpenAI se ejecuta completamente en tu propio servidor, ofreciéndote voz a texto ilimitada y privada. Aquí están las especificaciones de VPS que realmente necesitas.

¿Qué es Whisper?

Whisper es el modelo de reconocimiento de voz de código abierto de OpenAI. Se encarga de:

whisper audio.mp3 --model medium --language en

¿Por qué autoalojar Whisper?

Requisitos de VPS para Whisper

Las necesidades de recursos de Whisper dependen del tamaño del modelo y de si usas aceleración GPU.

Mínimo (solo CPU, modelo pequeño)

Recomendado (CPU, modelo medium)

Óptimo (aceleración GPU)

Tamaños de modelos de Whisper

Elige según los recursos disponibles:

ModeloTamañoVRAM mínimaRAM mínima (CPU)Velocidad relativaPrecisión
tiny75 MB1 GB2 GB32xBásica
base142 MB1 GB2 GB16xBuena
small466 MB2 GB4 GB6xMejor
medium1,5 GB5 GB8 GB2xExcelente
large-v33,1 GB10 GB16 GB1xLa mejor

Consejo: El modelo medium es el punto ideal — más del 95% de precisión con una velocidad razonable. Usa large-v3 solo cuando la precisión sea crítica.

Mejor VPS para Whisper (CPU)

La transcripción por CPU funciona bien para trabajos por lotes y uso ocasional. Espera aproximadamente velocidad en tiempo real con el modelo small (1 hora de audio ≈ 1 hora de procesamiento).

1. Hetzner CPX41 (Mejor relación calidad-precio)

€14,99/mes | 8 vCPU (AMD EPYC), 16 GB RAM, 160 GB NVMe

Maneja el modelo medium cómodamente. Los procesadores AMD EPYC tienen un buen rendimiento AVX2 del que Whisper depende en gran medida.

Rendimiento: ~1x tiempo real con el modelo medium, ~3x con small

2. Hostinger KVM8 (Opción económica)

$19,99/mes | 8 vCPU, 16 GB RAM, 200 GB NVMe

Buenas especificaciones a un precio justo. Los 200 GB de almacenamiento son útiles si procesas muchos archivos de audio.

3. Contabo VPS XL (Más RAM)

€13,99/mes | 8 vCPU, 30 GB RAM, 400 GB SSD

Si quieres ejecutar large-v3 en CPU, necesitas 16 GB+ de RAM. La generosa asignación de memoria de Contabo hace esto posible a precios económicos.

Mejor VPS GPU para Whisper

La aceleración GPU hace que Whisper sea entre 10 y 30 veces más rápido. Un podcast de 1 hora se transcribe en 2-5 minutos.

1. Vultr Cloud GPU (Mejor disponibilidad)

$90/mes | NVIDIA A16 (16 GB VRAM), 6 vCPU, 16 GB RAM

Ejecuta todos los modelos de Whisper, incluido large-v3. Siempre disponible — sin complicaciones de instancias spot.

Rendimiento: ~10-15x tiempo real con large-v3

2. Hetzner Dedicated GPU (Mejor tarifa mensual)

€179/mes | NVIDIA RTX 4000 (8 GB VRAM), 8 núcleos, 64 GB RAM

El mejor valor para cargas de trabajo de transcripción continua 24/7. Ejecuta los modelos medium y small a gran velocidad.

3. RunPod (Más barato para trabajos por lotes)

$0,20/hora | NVIDIA RTX 4090 (24 GB VRAM)

Enciéndelo cuando tengas archivos que procesar, apágalo al terminar. Perfecto para transcripción masiva ocasional.

4. Lambda Labs (Cargas de trabajo intensivas)

$0,50/hora (~$360/mes) | NVIDIA A10 (24 GB VRAM)

Para pipelines de transcripción en producción que procesan miles de horas mensuales.

Guía de configuración completa

Paso 1: Crea tu VPS

Usaremos Hetzner CPX41 para esta guía:

  1. Regístrate en Hetzner Cloud
  2. Crea el servidor → Ubuntu 22.04 → CPX41
  3. Agrega tu clave SSH
  4. Anota la dirección IP

Paso 2: Instala Whisper

ssh root@your-server-ip

# Install dependencies
apt update && apt install -y python3-pip ffmpeg

# Install Whisper
pip3 install openai-whisper

Paso 3: Transcribe tu primer archivo

# Basic transcription
whisper recording.mp3 --model medium

# With language detection
whisper recording.mp3 --model medium --task transcribe

# Translate to English
whisper foreign_audio.mp3 --model medium --task translate

# Output subtitles
whisper video.mp4 --model medium --output_format srt

Paso 4: Usa faster-whisper (Recomendado)

faster-whisper usa CTranslate2 y es 4 veces más rápido que el Whisper estándar con menor uso de memoria:

pip3 install faster-whisper

python3 << 'EOF'
from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")

print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF

¿Por qué faster-whisper?

Paso 5: Configura como servicio API

Crea una API de transcripción sencilla con FastAPI:

pip3 install fastapi uvicorn python-multipart faster-whisper
# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os

app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")

@app.post("/transcribe")
async def transcribe(file: UploadFile):
    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
        tmp.write(await file.read())
        tmp_path = tmp.name

    segments, info = model.transcribe(tmp_path)
    text = " ".join(s.text for s in segments)
    os.unlink(tmp_path)

    return {
        "language": info.language,
        "text": text.strip()
    }
uvicorn transcription_api:app --host 0.0.0.0 --port 8000

Envía archivos a tu API:

curl -X POST http://your-server-ip:8000/transcribe \
  -F "file=@recording.mp3"

Paso 6: Configuración con Docker (Alternativa)

docker run -d -p 8000:8000 \
  --name whisper \
  -v whisper-models:/root/.cache \
  onerahmet/openai-whisper-asr-webservice:latest

Esto te proporciona una API REST lista para usar con documentación Swagger en http://your-server-ip:8000/docs.

Optimización del rendimiento

1. Usa faster-whisper con int8

# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")

# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")

2. Script de procesamiento por lotes

#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"

for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
    [ -f "$file" ] || continue
    filename=$(basename "$file" | sed 's/\.[^.]*$//')
    echo "Processing: $file"
    whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"

3. Habilitar swap para modelos grandes

fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. Usar VAD (Detección de actividad de voz)

Omite el silencio para acelerar el procesamiento:

segments, info = model.transcribe(
    "recording.mp3",
    vad_filter=True,
    vad_parameters=dict(min_silence_duration_ms=500)
)

Esto puede acelerar la transcripción entre 2 y 3 veces en grabaciones con mucho silencio o pausas.

Comparación de costes: VPS vs APIs

OpciónCoste mensualHoras de audio
OpenAI Whisper API$0,006/min100 h = $36
Google Speech-to-Text$0,006/min100 h = $36
AWS Transcribe$0,024/min100 h = $144
Hetzner VPS + Whisper€15/mesIlimitadas
Vultr GPU + Whisper$90/mesIlimitadas

El autoalojamiento se amortiza en aproximadamente 40 horas/mes en Hetzner, o 250 horas/mes en Vultr GPU. Después de eso, cada hora es gratuita.

Casos de uso

Transcripción de podcasts

Usa large-v3 para mayor precisión. Un episodio de 1 hora tarda ~5 minutos en GPU, ~1 hora en CPU.

Notas de reuniones

Combina Whisper con WhisperX para diarización de hablantes:

pip install whisperx

python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"

Generación de subtítulos

whisper video.mp4 --model medium --output_format srt --word_timestamps True

Procesamiento de notas de voz

Crea un bot de Telegram o un webhook que transcriba automáticamente los mensajes de voz.

Preguntas frecuentes

¿Puedo ejecutar Whisper con 2 GB de RAM?

Sí, con el modelo tiny o base. La precisión es menor, pero es adecuada para audio en inglés claro.

¿Se requiere GPU?

No. La CPU funciona perfectamente para el procesamiento por lotes donde la velocidad no es crítica. Usa faster-whisper con int8 para obtener el mejor rendimiento en CPU.

¿Qué modelo debería usar?

medium para la mayoría de los casos de uso. large-v3 si la precisión es crítica (legal, médico). small si la velocidad importa más que la precisión perfecta.

¿Puede Whisper manejar múltiples idiomas?

Sí. Detecta el idioma automáticamente y puede transcribir más de 99 idiomas. La traducción al inglés está integrada.

¿Qué tan preciso es Whisper?

El modelo large-v3 se acerca a la precisión humana (~95-98% de tasa de error de palabras en audio limpio). medium está muy cerca con ~93-96%.

Configuración recomendada

Caso de usoVPSCosteModeloVelocidad
Uso ocasionalHetzner CPX21€8/messmall~3x tiempo real
Transcripción diariaHetzner CPX41€15/mesmedium~1x tiempo real
Procesamiento rápidoVultr GPU$90/meslarge-v3~15x tiempo real
Masivo/ProducciónLambda A10$360/meslarge-v3~20x tiempo real

Para la mayoría de los usuarios, Hetzner CPX41 a €15/mes con faster-whisper y el modelo medium es el punto ideal. Suficientemente preciso para trabajo real, lo bastante asequible para dejarlo en funcionamiento.

~/best-vps-for-whisper/get-started

Ready to get started?

Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.

Get Hostinger VPS — $4.99/mo

// up to 75% off + free domain included

// related topics

mejor vps para whisper hosting whisper speech to text autoalojado servidor de transcripción whisper vps para whisper ai

// related guides

Andrius Putna

Andrius Putna

I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.

// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.