Mejor VPS para Whisper 2026: Aloja tu propio Speech-to-Text
Encuentra el mejor VPS para ejecutar OpenAI Whisper. Compara opciones GPU y CPU para transcripción de voz a texto autoalojada en tu propio servidor.
Mejor VPS para Whisper en 2026
¿Quieres transcribir audio sin enviarlo a APIs de terceros? Whisper de OpenAI se ejecuta completamente en tu propio servidor, ofreciéndote voz a texto ilimitada y privada. Aquí están las especificaciones de VPS que realmente necesitas.
¿Qué es Whisper?
Whisper es el modelo de reconocimiento de voz de código abierto de OpenAI. Se encarga de:
- Transcripción — Audio a texto en más de 99 idiomas
- Traducción — Traduce cualquier idioma al inglés
- Generación de subtítulos — Salida con marcas de tiempo para vídeo
- Diarización de hablantes — Con extensiones como WhisperX
whisper audio.mp3 --model medium --language en
¿Por qué autoalojar Whisper?
- Privacidad — El audio nunca sale de tu servidor
- Sin costes por minuto — OpenAI cobra $0.006/min, se acumula rápido
- Sin límites de tamaño de archivo — Procesa grabaciones de horas de duración
- Procesamiento por lotes — Transcribe cientos de archivos de noche
- Personalización — Usa faster-whisper, WhisperX o modelos ajustados
Requisitos de VPS para Whisper
Las necesidades de recursos de Whisper dependen del tamaño del modelo y de si usas aceleración GPU.
Mínimo (solo CPU, modelo pequeño)
- CPU: 4+ núcleos
- RAM: 4 GB
- Almacenamiento: 10 GB SSD
Recomendado (CPU, modelo medium)
- CPU: 8+ núcleos (soporte AVX2)
- RAM: 8 GB
- Almacenamiento: 20 GB NVMe
Óptimo (aceleración GPU)
- GPU: NVIDIA con 6 GB+ VRAM
- RAM: 8 GB+ RAM del sistema
- Almacenamiento: 30 GB+ NVMe
Tamaños de modelos de Whisper
Elige según los recursos disponibles:
| Modelo | Tamaño | VRAM mínima | RAM mínima (CPU) | Velocidad relativa | Precisión |
|---|---|---|---|---|---|
| tiny | 75 MB | 1 GB | 2 GB | 32x | Básica |
| base | 142 MB | 1 GB | 2 GB | 16x | Buena |
| small | 466 MB | 2 GB | 4 GB | 6x | Mejor |
| medium | 1,5 GB | 5 GB | 8 GB | 2x | Excelente |
| large-v3 | 3,1 GB | 10 GB | 16 GB | 1x | La mejor |
Consejo: El modelo medium es el punto ideal — más del 95% de precisión con una velocidad razonable. Usa large-v3 solo cuando la precisión sea crítica.
Mejor VPS para Whisper (CPU)
La transcripción por CPU funciona bien para trabajos por lotes y uso ocasional. Espera aproximadamente velocidad en tiempo real con el modelo small (1 hora de audio ≈ 1 hora de procesamiento).
1. Hetzner CPX41 (Mejor relación calidad-precio)
€14,99/mes | 8 vCPU (AMD EPYC), 16 GB RAM, 160 GB NVMe
Maneja el modelo medium cómodamente. Los procesadores AMD EPYC tienen un buen rendimiento AVX2 del que Whisper depende en gran medida.
Rendimiento: ~1x tiempo real con el modelo medium, ~3x con small
2. Hostinger KVM8 (Opción económica)
$19,99/mes | 8 vCPU, 16 GB RAM, 200 GB NVMe
Buenas especificaciones a un precio justo. Los 200 GB de almacenamiento son útiles si procesas muchos archivos de audio.
3. Contabo VPS XL (Más RAM)
€13,99/mes | 8 vCPU, 30 GB RAM, 400 GB SSD
Si quieres ejecutar large-v3 en CPU, necesitas 16 GB+ de RAM. La generosa asignación de memoria de Contabo hace esto posible a precios económicos.
Mejor VPS GPU para Whisper
La aceleración GPU hace que Whisper sea entre 10 y 30 veces más rápido. Un podcast de 1 hora se transcribe en 2-5 minutos.
1. Vultr Cloud GPU (Mejor disponibilidad)
$90/mes | NVIDIA A16 (16 GB VRAM), 6 vCPU, 16 GB RAM
Ejecuta todos los modelos de Whisper, incluido large-v3. Siempre disponible — sin complicaciones de instancias spot.
Rendimiento: ~10-15x tiempo real con large-v3
2. Hetzner Dedicated GPU (Mejor tarifa mensual)
€179/mes | NVIDIA RTX 4000 (8 GB VRAM), 8 núcleos, 64 GB RAM
El mejor valor para cargas de trabajo de transcripción continua 24/7. Ejecuta los modelos medium y small a gran velocidad.
3. RunPod (Más barato para trabajos por lotes)
$0,20/hora | NVIDIA RTX 4090 (24 GB VRAM)
Enciéndelo cuando tengas archivos que procesar, apágalo al terminar. Perfecto para transcripción masiva ocasional.
4. Lambda Labs (Cargas de trabajo intensivas)
$0,50/hora (~$360/mes) | NVIDIA A10 (24 GB VRAM)
Para pipelines de transcripción en producción que procesan miles de horas mensuales.
Guía de configuración completa
Paso 1: Crea tu VPS
Usaremos Hetzner CPX41 para esta guía:
- Regístrate en Hetzner Cloud
- Crea el servidor → Ubuntu 22.04 → CPX41
- Agrega tu clave SSH
- Anota la dirección IP
Paso 2: Instala Whisper
ssh root@your-server-ip
# Install dependencies
apt update && apt install -y python3-pip ffmpeg
# Install Whisper
pip3 install openai-whisper
Paso 3: Transcribe tu primer archivo
# Basic transcription
whisper recording.mp3 --model medium
# With language detection
whisper recording.mp3 --model medium --task transcribe
# Translate to English
whisper foreign_audio.mp3 --model medium --task translate
# Output subtitles
whisper video.mp4 --model medium --output_format srt
Paso 4: Usa faster-whisper (Recomendado)
faster-whisper usa CTranslate2 y es 4 veces más rápido que el Whisper estándar con menor uso de memoria:
pip3 install faster-whisper
python3 << 'EOF'
from faster_whisper import WhisperModel
model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")
print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF
¿Por qué faster-whisper?
- 4x más rápido en CPU, 2x más rápido en GPU
- Usa menos memoria (cuantización int8)
- La misma precisión que el Whisper original
- Reemplazo directo sin cambios
Paso 5: Configura como servicio API
Crea una API de transcripción sencilla con FastAPI:
pip3 install fastapi uvicorn python-multipart faster-whisper
# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os
app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")
@app.post("/transcribe")
async def transcribe(file: UploadFile):
with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
tmp.write(await file.read())
tmp_path = tmp.name
segments, info = model.transcribe(tmp_path)
text = " ".join(s.text for s in segments)
os.unlink(tmp_path)
return {
"language": info.language,
"text": text.strip()
}
uvicorn transcription_api:app --host 0.0.0.0 --port 8000
Envía archivos a tu API:
curl -X POST http://your-server-ip:8000/transcribe \
-F "file=@recording.mp3"
Paso 6: Configuración con Docker (Alternativa)
docker run -d -p 8000:8000 \
--name whisper \
-v whisper-models:/root/.cache \
onerahmet/openai-whisper-asr-webservice:latest
Esto te proporciona una API REST lista para usar con documentación Swagger en http://your-server-ip:8000/docs.
Optimización del rendimiento
1. Usa faster-whisper con int8
# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")
# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")
2. Script de procesamiento por lotes
#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"
for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
[ -f "$file" ] || continue
filename=$(basename "$file" | sed 's/\.[^.]*$//')
echo "Processing: $file"
whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"
3. Habilitar swap para modelos grandes
fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab
4. Usar VAD (Detección de actividad de voz)
Omite el silencio para acelerar el procesamiento:
segments, info = model.transcribe(
"recording.mp3",
vad_filter=True,
vad_parameters=dict(min_silence_duration_ms=500)
)
Esto puede acelerar la transcripción entre 2 y 3 veces en grabaciones con mucho silencio o pausas.
Comparación de costes: VPS vs APIs
| Opción | Coste mensual | Horas de audio |
|---|---|---|
| OpenAI Whisper API | $0,006/min | 100 h = $36 |
| Google Speech-to-Text | $0,006/min | 100 h = $36 |
| AWS Transcribe | $0,024/min | 100 h = $144 |
| Hetzner VPS + Whisper | €15/mes | Ilimitadas |
| Vultr GPU + Whisper | $90/mes | Ilimitadas |
El autoalojamiento se amortiza en aproximadamente 40 horas/mes en Hetzner, o 250 horas/mes en Vultr GPU. Después de eso, cada hora es gratuita.
Casos de uso
Transcripción de podcasts
Usa large-v3 para mayor precisión. Un episodio de 1 hora tarda ~5 minutos en GPU, ~1 hora en CPU.
Notas de reuniones
Combina Whisper con WhisperX para diarización de hablantes:
pip install whisperx
python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"
Generación de subtítulos
whisper video.mp4 --model medium --output_format srt --word_timestamps True
Procesamiento de notas de voz
Crea un bot de Telegram o un webhook que transcriba automáticamente los mensajes de voz.
Preguntas frecuentes
¿Puedo ejecutar Whisper con 2 GB de RAM?
Sí, con el modelo tiny o base. La precisión es menor, pero es adecuada para audio en inglés claro.
¿Se requiere GPU?
No. La CPU funciona perfectamente para el procesamiento por lotes donde la velocidad no es crítica. Usa faster-whisper con int8 para obtener el mejor rendimiento en CPU.
¿Qué modelo debería usar?
medium para la mayoría de los casos de uso. large-v3 si la precisión es crítica (legal, médico). small si la velocidad importa más que la precisión perfecta.
¿Puede Whisper manejar múltiples idiomas?
Sí. Detecta el idioma automáticamente y puede transcribir más de 99 idiomas. La traducción al inglés está integrada.
¿Qué tan preciso es Whisper?
El modelo large-v3 se acerca a la precisión humana (~95-98% de tasa de error de palabras en audio limpio). medium está muy cerca con ~93-96%.
Configuración recomendada
| Caso de uso | VPS | Coste | Modelo | Velocidad |
|---|---|---|---|---|
| Uso ocasional | Hetzner CPX21 | €8/mes | small | ~3x tiempo real |
| Transcripción diaria | Hetzner CPX41 | €15/mes | medium | ~1x tiempo real |
| Procesamiento rápido | Vultr GPU | $90/mes | large-v3 | ~15x tiempo real |
| Masivo/Producción | Lambda A10 | $360/mes | large-v3 | ~20x tiempo real |
Para la mayoría de los usuarios, Hetzner CPX41 a €15/mes con faster-whisper y el modelo medium es el punto ideal. Suficientemente preciso para trabajo real, lo bastante asequible para dejarlo en funcionamiento.
Ready to get started?
Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.
Get Hostinger VPS — $4.99/mo// up to 75% off + free domain included
// related topics
// related guides
AWS EC2 Alternatives 2026: Cheaper, Simpler VPS Hosting
Best AWS EC2 alternatives for cheaper VPS hosting. Compare Hetzner, Vultr, DigitalOcean, and more — save 70%+ with simpler billing.
reviewCheapest VPS Hosting 2026 — Best Budget Servers From $2.50
We compared 10 budget VPS providers on price, specs, and support. Here are the cheapest worth using — from $2.50/mo with real performance data.
reviewBest GPU VPS in 2026 — Cheapest NVIDIA Servers Compared
Rent GPU servers from $0.50/hr. We compare 8 GPU VPS providers for AI training, inference, and rendering — NVIDIA A100, H100, and RTX options.
reviewBest macOS VPS for iOS Development in 2026
Need a macOS VPS for iOS app development? We review the best providers offering macOS virtual servers for Xcode, Swift, and App Store publishing.
Andrius Putna
I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.
// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.