Meilleur VPS pour Whisper 2026 : Auto-héberger la Transcription Vocale
Trouvez le meilleur VPS pour faire tourner OpenAI Whisper. Comparez les options GPU et CPU pour la transcription vocale auto-hébergée sur votre propre serveur.
Meilleur VPS pour Whisper en 2026
Vous souhaitez transcrire de l’audio sans l’envoyer à des API tierces ? Whisper d’OpenAI tourne entièrement sur votre propre serveur — vous offrant une transcription vocale illimitée et privée. Voici les spécifications VPS dont vous avez réellement besoin.
Qu’est-ce que Whisper ?
Whisper est le modèle de reconnaissance vocale open source d’OpenAI. Il gère :
- Transcription — Audio vers texte dans plus de 99 langues
- Traduction — Traduire n’importe quelle langue vers l’anglais
- Génération de sous-titres — Sortie horodatée pour la vidéo
- Diarisation des locuteurs — Avec des extensions comme WhisperX
whisper audio.mp3 --model medium --language en
Pourquoi auto-héberger Whisper ?
- Confidentialité — L’audio ne quitte jamais votre serveur
- Pas de coûts à la minute — OpenAI facture 0,006$/min, ça s’accumule vite
- Pas de limite de taille de fichier — Traitez des enregistrements de plusieurs heures
- Traitement par lots — Transcrivez des centaines de fichiers en une nuit
- Personnalisation — Utilisez faster-whisper, WhisperX ou des modèles affinés
Exigences VPS pour Whisper
Les besoins en ressources de Whisper dépendent de la taille du modèle et de l’utilisation ou non de l’accélération GPU.
Minimum (CPU uniquement, petit modèle)
- CPU : 4+ cœurs
- RAM : 4 Go
- Stockage : 10 Go SSD
Recommandé (CPU, modèle medium)
- CPU : 8+ cœurs (support AVX2)
- RAM : 8 Go
- Stockage : 20 Go NVMe
Optimal (accélération GPU)
- GPU : NVIDIA avec 6 Go+ de VRAM
- RAM : 8 Go+ de RAM système
- Stockage : 30 Go+ NVMe
Tailles des modèles Whisper
Choisissez en fonction de vos ressources disponibles :
| Modèle | Taille | VRAM min | RAM min (CPU) | Vitesse relative | Précision |
|---|---|---|---|---|---|
| tiny | 75 Mo | 1 Go | 2 Go | 32x | Basique |
| base | 142 Mo | 1 Go | 2 Go | 16x | Bonne |
| small | 466 Mo | 2 Go | 4 Go | 6x | Meilleure |
| medium | 1,5 Go | 5 Go | 8 Go | 2x | Excellente |
| large-v3 | 3,1 Go | 10 Go | 16 Go | 1x | Optimale |
Conseil : Le modèle medium offre le meilleur compromis — plus de 95% de précision avec une vitesse raisonnable. Utilisez large-v3 uniquement lorsque la précision est critique.
Meilleur VPS pour Whisper (CPU)
La transcription sur CPU convient bien aux tâches par lots et à l’utilisation occasionnelle. Attendez-vous à une vitesse approximativement en temps réel avec le modèle small (1 heure d’audio ≈ 1 heure de traitement).
1. Hetzner CPX41 (Meilleur rapport qualité-prix)
14,99 €/mois | 8 vCPU (AMD EPYC), 16 Go RAM, 160 Go NVMe
Gère confortablement le modèle medium. Les processeurs AMD EPYC ont de bonnes performances AVX2 sur lesquelles Whisper s’appuie fortement.
Performance : ~1x temps réel avec le modèle medium, ~3x avec small
2. Hostinger KVM8 (Choix économique)
19,99 $/mois | 8 vCPU, 16 Go RAM, 200 Go NVMe
Bonnes spécifications à un prix raisonnable. Les 200 Go de stockage sont pratiques si vous traitez de nombreux fichiers audio.
3. Contabo VPS XL (Plus de RAM)
13,99 €/mois | 8 vCPU, 30 Go RAM, 400 Go SSD
Si vous souhaitez faire tourner large-v3 sur CPU, vous avez besoin de 16 Go+ de RAM. L’allocation généreuse en mémoire de Contabo rend cela possible à un prix abordable.
Meilleur GPU VPS pour Whisper
L’accélération GPU rend Whisper 10 à 30 fois plus rapide. Un podcast d’une heure se transcrit en 2 à 5 minutes.
1. Vultr Cloud GPU (Meilleure disponibilité)
90 $/mois | NVIDIA A16 (16 Go VRAM), 6 vCPU, 16 Go RAM
Fait tourner tous les modèles Whisper, y compris large-v3. Toujours disponible — pas de tracas avec les instances spot.
Performance : ~10-15x temps réel avec large-v3
2. Hetzner GPU dédié (Meilleur tarif mensuel)
179 €/mois | NVIDIA RTX 4000 (8 Go VRAM), 8 cœurs, 64 Go RAM
Meilleur rapport qualité-prix pour les charges de travail de transcription 24h/24. Fait tourner les modèles medium et small à grande vitesse.
3. RunPod (Le moins cher pour les traitements par lots)
0,20 $/h | NVIDIA RTX 4090 (24 Go VRAM)
Démarrez quand vous avez des fichiers à traiter, arrêtez quand c’est terminé. Parfait pour la transcription en masse occasionnelle.
4. Lambda Labs (Charges de travail intensives)
0,50 $/h (~360 $/mois) | NVIDIA A10 (24 Go VRAM)
Pour les pipelines de transcription en production traitant des milliers d’heures chaque mois.
Guide d’installation complet
Étape 1 : Créer votre VPS
Nous utiliserons Hetzner CPX41 pour ce guide :
- Inscrivez-vous sur Hetzner Cloud
- Créer un serveur → Ubuntu 22.04 → CPX41
- Ajoutez votre clé SSH
- Notez l’adresse IP
Étape 2 : Installer Whisper
ssh root@your-server-ip
# Install dependencies
apt update && apt install -y python3-pip ffmpeg
# Install Whisper
pip3 install openai-whisper
Étape 3 : Transcrire votre premier fichier
# Basic transcription
whisper recording.mp3 --model medium
# With language detection
whisper recording.mp3 --model medium --task transcribe
# Translate to English
whisper foreign_audio.mp3 --model medium --task translate
# Output subtitles
whisper video.mp4 --model medium --output_format srt
Étape 4 : Utiliser faster-whisper (Recommandé)
faster-whisper utilise CTranslate2 et est 4x plus rapide que Whisper standard avec une utilisation mémoire réduite :
pip3 install faster-whisper
python3 << 'EOF'
from faster_whisper import WhisperModel
model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")
print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF
Pourquoi faster-whisper ?
- 4x plus rapide sur CPU, 2x plus rapide sur GPU
- Utilise moins de mémoire (quantification int8)
- Même précision que Whisper original
- Remplacement direct
Étape 5 : Configurer comme service API
Créez une API de transcription simple avec FastAPI :
pip3 install fastapi uvicorn python-multipart faster-whisper
# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os
app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")
@app.post("/transcribe")
async def transcribe(file: UploadFile):
with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
tmp.write(await file.read())
tmp_path = tmp.name
segments, info = model.transcribe(tmp_path)
text = " ".join(s.text for s in segments)
os.unlink(tmp_path)
return {
"language": info.language,
"text": text.strip()
}
uvicorn transcription_api:app --host 0.0.0.0 --port 8000
Envoyez des fichiers à votre API :
curl -X POST http://your-server-ip:8000/transcribe \
-F "file=@recording.mp3"
Étape 6 : Configuration Docker (Alternative)
docker run -d -p 8000:8000 \
--name whisper \
-v whisper-models:/root/.cache \
onerahmet/openai-whisper-asr-webservice:latest
Cela vous donne une API REST toute prête avec la documentation Swagger sur http://your-server-ip:8000/docs.
Optimisation des performances
1. Utiliser faster-whisper avec int8
# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")
# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")
2. Script de traitement par lots
#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"
for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
[ -f "$file" ] || continue
filename=$(basename "$file" | sed 's/\.[^.]*$//')
echo "Processing: $file"
whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"
3. Activer le swap pour les grands modèles
fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab
4. Utiliser la VAD (détection d’activité vocale)
Ignorez les silences pour accélérer le traitement :
segments, info = model.transcribe(
"recording.mp3",
vad_filter=True,
vad_parameters=dict(min_silence_duration_ms=500)
)
Cela peut accélérer la transcription de 2 à 3 fois sur des enregistrements comportant beaucoup de silences ou de pauses.
Comparaison des coûts : VPS vs APIs
| Option | Coût mensuel | Heures d’audio |
|---|---|---|
| OpenAI Whisper API | 0,006 $/min | 100 h = 36 $ |
| Google Speech-to-Text | 0,006 $/min | 100 h = 36 $ |
| AWS Transcribe | 0,024 $/min | 100 h = 144 $ |
| Hetzner VPS + Whisper | 15 €/mois | Illimité |
| Vultr GPU + Whisper | 90 $/mois | Illimité |
L’auto-hébergement devient rentable à environ 40 heures/mois sur Hetzner, ou 250 heures/mois sur Vultr GPU. Au-delà, chaque heure est gratuite.
Cas d’utilisation
Transcription de podcasts
Utilisez large-v3 pour une meilleure précision. Un épisode d’une heure prend ~5 min sur GPU, ~1 heure sur CPU.
Notes de réunion
Combinez Whisper avec WhisperX pour la diarisation des locuteurs :
pip install whisperx
python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"
Génération de sous-titres
whisper video.mp4 --model medium --output_format srt --word_timestamps True
Traitement de notes vocales
Créez un bot Telegram ou un webhook qui transcrit automatiquement les messages vocaux.
FAQ
Puis-je faire tourner Whisper avec 2 Go de RAM ?
Oui, avec le modèle tiny ou base. La précision est moindre mais convient bien à l’audio en anglais clair.
Le GPU est-il obligatoire ?
Non. Le CPU convient parfaitement au traitement par lots lorsque la vitesse n’est pas critique. Utilisez faster-whisper avec int8 pour de meilleures performances sur CPU.
Quel modèle dois-je utiliser ?
medium pour la plupart des cas d’utilisation. large-v3 si la précision est critique (juridique, médical). small si la vitesse importe plus que la précision parfaite.
Whisper gère-t-il plusieurs langues ?
Oui. Il détecte automatiquement la langue et peut transcrire plus de 99 langues. La traduction vers l’anglais est intégrée.
Quelle est la précision de Whisper ?
Le modèle large-v3 approche le niveau humain (~95-98% de taux d’erreur sur mot pour un audio de qualité). medium suit de près à ~93-96%.
Configuration recommandée
| Cas d’utilisation | VPS | Coût | Modèle | Vitesse |
|---|---|---|---|---|
| Usage occasionnel | Hetzner CPX21 | 8 €/mois | small | ~3x temps réel |
| Transcription quotidienne | Hetzner CPX41 | 15 €/mois | medium | ~1x temps réel |
| Traitement rapide | Vultr GPU | 90 $/mois | large-v3 | ~15x temps réel |
| Production/Volume | Lambda A10 | 360 $/mois | large-v3 | ~20x temps réel |
Pour la plupart des utilisateurs, Hetzner CPX41 à 15 €/mois avec faster-whisper et le modèle medium est le meilleur compromis. Suffisamment précis pour un travail réel, suffisamment abordable pour être laissé en fonctionnement continu.
Ready to get started?
Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.
Get Hostinger VPS — $4.99/mo// up to 75% off + free domain included
// related topics
// related guides
AWS EC2 Alternatives 2026: Cheaper, Simpler VPS Hosting
Best AWS EC2 alternatives for cheaper VPS hosting. Compare Hetzner, Vultr, DigitalOcean, and more — save 70%+ with simpler billing.
reviewCheapest VPS Hosting 2026 — Best Budget Servers From $2.50
We compared 10 budget VPS providers on price, specs, and support. Here are the cheapest worth using — from $2.50/mo with real performance data.
reviewBest GPU VPS in 2026 — Cheapest NVIDIA Servers Compared
Rent GPU servers from $0.50/hr. We compare 8 GPU VPS providers for AI training, inference, and rendering — NVIDIA A100, H100, and RTX options.
reviewBest macOS VPS for iOS Development in 2026
Need a macOS VPS for iOS app development? We review the best providers offering macOS virtual servers for Xcode, Swift, and App Store publishing.
Andrius Putna
I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.
// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.