Meilleur VPS pour Whisper en 2026

Vous souhaitez transcrire de l’audio sans l’envoyer à des API tierces ? Whisper d’OpenAI tourne entièrement sur votre propre serveur — vous offrant une transcription vocale illimitée et privée. Voici les spécifications VPS dont vous avez réellement besoin.

Qu’est-ce que Whisper ?

Whisper est le modèle de reconnaissance vocale open source d’OpenAI. Il gère :

Transcription — Audio vers texte dans plus de 99 langues
Traduction — Traduire n’importe quelle langue vers l’anglais
Génération de sous-titres — Sortie horodatée pour la vidéo
Diarisation des locuteurs — Avec des extensions comme WhisperX

whisper audio.mp3 --model medium --language en

Pourquoi auto-héberger Whisper ?

Confidentialité — L’audio ne quitte jamais votre serveur
Pas de coûts à la minute — OpenAI facture 0,006$/min, ça s’accumule vite
Pas de limite de taille de fichier — Traitez des enregistrements de plusieurs heures
Traitement par lots — Transcrivez des centaines de fichiers en une nuit
Personnalisation — Utilisez faster-whisper, WhisperX ou des modèles affinés

Exigences VPS pour Whisper

Les besoins en ressources de Whisper dépendent de la taille du modèle et de l’utilisation ou non de l’accélération GPU.

Minimum (CPU uniquement, petit modèle)

CPU : 4+ cœurs
RAM : 4 Go
Stockage : 10 Go SSD

Recommandé (CPU, modèle medium)

CPU : 8+ cœurs (support AVX2)
RAM : 8 Go
Stockage : 20 Go NVMe

Optimal (accélération GPU)

GPU : NVIDIA avec 6 Go+ de VRAM
RAM : 8 Go+ de RAM système
Stockage : 30 Go+ NVMe

Tailles des modèles Whisper

Choisissez en fonction de vos ressources disponibles :

Modèle	Taille	VRAM min	RAM min (CPU)	Vitesse relative	Précision
tiny	75 Mo	1 Go	2 Go	32x	Basique
base	142 Mo	1 Go	2 Go	16x	Bonne
small	466 Mo	2 Go	4 Go	6x	Meilleure
medium	1,5 Go	5 Go	8 Go	2x	Excellente
large-v3	3,1 Go	10 Go	16 Go	1x	Optimale

Conseil : Le modèle medium offre le meilleur compromis — plus de 95% de précision avec une vitesse raisonnable. Utilisez large-v3 uniquement lorsque la précision est critique.

Meilleur VPS pour Whisper (CPU)

La transcription sur CPU convient bien aux tâches par lots et à l’utilisation occasionnelle. Attendez-vous à une vitesse approximativement en temps réel avec le modèle small (1 heure d’audio ≈ 1 heure de traitement).

1. Hetzner CPX41 (Meilleur rapport qualité-prix)

14,99 €/mois | 8 vCPU (AMD EPYC), 16 Go RAM, 160 Go NVMe

Gère confortablement le modèle medium. Les processeurs AMD EPYC ont de bonnes performances AVX2 sur lesquelles Whisper s’appuie fortement.

Performance : ~1x temps réel avec le modèle medium, ~3x avec small

2. Hostinger KVM8 (Choix économique)

19,99 $/mois | 8 vCPU, 16 Go RAM, 200 Go NVMe

Bonnes spécifications à un prix raisonnable. Les 200 Go de stockage sont pratiques si vous traitez de nombreux fichiers audio.

3. Contabo VPS XL (Plus de RAM)

13,99 €/mois | 8 vCPU, 30 Go RAM, 400 Go SSD

Si vous souhaitez faire tourner large-v3 sur CPU, vous avez besoin de 16 Go+ de RAM. L’allocation généreuse en mémoire de Contabo rend cela possible à un prix abordable.

Meilleur GPU VPS pour Whisper

L’accélération GPU rend Whisper 10 à 30 fois plus rapide. Un podcast d’une heure se transcrit en 2 à 5 minutes.

1. Vultr Cloud GPU (Meilleure disponibilité)

90 $/mois | NVIDIA A16 (16 Go VRAM), 6 vCPU, 16 Go RAM

Fait tourner tous les modèles Whisper, y compris large-v3. Toujours disponible — pas de tracas avec les instances spot.

Performance : ~10-15x temps réel avec large-v3

2. Hetzner GPU dédié (Meilleur tarif mensuel)

179 €/mois | NVIDIA RTX 4000 (8 Go VRAM), 8 cœurs, 64 Go RAM

Meilleur rapport qualité-prix pour les charges de travail de transcription 24h/24. Fait tourner les modèles medium et small à grande vitesse.

3. RunPod (Le moins cher pour les traitements par lots)

0,20 $/h | NVIDIA RTX 4090 (24 Go VRAM)

Démarrez quand vous avez des fichiers à traiter, arrêtez quand c’est terminé. Parfait pour la transcription en masse occasionnelle.

4. Lambda Labs (Charges de travail intensives)

0,50 $/h (~360 $/mois) | NVIDIA A10 (24 Go VRAM)

Pour les pipelines de transcription en production traitant des milliers d’heures chaque mois.

Guide d’installation complet

Étape 1 : Créer votre VPS

Nous utiliserons Hetzner CPX41 pour ce guide :

Inscrivez-vous sur Hetzner Cloud
Créer un serveur → Ubuntu 22.04 → CPX41
Ajoutez votre clé SSH
Notez l’adresse IP

Étape 2 : Installer Whisper

ssh root@your-server-ip

# Install dependencies
apt update && apt install -y python3-pip ffmpeg

# Install Whisper
pip3 install openai-whisper

Étape 3 : Transcrire votre premier fichier

# Basic transcription
whisper recording.mp3 --model medium

# With language detection
whisper recording.mp3 --model medium --task transcribe

# Translate to English
whisper foreign_audio.mp3 --model medium --task translate

# Output subtitles
whisper video.mp4 --model medium --output_format srt

Étape 4 : Utiliser faster-whisper (Recommandé)

faster-whisper utilise CTranslate2 et est 4x plus rapide que Whisper standard avec une utilisation mémoire réduite :

pip3 install faster-whisper

python3 << 'EOF'
from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")

print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF

Pourquoi faster-whisper ?

4x plus rapide sur CPU, 2x plus rapide sur GPU
Utilise moins de mémoire (quantification int8)
Même précision que Whisper original
Remplacement direct

Étape 5 : Configurer comme service API

Créez une API de transcription simple avec FastAPI :

pip3 install fastapi uvicorn python-multipart faster-whisper

# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os

app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")

@app.post("/transcribe")
async def transcribe(file: UploadFile):
    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
        tmp.write(await file.read())
        tmp_path = tmp.name

    segments, info = model.transcribe(tmp_path)
    text = " ".join(s.text for s in segments)
    os.unlink(tmp_path)

    return {
        "language": info.language,
        "text": text.strip()
    }

uvicorn transcription_api:app --host 0.0.0.0 --port 8000

Envoyez des fichiers à votre API :

curl -X POST http://your-server-ip:8000/transcribe \
  -F "file=@recording.mp3"

Étape 6 : Configuration Docker (Alternative)

docker run -d -p 8000:8000 \
  --name whisper \
  -v whisper-models:/root/.cache \
  onerahmet/openai-whisper-asr-webservice:latest

Cela vous donne une API REST toute prête avec la documentation Swagger sur http://your-server-ip:8000/docs.

Optimisation des performances

1. Utiliser faster-whisper avec int8

# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")

# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")

2. Script de traitement par lots

#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"

for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
    [ -f "$file" ] || continue
    filename=$(basename "$file" | sed 's/\.[^.]*$//')
    echo "Processing: $file"
    whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"

3. Activer le swap pour les grands modèles

fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. Utiliser la VAD (détection d’activité vocale)

Ignorez les silences pour accélérer le traitement :

segments, info = model.transcribe(
    "recording.mp3",
    vad_filter=True,
    vad_parameters=dict(min_silence_duration_ms=500)
)

Cela peut accélérer la transcription de 2 à 3 fois sur des enregistrements comportant beaucoup de silences ou de pauses.

Comparaison des coûts : VPS vs APIs

Option	Coût mensuel	Heures d’audio
OpenAI Whisper API	0,006 $/min	100 h = 36 $
Google Speech-to-Text	0,006 $/min	100 h = 36 $
AWS Transcribe	0,024 $/min	100 h = 144 $
Hetzner VPS + Whisper	15 €/mois	Illimité
Vultr GPU + Whisper	90 $/mois	Illimité

L’auto-hébergement devient rentable à environ 40 heures/mois sur Hetzner, ou 250 heures/mois sur Vultr GPU. Au-delà, chaque heure est gratuite.

Cas d’utilisation

Transcription de podcasts

Utilisez large-v3 pour une meilleure précision. Un épisode d’une heure prend ~5 min sur GPU, ~1 heure sur CPU.

Notes de réunion

Combinez Whisper avec WhisperX pour la diarisation des locuteurs :

pip install whisperx

python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"

Génération de sous-titres

whisper video.mp4 --model medium --output_format srt --word_timestamps True

Traitement de notes vocales

Créez un bot Telegram ou un webhook qui transcrit automatiquement les messages vocaux.

FAQ

Puis-je faire tourner Whisper avec 2 Go de RAM ?

Oui, avec le modèle tiny ou base. La précision est moindre mais convient bien à l’audio en anglais clair.

Le GPU est-il obligatoire ?

Non. Le CPU convient parfaitement au traitement par lots lorsque la vitesse n’est pas critique. Utilisez faster-whisper avec int8 pour de meilleures performances sur CPU.

Quel modèle dois-je utiliser ?

medium pour la plupart des cas d’utilisation. large-v3 si la précision est critique (juridique, médical). small si la vitesse importe plus que la précision parfaite.

Whisper gère-t-il plusieurs langues ?

Oui. Il détecte automatiquement la langue et peut transcrire plus de 99 langues. La traduction vers l’anglais est intégrée.

Quelle est la précision de Whisper ?

Le modèle large-v3 approche le niveau humain (~95-98% de taux d’erreur sur mot pour un audio de qualité). medium suit de près à ~93-96%.

Configuration recommandée

Cas d’utilisation	VPS	Coût	Modèle	Vitesse
Usage occasionnel	Hetzner CPX21	8 €/mois	small	~3x temps réel
Transcription quotidienne	Hetzner CPX41	15 €/mois	medium	~1x temps réel
Traitement rapide	Vultr GPU	90 $/mois	large-v3	~15x temps réel
Production/Volume	Lambda A10	360 $/mois	large-v3	~20x temps réel

Pour la plupart des utilisateurs, Hetzner CPX41 à 15 €/mois avec faster-whisper et le modèle medium est le meilleur compromis. Suffisamment précis pour un travail réel, suffisamment abordable pour être laissé en fonctionnement continu.

// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.

Meilleur VPS pour Whisper 2026 : Auto-héberger la Transcription Vocale