Meilleur VPS pour Whisper 2026 : Auto-héberger la Transcription Vocale
REVIEW 10 min read fordnox

Meilleur VPS pour Whisper 2026 : Auto-héberger la Transcription Vocale

Trouvez le meilleur VPS pour faire tourner OpenAI Whisper. Comparez les options GPU et CPU pour la transcription vocale auto-hébergée sur votre propre serveur.


Meilleur VPS pour Whisper en 2026

Vous souhaitez transcrire de l’audio sans l’envoyer à des API tierces ? Whisper d’OpenAI tourne entièrement sur votre propre serveur — vous offrant une transcription vocale illimitée et privée. Voici les spécifications VPS dont vous avez réellement besoin.

Qu’est-ce que Whisper ?

Whisper est le modèle de reconnaissance vocale open source d’OpenAI. Il gère :

whisper audio.mp3 --model medium --language en

Pourquoi auto-héberger Whisper ?

Exigences VPS pour Whisper

Les besoins en ressources de Whisper dépendent de la taille du modèle et de l’utilisation ou non de l’accélération GPU.

Minimum (CPU uniquement, petit modèle)

Recommandé (CPU, modèle medium)

Optimal (accélération GPU)

Tailles des modèles Whisper

Choisissez en fonction de vos ressources disponibles :

ModèleTailleVRAM minRAM min (CPU)Vitesse relativePrécision
tiny75 Mo1 Go2 Go32xBasique
base142 Mo1 Go2 Go16xBonne
small466 Mo2 Go4 Go6xMeilleure
medium1,5 Go5 Go8 Go2xExcellente
large-v33,1 Go10 Go16 Go1xOptimale

Conseil : Le modèle medium offre le meilleur compromis — plus de 95% de précision avec une vitesse raisonnable. Utilisez large-v3 uniquement lorsque la précision est critique.

Meilleur VPS pour Whisper (CPU)

La transcription sur CPU convient bien aux tâches par lots et à l’utilisation occasionnelle. Attendez-vous à une vitesse approximativement en temps réel avec le modèle small (1 heure d’audio ≈ 1 heure de traitement).

1. Hetzner CPX41 (Meilleur rapport qualité-prix)

14,99 €/mois | 8 vCPU (AMD EPYC), 16 Go RAM, 160 Go NVMe

Gère confortablement le modèle medium. Les processeurs AMD EPYC ont de bonnes performances AVX2 sur lesquelles Whisper s’appuie fortement.

Performance : ~1x temps réel avec le modèle medium, ~3x avec small

2. Hostinger KVM8 (Choix économique)

19,99 $/mois | 8 vCPU, 16 Go RAM, 200 Go NVMe

Bonnes spécifications à un prix raisonnable. Les 200 Go de stockage sont pratiques si vous traitez de nombreux fichiers audio.

3. Contabo VPS XL (Plus de RAM)

13,99 €/mois | 8 vCPU, 30 Go RAM, 400 Go SSD

Si vous souhaitez faire tourner large-v3 sur CPU, vous avez besoin de 16 Go+ de RAM. L’allocation généreuse en mémoire de Contabo rend cela possible à un prix abordable.

Meilleur GPU VPS pour Whisper

L’accélération GPU rend Whisper 10 à 30 fois plus rapide. Un podcast d’une heure se transcrit en 2 à 5 minutes.

1. Vultr Cloud GPU (Meilleure disponibilité)

90 $/mois | NVIDIA A16 (16 Go VRAM), 6 vCPU, 16 Go RAM

Fait tourner tous les modèles Whisper, y compris large-v3. Toujours disponible — pas de tracas avec les instances spot.

Performance : ~10-15x temps réel avec large-v3

2. Hetzner GPU dédié (Meilleur tarif mensuel)

179 €/mois | NVIDIA RTX 4000 (8 Go VRAM), 8 cœurs, 64 Go RAM

Meilleur rapport qualité-prix pour les charges de travail de transcription 24h/24. Fait tourner les modèles medium et small à grande vitesse.

3. RunPod (Le moins cher pour les traitements par lots)

0,20 $/h | NVIDIA RTX 4090 (24 Go VRAM)

Démarrez quand vous avez des fichiers à traiter, arrêtez quand c’est terminé. Parfait pour la transcription en masse occasionnelle.

4. Lambda Labs (Charges de travail intensives)

0,50 $/h (~360 $/mois) | NVIDIA A10 (24 Go VRAM)

Pour les pipelines de transcription en production traitant des milliers d’heures chaque mois.

Guide d’installation complet

Étape 1 : Créer votre VPS

Nous utiliserons Hetzner CPX41 pour ce guide :

  1. Inscrivez-vous sur Hetzner Cloud
  2. Créer un serveur → Ubuntu 22.04 → CPX41
  3. Ajoutez votre clé SSH
  4. Notez l’adresse IP

Étape 2 : Installer Whisper

ssh root@your-server-ip

# Install dependencies
apt update && apt install -y python3-pip ffmpeg

# Install Whisper
pip3 install openai-whisper

Étape 3 : Transcrire votre premier fichier

# Basic transcription
whisper recording.mp3 --model medium

# With language detection
whisper recording.mp3 --model medium --task transcribe

# Translate to English
whisper foreign_audio.mp3 --model medium --task translate

# Output subtitles
whisper video.mp4 --model medium --output_format srt

Étape 4 : Utiliser faster-whisper (Recommandé)

faster-whisper utilise CTranslate2 et est 4x plus rapide que Whisper standard avec une utilisation mémoire réduite :

pip3 install faster-whisper

python3 << 'EOF'
from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")

print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF

Pourquoi faster-whisper ?

Étape 5 : Configurer comme service API

Créez une API de transcription simple avec FastAPI :

pip3 install fastapi uvicorn python-multipart faster-whisper
# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os

app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")

@app.post("/transcribe")
async def transcribe(file: UploadFile):
    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
        tmp.write(await file.read())
        tmp_path = tmp.name

    segments, info = model.transcribe(tmp_path)
    text = " ".join(s.text for s in segments)
    os.unlink(tmp_path)

    return {
        "language": info.language,
        "text": text.strip()
    }
uvicorn transcription_api:app --host 0.0.0.0 --port 8000

Envoyez des fichiers à votre API :

curl -X POST http://your-server-ip:8000/transcribe \
  -F "file=@recording.mp3"

Étape 6 : Configuration Docker (Alternative)

docker run -d -p 8000:8000 \
  --name whisper \
  -v whisper-models:/root/.cache \
  onerahmet/openai-whisper-asr-webservice:latest

Cela vous donne une API REST toute prête avec la documentation Swagger sur http://your-server-ip:8000/docs.

Optimisation des performances

1. Utiliser faster-whisper avec int8

# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")

# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")

2. Script de traitement par lots

#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"

for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
    [ -f "$file" ] || continue
    filename=$(basename "$file" | sed 's/\.[^.]*$//')
    echo "Processing: $file"
    whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"

3. Activer le swap pour les grands modèles

fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. Utiliser la VAD (détection d’activité vocale)

Ignorez les silences pour accélérer le traitement :

segments, info = model.transcribe(
    "recording.mp3",
    vad_filter=True,
    vad_parameters=dict(min_silence_duration_ms=500)
)

Cela peut accélérer la transcription de 2 à 3 fois sur des enregistrements comportant beaucoup de silences ou de pauses.

Comparaison des coûts : VPS vs APIs

OptionCoût mensuelHeures d’audio
OpenAI Whisper API0,006 $/min100 h = 36 $
Google Speech-to-Text0,006 $/min100 h = 36 $
AWS Transcribe0,024 $/min100 h = 144 $
Hetzner VPS + Whisper15 €/moisIllimité
Vultr GPU + Whisper90 $/moisIllimité

L’auto-hébergement devient rentable à environ 40 heures/mois sur Hetzner, ou 250 heures/mois sur Vultr GPU. Au-delà, chaque heure est gratuite.

Cas d’utilisation

Transcription de podcasts

Utilisez large-v3 pour une meilleure précision. Un épisode d’une heure prend ~5 min sur GPU, ~1 heure sur CPU.

Notes de réunion

Combinez Whisper avec WhisperX pour la diarisation des locuteurs :

pip install whisperx

python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"

Génération de sous-titres

whisper video.mp4 --model medium --output_format srt --word_timestamps True

Traitement de notes vocales

Créez un bot Telegram ou un webhook qui transcrit automatiquement les messages vocaux.

FAQ

Puis-je faire tourner Whisper avec 2 Go de RAM ?

Oui, avec le modèle tiny ou base. La précision est moindre mais convient bien à l’audio en anglais clair.

Le GPU est-il obligatoire ?

Non. Le CPU convient parfaitement au traitement par lots lorsque la vitesse n’est pas critique. Utilisez faster-whisper avec int8 pour de meilleures performances sur CPU.

Quel modèle dois-je utiliser ?

medium pour la plupart des cas d’utilisation. large-v3 si la précision est critique (juridique, médical). small si la vitesse importe plus que la précision parfaite.

Whisper gère-t-il plusieurs langues ?

Oui. Il détecte automatiquement la langue et peut transcrire plus de 99 langues. La traduction vers l’anglais est intégrée.

Quelle est la précision de Whisper ?

Le modèle large-v3 approche le niveau humain (~95-98% de taux d’erreur sur mot pour un audio de qualité). medium suit de près à ~93-96%.

Configuration recommandée

Cas d’utilisationVPSCoûtModèleVitesse
Usage occasionnelHetzner CPX218 €/moissmall~3x temps réel
Transcription quotidienneHetzner CPX4115 €/moismedium~1x temps réel
Traitement rapideVultr GPU90 $/moislarge-v3~15x temps réel
Production/VolumeLambda A10360 $/moislarge-v3~20x temps réel

Pour la plupart des utilisateurs, Hetzner CPX41 à 15 €/mois avec faster-whisper et le modèle medium est le meilleur compromis. Suffisamment précis pour un travail réel, suffisamment abordable pour être laissé en fonctionnement continu.

~/best-vps-for-whisper/get-started

Ready to get started?

Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.

Get Hostinger VPS — $4.99/mo

// up to 75% off + free domain included

// related topics

meilleur vps pour whisper hébergement whisper transcription vocale auto-hébergée serveur de transcription whisper vps pour whisper ai

// related guides

Andrius Putna

Andrius Putna

I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.

// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.