Beste VPS voor Whisper in 2026

Wil je audio transcriberen zonder het naar externe API’s te sturen? OpenAI’s Whisper draait volledig op je eigen server — en geeft je onbeperkte, privé spraak-naar-tekst. Dit zijn de VPS-specificaties die je echt nodig hebt.

Wat is Whisper?

Whisper is OpenAI’s open-source spraakherkenningsmodel. Het biedt:

Transcriptie — Audio naar tekst in 99+ talen
Vertaling — Elke taal naar het Engels vertalen
Ondertitelgeneratie — Uitvoer met tijdstempels voor video
Spreker-diarisatie — Met extensies zoals WhisperX

whisper audio.mp3 --model medium --language en

Waarom Whisper zelf hosten?

Privacy — Audio verlaat nooit je server
Geen kosten per minuut — OpenAI rekent $0,006/min, dat loopt snel op
Geen bestandsgroottelimieten — Verwerk opnames van meerdere uren
Batchverwerking — Honderden bestanden ‘s nachts transcriberen
Aanpassing — Gebruik faster-whisper, WhisperX of fijngemaakte modellen

VPS-vereisten voor Whisper

De benodigde resources voor Whisper hangen af van de modelgrootte en of je GPU-versnelling gebruikt.

Minimaal (alleen CPU, klein model)

CPU: 4+ cores
RAM: 4GB
Opslag: 10GB SSD

Aanbevolen (CPU, medium model)

CPU: 8+ cores (AVX2-ondersteuning)
RAM: 8GB
Opslag: 20GB NVMe

Optimaal (GPU-versnelling)

GPU: NVIDIA met 6GB+ VRAM
RAM: 8GB+ systeemgeheugen
Opslag: 30GB+ NVMe

Whisper Modelgroottes

Kies op basis van je beschikbare resources:

Model	Grootte	Min VRAM	Min RAM (CPU)	Relatieve Snelheid	Nauwkeurigheid
tiny	75MB	1GB	2GB	32x	Basis
base	142MB	1GB	2GB	16x	Goed
small	466MB	2GB	4GB	6x	Beter
medium	1.5GB	5GB	8GB	2x	Geweldig
large-v3	3.1GB	10GB	16GB	1x	Beste

Tip: Het medium-model is de beste balans — 95%+ nauwkeurigheid met redelijke snelheid. Gebruik large-v3 alleen wanneer nauwkeurigheid cruciaal is.

Beste VPS voor Whisper (CPU)

CPU-transcriptie werkt prima voor batchverwerking en incidenteel gebruik. Verwacht ruwweg real-time snelheid met het small-model (1 uur audio ≈ 1 uur verwerking).

1. Hetzner CPX41 (Beste Waarde)

€14,99/mnd | 8 vCPU (AMD EPYC), 16GB RAM, 160GB NVMe

Verwerkt het medium-model moeiteloos. AMD EPYC-processors hebben sterke AVX2-prestaties waarop Whisper zwaar leunt.

Prestaties: ~1x real-time met medium-model, ~3x met small

2. Hostinger KVM8 (Budgetkeuze)

$19,99/mnd | 8 vCPU, 16GB RAM, 200GB NVMe

Goede specificaties voor een eerlijke prijs. De 200GB opslag is handig als je veel audiobestanden verwerkt.

3. Contabo VPS XL (Meeste RAM)

€13,99/mnd | 8 vCPU, 30GB RAM, 400GB SSD

Als je large-v3 op CPU wilt draaien, heb je 16GB+ RAM nodig. Contabo’s royale geheugenallocatie maakt dit mogelijk tegen budgetprijzen.

Beste GPU VPS voor Whisper

GPU-versnelling maakt Whisper 10-30x sneller. Een podcast van 1 uur wordt in 2-5 minuten getranscribeerd.

1. Vultr Cloud GPU (Beste Beschikbaarheid)

$90/mnd | NVIDIA A16 (16GB VRAM), 6 vCPU, 16GB RAM

Draait elk Whisper-model inclusief large-v3. Altijd beschikbaar — geen gedoe met spot-instances.

Prestaties: ~10-15x real-time met large-v3

2. Hetzner Dedicated GPU (Beste Maandtarief)

€179/mnd | NVIDIA RTX 4000 (8GB VRAM), 8 cores, 64GB RAM

Beste waarde voor 24/7 transcriptieworkloads. Draait medium- en small-modellen op razendsnel tempo.

3. RunPod (Goedkoopst voor Batchverwerking)

$0,20/uur | NVIDIA RTX 4090 (24GB VRAM)

Opstarten als je bestanden te verwerken hebt, afsluiten als je klaar bent. Perfect voor incidentele bulktranscriptie.

4. Lambda Labs (Zware Werklasten)

$0,50/uur (~$360/mnd) | NVIDIA A10 (24GB VRAM)

Voor productie-transcriptiepijplijnen die maandelijks duizenden uren verwerken.

Volledige Installatiegids

Stap 1: Maak je VPS aan

We gebruiken Hetzner CPX41 voor deze gids:

Registreer bij Hetzner Cloud
Maak server aan → Ubuntu 22.04 → CPX41
Voeg je SSH-sleutel toe
Noteer het IP-adres

Stap 2: Installeer Whisper

ssh root@your-server-ip

# Install dependencies
apt update && apt install -y python3-pip ffmpeg

# Install Whisper
pip3 install openai-whisper

Stap 3: Transcribeer je Eerste Bestand

# Basic transcription
whisper recording.mp3 --model medium

# With language detection
whisper recording.mp3 --model medium --task transcribe

# Translate to English
whisper foreign_audio.mp3 --model medium --task translate

# Output subtitles
whisper video.mp4 --model medium --output_format srt

Stap 4: Gebruik faster-whisper (Aanbevolen)

faster-whisper gebruikt CTranslate2 en is 4x sneller dan standaard Whisper met minder geheugengebruik:

pip3 install faster-whisper

python3 << 'EOF'
from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")

print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF

Waarom faster-whisper?

4x sneller op CPU, 2x sneller op GPU
Gebruikt minder geheugen (int8-kwantisering)
Zelfde nauwkeurigheid als originele Whisper
Directe vervanger

Stap 5: Instellen als API-service

Maak een eenvoudige transcriptie-API met FastAPI:

pip3 install fastapi uvicorn python-multipart faster-whisper

# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os

app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")

@app.post("/transcribe")
async def transcribe(file: UploadFile):
    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
        tmp.write(await file.read())
        tmp_path = tmp.name

    segments, info = model.transcribe(tmp_path)
    text = " ".join(s.text for s in segments)
    os.unlink(tmp_path)

    return {
        "language": info.language,
        "text": text.strip()
    }

uvicorn transcription_api:app --host 0.0.0.0 --port 8000

Stuur bestanden naar je API:

curl -X POST http://your-server-ip:8000/transcribe \
  -F "file=@recording.mp3"

Stap 6: Docker-installatie (Alternatief)

docker run -d -p 8000:8000 \
  --name whisper \
  -v whisper-models:/root/.cache \
  onerahmet/openai-whisper-asr-webservice:latest

Dit geeft je een kant-en-klare REST API met Swagger-documentatie op http://your-server-ip:8000/docs.

Prestatie-optimalisatie

1. Gebruik faster-whisper met int8

# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")

# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")

2. Batchverwerkingsscript

#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"

for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
    [ -f "$file" ] || continue
    filename=$(basename "$file" | sed 's/\.[^.]*$//')
    echo "Processing: $file"
    whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"

3. Schakel Swap in voor Grote Modellen

fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. Gebruik VAD (Voice Activity Detection)

Sla stilte over om verwerking te versnellen:

segments, info = model.transcribe(
    "recording.mp3",
    vad_filter=True,
    vad_parameters=dict(min_silence_duration_ms=500)
)

Dit kan transcriptie 2-3x versnellen bij opnames met veel stilte of pauzes.

Kostenvergelijking: VPS vs. API’s

Optie	Maandelijkse Kosten	Uren Audio
OpenAI Whisper API	$0,006/min	100 uur = $36
Google Speech-to-Text	$0,006/min	100 uur = $36
AWS Transcribe	$0,024/min	100 uur = $144
Hetzner VPS + Whisper	€15/mnd	Onbeperkt
Vultr GPU + Whisper	$90/mnd	Onbeperkt

Zelf hosten wordt rendabel bij ruwweg 40 uur/maand op Hetzner, of 250 uur/maand op Vultr GPU. Daarna is elk uur gratis.

Gebruiksscenario’s

Podcast-transcriptie

Gebruik large-v3 voor de beste nauwkeurigheid. Een aflevering van 1 uur duurt ~5 min op GPU, ~1 uur op CPU.

Vergadernotities

Combineer Whisper met WhisperX voor spreker-diarisatie:

pip install whisperx

python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"

Ondertitelgeneratie

whisper video.mp4 --model medium --output_format srt --word_timestamps True

Verwerking van Spraakberichten

Bouw een Telegram-bot of webhook die spraakberichten automatisch transcribeert.

Veelgestelde Vragen

Kan ik Whisper draaien op 2GB RAM?

Ja, met het tiny- of base-model. De nauwkeurigheid is lager, maar voldoende voor duidelijke Engelstalige audio.

Is een GPU vereist?

Nee. CPU werkt prima voor batchverwerking waarbij snelheid niet kritiek is. Gebruik faster-whisper met int8 voor de beste CPU-prestaties.

Welk model moet ik gebruiken?

medium voor de meeste gebruiksscenario’s. large-v3 als nauwkeurigheid cruciaal is (juridisch, medisch). small als snelheid belangrijker is dan perfecte nauwkeurigheid.

Kan Whisper meerdere talen verwerken?

Ja. Het detecteert automatisch de taal en kan 99+ talen transcriberen. Vertaling naar het Engels is ingebouwd.

Hoe nauwkeurig is Whisper?

Het large-v3-model benadert menselijk nauwkeurigheidsniveau (~95-98% woordfoutenpercentage bij heldere audio). medium zit er net achter op ~93-96%.

Aanbevolen Installatie

Gebruiksscenario	VPS	Kosten	Model	Snelheid
Incidenteel Gebruik	Hetzner CPX21	€8/mnd	small	~3x real-time
Dagelijkse Transcriptie	Hetzner CPX41	€15/mnd	medium	~1x real-time
Snelle Verwerking	Vultr GPU	$90/mnd	large-v3	~15x real-time
Bulk/Productie	Lambda A10	$360/mnd	large-v3	~20x real-time

Voor de meeste gebruikers is Hetzner CPX41 voor €15/mnd met faster-whisper en het medium-model de beste keuze. Nauwkeurig genoeg voor echt werk, betaalbaar genoeg om continu te laten draaien.

// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.

Beste VPS voor Whisper 2026: Zelf Speech-to-Text Hosten