Bester VPS für Whisper 2026

Möchten Sie Audio transkribieren, ohne es an Drittanbieter-APIs zu senden? OpenAI’s Whisper läuft vollständig auf Ihrem eigenen Server — und bietet Ihnen unbegrenzte, private Spracherkennung. Hier sind die VPS-Spezifikationen, die Sie tatsächlich benötigen.

Was ist Whisper?

Whisper ist OpenAIs Open-Source-Spracherkennungsmodell. Es unterstützt:

Transkription — Audio in Text in 99+ Sprachen
Übersetzung — Jede Sprache ins Englische übersetzen
Untertitel-Generierung — Zeitgestempelte Ausgabe für Videos
Sprecher-Diarisierung — Mit Erweiterungen wie WhisperX

whisper audio.mp3 --model medium --language en

Warum Whisper selbst hosten?

Datenschutz — Audio verlässt niemals Ihren Server
Keine Kosten pro Minute — OpenAI berechnet $0.006/min, das summiert sich schnell
Keine Dateigrößenbeschränkungen — Stundenlange Aufnahmen verarbeiten
Stapelverarbeitung — Hunderte von Dateien über Nacht transkribieren
Anpassung — faster-whisper, WhisperX oder fein abgestimmte Modelle verwenden

VPS-Anforderungen für Whisper

Whispers Ressourcenbedarf hängt von der Modellgröße und der Verwendung von GPU-Beschleunigung ab.

Minimum (nur CPU, kleines Modell)

CPU: 4+ Kerne
RAM: 4 GB
Speicher: 10 GB SSD

Optimal (GPU-Beschleunigung)

GPU: NVIDIA mit 6 GB+ VRAM
RAM: 8 GB+ Systemspeicher
Speicher: 30 GB+ NVMe

Whisper-Modellgrößen

Wählen Sie basierend auf Ihren verfügbaren Ressourcen:

Modell	Größe	Min VRAM	Min RAM (CPU)	Relative Geschwindigkeit	Genauigkeit
tiny	75 MB	1 GB	2 GB	32x	Grundlegend
base	142 MB	1 GB	2 GB	16x	Gut
small	466 MB	2 GB	4 GB	6x	Besser
medium	1,5 GB	5 GB	8 GB	2x	Sehr gut
large-v3	3,1 GB	10 GB	16 GB	1x	Beste

Tipp: Das medium-Modell trifft den Sweet Spot — 95%+ Genauigkeit bei angemessener Geschwindigkeit. Verwenden Sie large-v3 nur, wenn Genauigkeit entscheidend ist.

Bester VPS für Whisper (CPU)

CPU-Transkription funktioniert gut für Stapeljobs und gelegentliche Nutzung. Erwarten Sie ungefähr Echtzeit-Geschwindigkeit mit dem small-Modell (1 Stunde Audio ≈ 1 Stunde Verarbeitung).

1. Hetzner CPX41 (Bestes Preis-Leistungs-Verhältnis)

€14,99/Monat | 8 vCPU (AMD EPYC), 16 GB RAM, 160 GB NVMe

Verarbeitet das medium-Modell problemlos. AMD EPYC-Prozessoren haben starke AVX2-Leistung, auf die Whisper stark angewiesen ist.

Leistung: ~1x Echtzeit mit medium-Modell, ~3x mit small

2. Hostinger KVM8 (Budget-Wahl)

$19,99/Monat | 8 vCPU, 16 GB RAM, 200 GB NVMe

Gute Spezifikationen zu einem fairen Preis. Der 200-GB-Speicher ist praktisch, wenn Sie viele Audiodateien verarbeiten.

3. Contabo VPS XL (Meiste RAM)

€13,99/Monat | 8 vCPU, 30 GB RAM, 400 GB SSD

Wenn Sie large-v3 auf der CPU ausführen möchten, benötigen Sie 16 GB+ RAM. Contabos großzügige Speicherzuweisung macht dies zu Budget-Preisen möglich.

Bester GPU-VPS für Whisper

GPU-Beschleunigung macht Whisper 10–30x schneller. Ein 1-stündiger Podcast wird in 2–5 Minuten transkribiert.

1. Vultr Cloud GPU (Beste Verfügbarkeit)

$90/Monat | NVIDIA A16 (16 GB VRAM), 6 vCPU, 16 GB RAM

Führt jedes Whisper-Modell aus, einschließlich large-v3. Immer verfügbar — keine Spot-Instance-Probleme.

Leistung: ~10–15x Echtzeit mit large-v3

2. Hetzner Dedicated GPU (Bester Monatstarif)

€179/Monat | NVIDIA RTX 4000 (8 GB VRAM), 8 Kerne, 64 GB RAM

Bestes Preis-Leistungs-Verhältnis für 24/7-Transkriptions-Workloads. Führt medium- und small-Modelle mit sehr hoher Geschwindigkeit aus.

3. RunPod (Günstigste Option für Stapeljobs)

$0,20/Std. | NVIDIA RTX 4090 (24 GB VRAM)

Starten Sie, wenn Sie Dateien zu verarbeiten haben, beenden Sie, wenn Sie fertig sind. Perfekt für gelegentliche Massentranskription.

4. Lambda Labs (Schwere Workloads)

$0,50/Std. (~$360/Monat) | NVIDIA A10 (24 GB VRAM)

Für Produktions-Transkriptions-Pipelines, die monatlich Tausende von Stunden verarbeiten.

Vollständige Einrichtungsanleitung

Schritt 1: VPS erstellen

Wir verwenden Hetzner CPX41 für diese Anleitung:

Bei Hetzner Cloud registrieren
Server erstellen → Ubuntu 22.04 → CPX41
SSH-Schlüssel hinzufügen
IP-Adresse notieren

Schritt 2: Whisper installieren

ssh root@your-server-ip

# Install dependencies
apt update && apt install -y python3-pip ffmpeg

# Install Whisper
pip3 install openai-whisper

Schritt 3: Erste Datei transkribieren

# Basic transcription
whisper recording.mp3 --model medium

# With language detection
whisper recording.mp3 --model medium --task transcribe

# Translate to English
whisper foreign_audio.mp3 --model medium --task translate

# Output subtitles
whisper video.mp4 --model medium --output_format srt

Schritt 4: faster-whisper verwenden (Empfohlen)

faster-whisper verwendet CTranslate2 und ist 4x schneller als Standard-Whisper bei geringerem Speicherbedarf:

pip3 install faster-whisper

python3 << 'EOF'
from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")

print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF

Warum faster-whisper?

4x schneller auf CPU, 2x schneller auf GPU
Weniger Speicherverbrauch (int8-Quantisierung)
Gleiche Genauigkeit wie das Original-Whisper
Drop-in-Ersatz

Schritt 5: Als API-Dienst einrichten

Erstellen Sie eine einfache Transkriptions-API mit FastAPI:

pip3 install fastapi uvicorn python-multipart faster-whisper

# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os

app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")

@app.post("/transcribe")
async def transcribe(file: UploadFile):
    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
        tmp.write(await file.read())
        tmp_path = tmp.name

    segments, info = model.transcribe(tmp_path)
    text = " ".join(s.text for s in segments)
    os.unlink(tmp_path)

    return {
        "language": info.language,
        "text": text.strip()
    }

uvicorn transcription_api:app --host 0.0.0.0 --port 8000

Dateien an Ihre API senden:

curl -X POST http://your-server-ip:8000/transcribe \
  -F "file=@recording.mp3"

Schritt 6: Docker-Einrichtung (Alternative)

docker run -d -p 8000:8000 \
  --name whisper \
  -v whisper-models:/root/.cache \
  onerahmet/openai-whisper-asr-webservice:latest

Dies bietet Ihnen eine fertige REST-API mit Swagger-Dokumentation unter http://your-server-ip:8000/docs.

Leistungsoptimierung

1. faster-whisper mit int8 verwenden

# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")

# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")

2. Stapelverarbeitungs-Skript

#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"

for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
    [ -f "$file" ] || continue
    filename=$(basename "$file" | sed 's/\.[^.]*$//')
    echo "Processing: $file"
    whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"

3. Swap für große Modelle aktivieren

fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. VAD (Voice Activity Detection) verwenden

Stille überspringen, um die Verarbeitung zu beschleunigen:

segments, info = model.transcribe(
    "recording.mp3",
    vad_filter=True,
    vad_parameters=dict(min_silence_duration_ms=500)
)

Dies kann die Transkription bei Aufnahmen mit viel Stille oder Pausen um das 2–3-fache beschleunigen.

Kostenvergleich: VPS vs. APIs

Option	Monatliche Kosten	Audiostunden
OpenAI Whisper API	$0,006/min	100 Std. = $36
Google Speech-to-Text	$0,006/min	100 Std. = $36
AWS Transcribe	$0,024/min	100 Std. = $144
Hetzner VPS + Whisper	€15/Monat	Unbegrenzt
Vultr GPU + Whisper	$90/Monat	Unbegrenzt

Selbst-Hosting amortisiert sich bei ungefähr 40 Stunden/Monat auf Hetzner oder 250 Stunden/Monat auf Vultr GPU. Danach ist jede Stunde kostenlos.

Anwendungsfälle

Podcast-Transkription

Verwenden Sie large-v3 für beste Genauigkeit. Eine 1-stündige Episode dauert ~5 Min. auf GPU, ~1 Stunde auf CPU.

Besprechungsnotizen

Kombinieren Sie Whisper mit WhisperX für Sprecher-Diarisierung:

pip install whisperx

python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"

Untertitel-Generierung

whisper video.mp4 --model medium --output_format srt --word_timestamps True

Sprachnotizenverarbeitung

Erstellen Sie einen Telegram-Bot oder Webhook, der Sprachnachrichten automatisch transkribiert.

FAQ

Kann ich Whisper mit 2 GB RAM ausführen?

Ja, mit dem tiny- oder base-Modell. Die Genauigkeit ist geringer, aber für klares Englisch-Audio ausreichend.

Ist eine GPU erforderlich?

Nein. Die CPU funktioniert perfekt für die Stapelverarbeitung, bei der Geschwindigkeit nicht entscheidend ist. Verwenden Sie faster-whisper mit int8 für beste CPU-Leistung.

Welches Modell soll ich verwenden?

medium für die meisten Anwendungsfälle. large-v3, wenn Genauigkeit entscheidend ist (Recht, Medizin). small, wenn Geschwindigkeit wichtiger als perfekte Genauigkeit ist.

Kann Whisper mehrere Sprachen verarbeiten?

Ja. Es erkennt die Sprache automatisch und kann 99+ Sprachen transkribieren. Die Übersetzung ins Englische ist integriert.

Wie genau ist Whisper?

Das large-v3-Modell erreicht nahezu menschliche Genauigkeit (~95–98% Wortfehlerrate bei sauberem Audio). medium liegt knapp dahinter bei ~93–96%.

Empfohlene Einrichtung

Anwendungsfall	VPS	Kosten	Modell	Geschwindigkeit
Gelegentliche Nutzung	Hetzner CPX21	€8/Monat	small	~3x Echtzeit
Tägliche Transkription	Hetzner CPX41	€15/Monat	medium	~1x Echtzeit
Schnelle Verarbeitung	Vultr GPU	$90/Monat	large-v3	~15x Echtzeit
Massen-/Produktion	Lambda A10	$360/Monat	large-v3	~20x Echtzeit

Für die meisten Benutzer ist Hetzner CPX41 für €15/Monat mit faster-whisper und dem medium-Modell der Sweet Spot. Genau genug für echte Arbeit, erschwinglich genug, um es dauerhaft laufen zu lassen.

// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.

Bester VPS für Whisper 2026: Speech-to-Text selbst hosten