Bester VPS für Whisper 2026: Speech-to-Text selbst hosten
REVIEW 10 min read fordnox

Bester VPS für Whisper 2026: Speech-to-Text selbst hosten

Finden Sie den besten VPS für OpenAI Whisper. Vergleichen Sie GPU- und CPU-Optionen für selbst gehostete Spracherkennungs-Transkription auf Ihrem eigenen Server.


Bester VPS für Whisper 2026

Möchten Sie Audio transkribieren, ohne es an Drittanbieter-APIs zu senden? OpenAI’s Whisper läuft vollständig auf Ihrem eigenen Server — und bietet Ihnen unbegrenzte, private Spracherkennung. Hier sind die VPS-Spezifikationen, die Sie tatsächlich benötigen.

Was ist Whisper?

Whisper ist OpenAIs Open-Source-Spracherkennungsmodell. Es unterstützt:

whisper audio.mp3 --model medium --language en

Warum Whisper selbst hosten?

VPS-Anforderungen für Whisper

Whispers Ressourcenbedarf hängt von der Modellgröße und der Verwendung von GPU-Beschleunigung ab.

Minimum (nur CPU, kleines Modell)

Empfohlen (CPU, mittleres Modell)

Optimal (GPU-Beschleunigung)

Whisper-Modellgrößen

Wählen Sie basierend auf Ihren verfügbaren Ressourcen:

ModellGrößeMin VRAMMin RAM (CPU)Relative GeschwindigkeitGenauigkeit
tiny75 MB1 GB2 GB32xGrundlegend
base142 MB1 GB2 GB16xGut
small466 MB2 GB4 GB6xBesser
medium1,5 GB5 GB8 GB2xSehr gut
large-v33,1 GB10 GB16 GB1xBeste

Tipp: Das medium-Modell trifft den Sweet Spot — 95%+ Genauigkeit bei angemessener Geschwindigkeit. Verwenden Sie large-v3 nur, wenn Genauigkeit entscheidend ist.

Bester VPS für Whisper (CPU)

CPU-Transkription funktioniert gut für Stapeljobs und gelegentliche Nutzung. Erwarten Sie ungefähr Echtzeit-Geschwindigkeit mit dem small-Modell (1 Stunde Audio ≈ 1 Stunde Verarbeitung).

1. Hetzner CPX41 (Bestes Preis-Leistungs-Verhältnis)

€14,99/Monat | 8 vCPU (AMD EPYC), 16 GB RAM, 160 GB NVMe

Verarbeitet das medium-Modell problemlos. AMD EPYC-Prozessoren haben starke AVX2-Leistung, auf die Whisper stark angewiesen ist.

Leistung: ~1x Echtzeit mit medium-Modell, ~3x mit small

2. Hostinger KVM8 (Budget-Wahl)

$19,99/Monat | 8 vCPU, 16 GB RAM, 200 GB NVMe

Gute Spezifikationen zu einem fairen Preis. Der 200-GB-Speicher ist praktisch, wenn Sie viele Audiodateien verarbeiten.

3. Contabo VPS XL (Meiste RAM)

€13,99/Monat | 8 vCPU, 30 GB RAM, 400 GB SSD

Wenn Sie large-v3 auf der CPU ausführen möchten, benötigen Sie 16 GB+ RAM. Contabos großzügige Speicherzuweisung macht dies zu Budget-Preisen möglich.

Bester GPU-VPS für Whisper

GPU-Beschleunigung macht Whisper 10–30x schneller. Ein 1-stündiger Podcast wird in 2–5 Minuten transkribiert.

1. Vultr Cloud GPU (Beste Verfügbarkeit)

$90/Monat | NVIDIA A16 (16 GB VRAM), 6 vCPU, 16 GB RAM

Führt jedes Whisper-Modell aus, einschließlich large-v3. Immer verfügbar — keine Spot-Instance-Probleme.

Leistung: ~10–15x Echtzeit mit large-v3

2. Hetzner Dedicated GPU (Bester Monatstarif)

€179/Monat | NVIDIA RTX 4000 (8 GB VRAM), 8 Kerne, 64 GB RAM

Bestes Preis-Leistungs-Verhältnis für 24/7-Transkriptions-Workloads. Führt medium- und small-Modelle mit sehr hoher Geschwindigkeit aus.

3. RunPod (Günstigste Option für Stapeljobs)

$0,20/Std. | NVIDIA RTX 4090 (24 GB VRAM)

Starten Sie, wenn Sie Dateien zu verarbeiten haben, beenden Sie, wenn Sie fertig sind. Perfekt für gelegentliche Massentranskription.

4. Lambda Labs (Schwere Workloads)

$0,50/Std. (~$360/Monat) | NVIDIA A10 (24 GB VRAM)

Für Produktions-Transkriptions-Pipelines, die monatlich Tausende von Stunden verarbeiten.

Vollständige Einrichtungsanleitung

Schritt 1: VPS erstellen

Wir verwenden Hetzner CPX41 für diese Anleitung:

  1. Bei Hetzner Cloud registrieren
  2. Server erstellen → Ubuntu 22.04 → CPX41
  3. SSH-Schlüssel hinzufügen
  4. IP-Adresse notieren

Schritt 2: Whisper installieren

ssh root@your-server-ip

# Install dependencies
apt update && apt install -y python3-pip ffmpeg

# Install Whisper
pip3 install openai-whisper

Schritt 3: Erste Datei transkribieren

# Basic transcription
whisper recording.mp3 --model medium

# With language detection
whisper recording.mp3 --model medium --task transcribe

# Translate to English
whisper foreign_audio.mp3 --model medium --task translate

# Output subtitles
whisper video.mp4 --model medium --output_format srt

Schritt 4: faster-whisper verwenden (Empfohlen)

faster-whisper verwendet CTranslate2 und ist 4x schneller als Standard-Whisper bei geringerem Speicherbedarf:

pip3 install faster-whisper

python3 << 'EOF'
from faster_whisper import WhisperModel

model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")

print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
    print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF

Warum faster-whisper?

Schritt 5: Als API-Dienst einrichten

Erstellen Sie eine einfache Transkriptions-API mit FastAPI:

pip3 install fastapi uvicorn python-multipart faster-whisper
# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os

app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")

@app.post("/transcribe")
async def transcribe(file: UploadFile):
    with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
        tmp.write(await file.read())
        tmp_path = tmp.name

    segments, info = model.transcribe(tmp_path)
    text = " ".join(s.text for s in segments)
    os.unlink(tmp_path)

    return {
        "language": info.language,
        "text": text.strip()
    }
uvicorn transcription_api:app --host 0.0.0.0 --port 8000

Dateien an Ihre API senden:

curl -X POST http://your-server-ip:8000/transcribe \
  -F "file=@recording.mp3"

Schritt 6: Docker-Einrichtung (Alternative)

docker run -d -p 8000:8000 \
  --name whisper \
  -v whisper-models:/root/.cache \
  onerahmet/openai-whisper-asr-webservice:latest

Dies bietet Ihnen eine fertige REST-API mit Swagger-Dokumentation unter http://your-server-ip:8000/docs.

Leistungsoptimierung

1. faster-whisper mit int8 verwenden

# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")

# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")

2. Stapelverarbeitungs-Skript

#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"

for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
    [ -f "$file" ] || continue
    filename=$(basename "$file" | sed 's/\.[^.]*$//')
    echo "Processing: $file"
    whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"

3. Swap für große Modelle aktivieren

fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. VAD (Voice Activity Detection) verwenden

Stille überspringen, um die Verarbeitung zu beschleunigen:

segments, info = model.transcribe(
    "recording.mp3",
    vad_filter=True,
    vad_parameters=dict(min_silence_duration_ms=500)
)

Dies kann die Transkription bei Aufnahmen mit viel Stille oder Pausen um das 2–3-fache beschleunigen.

Kostenvergleich: VPS vs. APIs

OptionMonatliche KostenAudiostunden
OpenAI Whisper API$0,006/min100 Std. = $36
Google Speech-to-Text$0,006/min100 Std. = $36
AWS Transcribe$0,024/min100 Std. = $144
Hetzner VPS + Whisper€15/MonatUnbegrenzt
Vultr GPU + Whisper$90/MonatUnbegrenzt

Selbst-Hosting amortisiert sich bei ungefähr 40 Stunden/Monat auf Hetzner oder 250 Stunden/Monat auf Vultr GPU. Danach ist jede Stunde kostenlos.

Anwendungsfälle

Podcast-Transkription

Verwenden Sie large-v3 für beste Genauigkeit. Eine 1-stündige Episode dauert ~5 Min. auf GPU, ~1 Stunde auf CPU.

Besprechungsnotizen

Kombinieren Sie Whisper mit WhisperX für Sprecher-Diarisierung:

pip install whisperx

python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"

Untertitel-Generierung

whisper video.mp4 --model medium --output_format srt --word_timestamps True

Sprachnotizenverarbeitung

Erstellen Sie einen Telegram-Bot oder Webhook, der Sprachnachrichten automatisch transkribiert.

FAQ

Kann ich Whisper mit 2 GB RAM ausführen?

Ja, mit dem tiny- oder base-Modell. Die Genauigkeit ist geringer, aber für klares Englisch-Audio ausreichend.

Ist eine GPU erforderlich?

Nein. Die CPU funktioniert perfekt für die Stapelverarbeitung, bei der Geschwindigkeit nicht entscheidend ist. Verwenden Sie faster-whisper mit int8 für beste CPU-Leistung.

Welches Modell soll ich verwenden?

medium für die meisten Anwendungsfälle. large-v3, wenn Genauigkeit entscheidend ist (Recht, Medizin). small, wenn Geschwindigkeit wichtiger als perfekte Genauigkeit ist.

Kann Whisper mehrere Sprachen verarbeiten?

Ja. Es erkennt die Sprache automatisch und kann 99+ Sprachen transkribieren. Die Übersetzung ins Englische ist integriert.

Wie genau ist Whisper?

Das large-v3-Modell erreicht nahezu menschliche Genauigkeit (~95–98% Wortfehlerrate bei sauberem Audio). medium liegt knapp dahinter bei ~93–96%.

Empfohlene Einrichtung

AnwendungsfallVPSKostenModellGeschwindigkeit
Gelegentliche NutzungHetzner CPX21€8/Monatsmall~3x Echtzeit
Tägliche TranskriptionHetzner CPX41€15/Monatmedium~1x Echtzeit
Schnelle VerarbeitungVultr GPU$90/Monatlarge-v3~15x Echtzeit
Massen-/ProduktionLambda A10$360/Monatlarge-v3~20x Echtzeit

Für die meisten Benutzer ist Hetzner CPX41 für €15/Monat mit faster-whisper und dem medium-Modell der Sweet Spot. Genau genug für echte Arbeit, erschwinglich genug, um es dauerhaft laufen zu lassen.

~/best-vps-for-whisper/get-started

Ready to get started?

Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.

Get Hostinger VPS — $4.99/mo

// up to 75% off + free domain included

// related topics

bester vps für whisper whisper hosting selbst gehostete spracherkennung whisper transkriptionsserver vps für whisper ai

// related guides

Andrius Putna

Andrius Putna

I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.

// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.