Bester VPS für Whisper 2026: Speech-to-Text selbst hosten
Finden Sie den besten VPS für OpenAI Whisper. Vergleichen Sie GPU- und CPU-Optionen für selbst gehostete Spracherkennungs-Transkription auf Ihrem eigenen Server.
Bester VPS für Whisper 2026
Möchten Sie Audio transkribieren, ohne es an Drittanbieter-APIs zu senden? OpenAI’s Whisper läuft vollständig auf Ihrem eigenen Server — und bietet Ihnen unbegrenzte, private Spracherkennung. Hier sind die VPS-Spezifikationen, die Sie tatsächlich benötigen.
Was ist Whisper?
Whisper ist OpenAIs Open-Source-Spracherkennungsmodell. Es unterstützt:
- Transkription — Audio in Text in 99+ Sprachen
- Übersetzung — Jede Sprache ins Englische übersetzen
- Untertitel-Generierung — Zeitgestempelte Ausgabe für Videos
- Sprecher-Diarisierung — Mit Erweiterungen wie WhisperX
whisper audio.mp3 --model medium --language en
Warum Whisper selbst hosten?
- Datenschutz — Audio verlässt niemals Ihren Server
- Keine Kosten pro Minute — OpenAI berechnet $0.006/min, das summiert sich schnell
- Keine Dateigrößenbeschränkungen — Stundenlange Aufnahmen verarbeiten
- Stapelverarbeitung — Hunderte von Dateien über Nacht transkribieren
- Anpassung — faster-whisper, WhisperX oder fein abgestimmte Modelle verwenden
VPS-Anforderungen für Whisper
Whispers Ressourcenbedarf hängt von der Modellgröße und der Verwendung von GPU-Beschleunigung ab.
Minimum (nur CPU, kleines Modell)
- CPU: 4+ Kerne
- RAM: 4 GB
- Speicher: 10 GB SSD
Empfohlen (CPU, mittleres Modell)
- CPU: 8+ Kerne (AVX2-Unterstützung)
- RAM: 8 GB
- Speicher: 20 GB NVMe
Optimal (GPU-Beschleunigung)
- GPU: NVIDIA mit 6 GB+ VRAM
- RAM: 8 GB+ Systemspeicher
- Speicher: 30 GB+ NVMe
Whisper-Modellgrößen
Wählen Sie basierend auf Ihren verfügbaren Ressourcen:
| Modell | Größe | Min VRAM | Min RAM (CPU) | Relative Geschwindigkeit | Genauigkeit |
|---|---|---|---|---|---|
| tiny | 75 MB | 1 GB | 2 GB | 32x | Grundlegend |
| base | 142 MB | 1 GB | 2 GB | 16x | Gut |
| small | 466 MB | 2 GB | 4 GB | 6x | Besser |
| medium | 1,5 GB | 5 GB | 8 GB | 2x | Sehr gut |
| large-v3 | 3,1 GB | 10 GB | 16 GB | 1x | Beste |
Tipp: Das medium-Modell trifft den Sweet Spot — 95%+ Genauigkeit bei angemessener Geschwindigkeit. Verwenden Sie large-v3 nur, wenn Genauigkeit entscheidend ist.
Bester VPS für Whisper (CPU)
CPU-Transkription funktioniert gut für Stapeljobs und gelegentliche Nutzung. Erwarten Sie ungefähr Echtzeit-Geschwindigkeit mit dem small-Modell (1 Stunde Audio ≈ 1 Stunde Verarbeitung).
1. Hetzner CPX41 (Bestes Preis-Leistungs-Verhältnis)
€14,99/Monat | 8 vCPU (AMD EPYC), 16 GB RAM, 160 GB NVMe
Verarbeitet das medium-Modell problemlos. AMD EPYC-Prozessoren haben starke AVX2-Leistung, auf die Whisper stark angewiesen ist.
Leistung: ~1x Echtzeit mit medium-Modell, ~3x mit small
2. Hostinger KVM8 (Budget-Wahl)
$19,99/Monat | 8 vCPU, 16 GB RAM, 200 GB NVMe
Gute Spezifikationen zu einem fairen Preis. Der 200-GB-Speicher ist praktisch, wenn Sie viele Audiodateien verarbeiten.
3. Contabo VPS XL (Meiste RAM)
€13,99/Monat | 8 vCPU, 30 GB RAM, 400 GB SSD
Wenn Sie large-v3 auf der CPU ausführen möchten, benötigen Sie 16 GB+ RAM. Contabos großzügige Speicherzuweisung macht dies zu Budget-Preisen möglich.
Bester GPU-VPS für Whisper
GPU-Beschleunigung macht Whisper 10–30x schneller. Ein 1-stündiger Podcast wird in 2–5 Minuten transkribiert.
1. Vultr Cloud GPU (Beste Verfügbarkeit)
$90/Monat | NVIDIA A16 (16 GB VRAM), 6 vCPU, 16 GB RAM
Führt jedes Whisper-Modell aus, einschließlich large-v3. Immer verfügbar — keine Spot-Instance-Probleme.
Leistung: ~10–15x Echtzeit mit large-v3
2. Hetzner Dedicated GPU (Bester Monatstarif)
€179/Monat | NVIDIA RTX 4000 (8 GB VRAM), 8 Kerne, 64 GB RAM
Bestes Preis-Leistungs-Verhältnis für 24/7-Transkriptions-Workloads. Führt medium- und small-Modelle mit sehr hoher Geschwindigkeit aus.
3. RunPod (Günstigste Option für Stapeljobs)
$0,20/Std. | NVIDIA RTX 4090 (24 GB VRAM)
Starten Sie, wenn Sie Dateien zu verarbeiten haben, beenden Sie, wenn Sie fertig sind. Perfekt für gelegentliche Massentranskription.
4. Lambda Labs (Schwere Workloads)
$0,50/Std. (~$360/Monat) | NVIDIA A10 (24 GB VRAM)
Für Produktions-Transkriptions-Pipelines, die monatlich Tausende von Stunden verarbeiten.
Vollständige Einrichtungsanleitung
Schritt 1: VPS erstellen
Wir verwenden Hetzner CPX41 für diese Anleitung:
- Bei Hetzner Cloud registrieren
- Server erstellen → Ubuntu 22.04 → CPX41
- SSH-Schlüssel hinzufügen
- IP-Adresse notieren
Schritt 2: Whisper installieren
ssh root@your-server-ip
# Install dependencies
apt update && apt install -y python3-pip ffmpeg
# Install Whisper
pip3 install openai-whisper
Schritt 3: Erste Datei transkribieren
# Basic transcription
whisper recording.mp3 --model medium
# With language detection
whisper recording.mp3 --model medium --task transcribe
# Translate to English
whisper foreign_audio.mp3 --model medium --task translate
# Output subtitles
whisper video.mp4 --model medium --output_format srt
Schritt 4: faster-whisper verwenden (Empfohlen)
faster-whisper verwendet CTranslate2 und ist 4x schneller als Standard-Whisper bei geringerem Speicherbedarf:
pip3 install faster-whisper
python3 << 'EOF'
from faster_whisper import WhisperModel
model = WhisperModel("medium", device="cpu", compute_type="int8")
segments, info = model.transcribe("recording.mp3")
print(f"Detected language: {info.language} ({info.language_probability:.0%})")
for segment in segments:
print(f"[{segment.start:.2f}s -> {segment.end:.2f}s] {segment.text}")
EOF
Warum faster-whisper?
- 4x schneller auf CPU, 2x schneller auf GPU
- Weniger Speicherverbrauch (int8-Quantisierung)
- Gleiche Genauigkeit wie das Original-Whisper
- Drop-in-Ersatz
Schritt 5: Als API-Dienst einrichten
Erstellen Sie eine einfache Transkriptions-API mit FastAPI:
pip3 install fastapi uvicorn python-multipart faster-whisper
# transcription_api.py
from fastapi import FastAPI, UploadFile
from faster_whisper import WhisperModel
import tempfile, os
app = FastAPI()
model = WhisperModel("medium", device="cpu", compute_type="int8")
@app.post("/transcribe")
async def transcribe(file: UploadFile):
with tempfile.NamedTemporaryFile(delete=False, suffix=".wav") as tmp:
tmp.write(await file.read())
tmp_path = tmp.name
segments, info = model.transcribe(tmp_path)
text = " ".join(s.text for s in segments)
os.unlink(tmp_path)
return {
"language": info.language,
"text": text.strip()
}
uvicorn transcription_api:app --host 0.0.0.0 --port 8000
Dateien an Ihre API senden:
curl -X POST http://your-server-ip:8000/transcribe \
-F "file=@recording.mp3"
Schritt 6: Docker-Einrichtung (Alternative)
docker run -d -p 8000:8000 \
--name whisper \
-v whisper-models:/root/.cache \
onerahmet/openai-whisper-asr-webservice:latest
Dies bietet Ihnen eine fertige REST-API mit Swagger-Dokumentation unter http://your-server-ip:8000/docs.
Leistungsoptimierung
1. faster-whisper mit int8 verwenden
# CPU — int8 quantization (fastest)
model = WhisperModel("medium", device="cpu", compute_type="int8")
# GPU — float16 (best quality/speed balance)
model = WhisperModel("medium", device="cuda", compute_type="float16")
2. Stapelverarbeitungs-Skript
#!/bin/bash
# transcribe_all.sh — process all audio files in a directory
INPUT_DIR="./audio"
OUTPUT_DIR="./transcripts"
mkdir -p "$OUTPUT_DIR"
for file in "$INPUT_DIR"/*.{mp3,wav,m4a,flac}; do
[ -f "$file" ] || continue
filename=$(basename "$file" | sed 's/\.[^.]*$//')
echo "Processing: $file"
whisper "$file" --model medium --output_dir "$OUTPUT_DIR" --output_format txt
done
echo "Done! Transcripts in $OUTPUT_DIR"
3. Swap für große Modelle aktivieren
fallocate -l 8G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab
4. VAD (Voice Activity Detection) verwenden
Stille überspringen, um die Verarbeitung zu beschleunigen:
segments, info = model.transcribe(
"recording.mp3",
vad_filter=True,
vad_parameters=dict(min_silence_duration_ms=500)
)
Dies kann die Transkription bei Aufnahmen mit viel Stille oder Pausen um das 2–3-fache beschleunigen.
Kostenvergleich: VPS vs. APIs
| Option | Monatliche Kosten | Audiostunden |
|---|---|---|
| OpenAI Whisper API | $0,006/min | 100 Std. = $36 |
| Google Speech-to-Text | $0,006/min | 100 Std. = $36 |
| AWS Transcribe | $0,024/min | 100 Std. = $144 |
| Hetzner VPS + Whisper | €15/Monat | Unbegrenzt |
| Vultr GPU + Whisper | $90/Monat | Unbegrenzt |
Selbst-Hosting amortisiert sich bei ungefähr 40 Stunden/Monat auf Hetzner oder 250 Stunden/Monat auf Vultr GPU. Danach ist jede Stunde kostenlos.
Anwendungsfälle
Podcast-Transkription
Verwenden Sie large-v3 für beste Genauigkeit. Eine 1-stündige Episode dauert ~5 Min. auf GPU, ~1 Stunde auf CPU.
Besprechungsnotizen
Kombinieren Sie Whisper mit WhisperX für Sprecher-Diarisierung:
pip install whisperx
python3 -c "
import whisperx
model = whisperx.load_model('medium', 'cpu')
result = model.transcribe('meeting.mp3')
# Add speaker labels
diarize_model = whisperx.DiarizationPipeline()
result = whisperx.assign_word_speakers(diarize_model('meeting.mp3'), result)
"
Untertitel-Generierung
whisper video.mp4 --model medium --output_format srt --word_timestamps True
Sprachnotizenverarbeitung
Erstellen Sie einen Telegram-Bot oder Webhook, der Sprachnachrichten automatisch transkribiert.
FAQ
Kann ich Whisper mit 2 GB RAM ausführen?
Ja, mit dem tiny- oder base-Modell. Die Genauigkeit ist geringer, aber für klares Englisch-Audio ausreichend.
Ist eine GPU erforderlich?
Nein. Die CPU funktioniert perfekt für die Stapelverarbeitung, bei der Geschwindigkeit nicht entscheidend ist. Verwenden Sie faster-whisper mit int8 für beste CPU-Leistung.
Welches Modell soll ich verwenden?
medium für die meisten Anwendungsfälle. large-v3, wenn Genauigkeit entscheidend ist (Recht, Medizin). small, wenn Geschwindigkeit wichtiger als perfekte Genauigkeit ist.
Kann Whisper mehrere Sprachen verarbeiten?
Ja. Es erkennt die Sprache automatisch und kann 99+ Sprachen transkribieren. Die Übersetzung ins Englische ist integriert.
Wie genau ist Whisper?
Das large-v3-Modell erreicht nahezu menschliche Genauigkeit (~95–98% Wortfehlerrate bei sauberem Audio). medium liegt knapp dahinter bei ~93–96%.
Empfohlene Einrichtung
| Anwendungsfall | VPS | Kosten | Modell | Geschwindigkeit |
|---|---|---|---|---|
| Gelegentliche Nutzung | Hetzner CPX21 | €8/Monat | small | ~3x Echtzeit |
| Tägliche Transkription | Hetzner CPX41 | €15/Monat | medium | ~1x Echtzeit |
| Schnelle Verarbeitung | Vultr GPU | $90/Monat | large-v3 | ~15x Echtzeit |
| Massen-/Produktion | Lambda A10 | $360/Monat | large-v3 | ~20x Echtzeit |
Für die meisten Benutzer ist Hetzner CPX41 für €15/Monat mit faster-whisper und dem medium-Modell der Sweet Spot. Genau genug für echte Arbeit, erschwinglich genug, um es dauerhaft laufen zu lassen.
Ready to get started?
Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.
Get Hostinger VPS — $4.99/mo// up to 75% off + free domain included
// related topics
// related guides
AWS EC2 Alternatives 2026: Cheaper, Simpler VPS Hosting
Best AWS EC2 alternatives for cheaper VPS hosting. Compare Hetzner, Vultr, DigitalOcean, and more — save 70%+ with simpler billing.
reviewCheapest VPS Hosting 2026 — Best Budget Servers From $2.50
We compared 10 budget VPS providers on price, specs, and support. Here are the cheapest worth using — from $2.50/mo with real performance data.
reviewBest GPU VPS in 2026 — Cheapest NVIDIA Servers Compared
Rent GPU servers from $0.50/hr. We compare 8 GPU VPS providers for AI training, inference, and rendering — NVIDIA A100, H100, and RTX options.
reviewBest macOS VPS for iOS Development in 2026
Need a macOS VPS for iOS app development? We review the best providers offering macOS virtual servers for Xcode, Swift, and App Store publishing.
Andrius Putna
I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.
// last updated: March 6, 2026. Disclosure: This article may contain affiliate links.