Bester VPS für Ollama 2026: LLMs auf eigenem Server betreiben
Finde den besten VPS für Ollama und selbst gehostete LLMs. Vergleiche GPU-VPS-Optionen, CPU-Anforderungen und bringe deine KI-Modelle in wenigen Minuten zum Laufen.
Bester VPS für Ollama 2026
Möchtest du LLMs wie Llama, Mistral oder Phi auf deinem eigenen Server betreiben? Ollama macht das denkbar einfach — du brauchst aber die richtigen VPS-Specs. Für einen umfassenderen Vergleich von LLM-Hosting-Optionen, lies unseren besten VPS für LLM-Hosting Guide. Hier ist, was wirklich funktioniert.
Was ist Ollama?
Ollama ist ein Tool, mit dem du Large Language Models mit einem einzigen Befehl lokal ausführen kannst:
ollama run llama3.2
Das war’s. Keine Python-Umgebungen, kein Dependency-Chaos, keine GPU-Treiber, mit denen du kämpfen musst. Es übernimmt automatisch das Herunterladen der Modelle, die Quantisierung und die Inferenz.
Warum LLMs selbst hosten?
- Datenschutz — Deine Prompts verlassen niemals deinen Server
- Keine Ratenlimits — Nutze so viel du willst
- Keine API-Kosten — Einmalige VPS-Kosten statt Per-Token-Preisgestaltung
- Anpassungsfähigkeit — Fine-tunen, modifizieren, experimentieren
- Offline-fähig — Funktioniert nach dem Modell-Download auch ohne Internet
VPS-Anforderungen für Ollama
Ollama kann auf CPU oder GPU laufen. Das brauchst du:
Minimum (nur CPU, kleine Modelle)
- CPU: 4+ Kerne (AVX2-Unterstützung erforderlich)
- RAM: 8GB (für 7B-Modelle)
- Speicher: 20GB+ SSD (Modelle sind je 4–8GB groß)
Empfohlen (CPU, mittlere Modelle)
- CPU: 8+ Kerne
- RAM: 16GB (für 13B-Modelle)
- Speicher: 50GB+ NVMe
Optimal (GPU-Beschleunigung)
- GPU: NVIDIA mit 8GB+ VRAM
- RAM: 16GB+ Systemspeicher
- Speicher: 100GB+ NVMe
Bester VPS für Ollama (CPU)
LLMs auf der CPU zu betreiben ist langsamer, funktioniert aber gut für den persönlichen Einsatz und zum Testen.
1. Hetzner CPX41 (Bestes CPU-Preis-Leistungs-Verhältnis)
€14,99/Monat | 8 vCPU (AMD EPYC), 16GB RAM, 160GB NVMe
Hetzners AMD EPYC CPUs bieten hervorragende AVX2-Performance. 16GB RAM bewältigt 13B-Modelle problemlos.
Performance: ~10–15 Tokens/Sek. mit Llama 3.2 8B (Q4_K_M)
# Setup auf Hetzner
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama3.2
2. Hostinger KVM8 (Budgetfreundlich)
$19,99/Monat | 8 vCPU, 16GB RAM, 200GB NVMe
Etwas günstiger als Hetzner mit guten Specs. Die 200GB Speicher sind praktisch, um mehrere Modelle vorzuhalten.
3. Vultr High Frequency (Schnellste CPU)
$48/Monat | 4 vCPU (3GHz+), 16GB RAM, 256GB NVMe
Höhere Taktfrequenzen bedeuten schnellere Single-Thread-Performance. Lohnt sich, wenn die Antwortlatenz wichtig ist.
Bester GPU-VPS für Ollama
GPU-Beschleunigung ist 10- bis 50-mal schneller als die CPU. Für produktionsreife KI-Inferenz-Setups lies unseren dedizierten Guide. Hier sind deine Optionen:
1. Vultr Cloud GPU (Beste Verfügbarkeit)
$90/Monat | NVIDIA A16 (16GB VRAM), 6 vCPU, 16GB RAM
Vultr bietet die zugänglichsten GPU-Instanzen. Die A16 verarbeitet Modelle mit bis zu 30B Parametern.
Performance: ~50–80 Tokens/Sek. mit Llama 3.2 8B
# GPU-Erkennung überprüfen
nvidia-smi
# Ollama nutzt GPU automatisch
ollama run llama3.2
2. Lambda Labs (Beste Wahl für KI)
$0,50/Std. (~$360/Monat) | NVIDIA A10 (24GB VRAM)
Lambda ist auf KI-Workloads spezialisiert. Ideal für ernsthafte Entwicklung, aber teurer.
3. RunPod (Günstigste GPU)
$0,20/Std. | NVIDIA RTX 4090 (24GB VRAM)
Spot-Preisgestaltung macht dies zur günstigsten Option für gelegentliche Nutzung. Nicht für 24/7-Hosting geeignet.
4. Hetzner Dedicated GPU (Bestes Preis-Leistungs-Verhältnis)
€179/Monat | NVIDIA RTX 4000 (8GB VRAM), 8 Kerne, 64GB RAM
Dedizierter GPU-Server, keine Cloud-Instanz. Bestes Monatstarif, wenn du immer verfügbare GPU benötigst.
Modellauswahl nach VPS-Specs
Wähle dein Modell basierend auf dem verfügbaren RAM/VRAM:
| Modell | Größe | Min. RAM (CPU) | Min. VRAM (GPU) | Geschwindigkeit |
|---|---|---|---|---|
| Phi-3 Mini | 2,2GB | 4GB | 4GB | Am schnellsten |
| Llama 3.2 3B | 2GB | 4GB | 4GB | Schnell |
| Llama 3.2 8B | 4,7GB | 8GB | 8GB | Gut |
| Mistral 7B | 4,1GB | 8GB | 8GB | Gut |
| Llama 3.1 8B | 4,7GB | 8GB | 8GB | Gut |
| Llama 2 13B | 7,4GB | 16GB | 16GB | Langsamer |
| Mixtral 8x7B | 26GB | 32GB | 24GB | Langsam |
| Llama 3.1 70B | 40GB | 64GB | 48GB | Sehr langsam |
Tipp: Q4_K_M-Quantisierung (Standard in Ollama) bietet die beste Balance zwischen Qualität und Modellgröße.
Vollständige Einrichtungsanleitung
Schritt 1: VPS erstellen
Für diese Anleitung verwenden wir Hetzner CPX41 (€14,99/Monat, 8 vCPU, 16GB RAM):
- Bei Hetzner Cloud registrieren
- Server erstellen → Ubuntu 22.04 → CPX41
- SSH-Key hinzufügen
- IP-Adresse notieren
Schritt 2: Verbinden und Ollama installieren
ssh root@your-server-ip
# Ollama installieren
curl -fsSL https://ollama.ai/install.sh | sh
# Ollama-Dienst starten
systemctl enable ollama
systemctl start ollama
Schritt 3: Erstes Modell ausführen
# Llama 3.2 herunterladen und starten
ollama run llama3.2
# Oder zuerst ein kleineres Modell ausprobieren
ollama run phi3:mini
Beim ersten Start wird das Modell heruntergeladen (4–8GB). Danach startet es sofort.
Schritt 4: API freigeben (Optional)
Ollama betreibt eine API auf Port 11434:
# Lokal testen
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Hello!"
}'
Für externe Freigabe (⚠️ Authentifizierung hinzufügen — siehe unseren VPS-Sicherheitsleitfaden):
# Ollama-Dienst bearbeiten
sudo systemctl edit ollama
# Hinzufügen:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
# Neustart
sudo systemctl restart ollama
Schritt 5: Mit Open WebUI nutzen
Open WebUI bietet dir eine ChatGPT-ähnliche Oberfläche:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Zugriff über http://your-server-ip:3000
Performance-Optimierung
1. Quantisierte Modelle verwenden
# Q4_K_M ist Standard und beste Balance
ollama run llama3.2:8b-instruct-q4_K_M
# Q5 für etwas bessere Qualität
ollama run llama3.2:8b-instruct-q5_K_M
2. Kontextlänge erhöhen
# Modelfile erstellen
cat << 'EOF' > Modelfile
FROM llama3.2
PARAMETER num_ctx 8192
EOF
ollama create llama3.2-8k -f Modelfile
ollama run llama3.2-8k
3. Swap aktivieren (CPU-Fallback)
fallocate -l 16G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab
4. CPU-Affinität festlegen (AMD EPYC)
taskset -c 0-7 ollama serve
Kostenvergleich: VPS vs. API
Ein eigenes Ollama-Setup lohnt sich finanziell:
| Option | Monatliche Kosten | Tokens/Monat |
|---|---|---|
| OpenAI GPT-4 | $60 | ~1M Tokens |
| Claude 3.5 | $45 | ~1M Tokens |
| Hetzner VPS + Ollama | €15 | Unbegrenzt |
| Vultr GPU + Ollama | $90 | Unbegrenzt |
Wer mehr als 1–2 Millionen Tokens pro Monat verbraucht, für den amortisiert sich das Self-Hosting schnell.
Häufige Fragen
Kann ich Ollama mit 4GB RAM betreiben?
Kaum. Du kannst Phi-3 Mini oder Llama 3.2 1B ausführen, aber größere Modelle werden abstürzen oder stark auf Swap auslagern.
Ist eine GPU für Ollama erforderlich?
Nein! Die CPU funktioniert gut, nur langsamer. 8 vCPU liefert nutzbare Geschwindigkeiten für 7–8B-Modelle.
Was ist das beste Modell für Programmierung?
DeepSeek Coder oder CodeLlama. Beide sind verfügbar über ollama run deepseek-coder bzw. ollama run codellama.
Kann ich Modelle auf einem VPS fine-tunen?
Ja, aber dafür empfiehlt sich ein GPU-VPS. CPU-Fine-Tuning ist quälend langsam.
Wie aktualisiere ich Ollama?
curl -fsSL https://ollama.ai/install.sh | sh
Derselbe Installationsbefehl aktualisiert auf die neueste Version.
Empfohlene Setups
| Anwendungsfall | VPS | Kosten | Modell |
|---|---|---|---|
| Testen/Privat | Hetzner CPX21 | €8/Monat | Phi-3 Mini |
| Täglicher Einsatz | Hetzner CPX41 | €15/Monat | Llama 3.2 8B |
| Schnelle Antworten | Vultr GPU | $90/Monat | Llama 3.2 8B |
| Schwere Workloads | Lambda A10 | $360/Monat | Llama 3.1 70B |
Für die meisten Nutzer ist Hetzner CPX41 für €15/Monat mit Llama 3.2 8B der ideale Kompromiss. Schnell genug für den echten Einsatz, günstig genug, um ihn rund um die Uhr laufen zu lassen.
Ready to get started?
Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.
Get Hostinger VPS — $4.99/mo// up to 75% off + free domain included
// related topics
// related guides
AWS EC2 Alternatives 2026: Cheaper, Simpler VPS Hosting
Best AWS EC2 alternatives for cheaper VPS hosting. Compare Hetzner, Vultr, DigitalOcean, and more — save 70%+ with simpler billing.
reviewCheapest VPS Hosting 2026 — Best Budget Servers From $2.50
We compared 10 budget VPS providers on price, specs, and support. Here are the cheapest worth using — from $2.50/mo with real performance data.
reviewBest GPU VPS in 2026 — Cheapest NVIDIA Servers Compared
Rent GPU servers from $0.50/hr. We compare 8 GPU VPS providers for AI training, inference, and rendering — NVIDIA A100, H100, and RTX options.
reviewBest macOS VPS for iOS Development in 2026
Need a macOS VPS for iOS app development? We review the best providers offering macOS virtual servers for Xcode, Swift, and App Store publishing.
Andrius Putna
I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.
// last updated: February 8, 2026. Disclosure: This article may contain affiliate links.