Bester VPS für Ollama 2026

Möchtest du LLMs wie Llama, Mistral oder Phi auf deinem eigenen Server betreiben? Ollama macht das denkbar einfach — du brauchst aber die richtigen VPS-Specs. Für einen umfassenderen Vergleich von LLM-Hosting-Optionen, lies unseren besten VPS für LLM-Hosting Guide. Hier ist, was wirklich funktioniert.

Was ist Ollama?

Ollama ist ein Tool, mit dem du Large Language Models mit einem einzigen Befehl lokal ausführen kannst:

ollama run llama3.2

Das war’s. Keine Python-Umgebungen, kein Dependency-Chaos, keine GPU-Treiber, mit denen du kämpfen musst. Es übernimmt automatisch das Herunterladen der Modelle, die Quantisierung und die Inferenz.

Warum LLMs selbst hosten?

Datenschutz — Deine Prompts verlassen niemals deinen Server
Keine Ratenlimits — Nutze so viel du willst
Keine API-Kosten — Einmalige VPS-Kosten statt Per-Token-Preisgestaltung
Anpassungsfähigkeit — Fine-tunen, modifizieren, experimentieren
Offline-fähig — Funktioniert nach dem Modell-Download auch ohne Internet

VPS-Anforderungen für Ollama

Ollama kann auf CPU oder GPU laufen. Das brauchst du:

Minimum (nur CPU, kleine Modelle)

CPU: 4+ Kerne (AVX2-Unterstützung erforderlich)
RAM: 8GB (für 7B-Modelle)
Speicher: 20GB+ SSD (Modelle sind je 4–8GB groß)

Optimal (GPU-Beschleunigung)

GPU: NVIDIA mit 8GB+ VRAM
RAM: 16GB+ Systemspeicher
Speicher: 100GB+ NVMe

Bester VPS für Ollama (CPU)

LLMs auf der CPU zu betreiben ist langsamer, funktioniert aber gut für den persönlichen Einsatz und zum Testen.

1. Hetzner CPX41 (Bestes CPU-Preis-Leistungs-Verhältnis)

€14,99/Monat | 8 vCPU (AMD EPYC), 16GB RAM, 160GB NVMe

Hetzners AMD EPYC CPUs bieten hervorragende AVX2-Performance. 16GB RAM bewältigt 13B-Modelle problemlos.

Performance: ~10–15 Tokens/Sek. mit Llama 3.2 8B (Q4_K_M)

# Setup auf Hetzner
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama3.2

2. Hostinger KVM8 (Budgetfreundlich)

$19,99/Monat | 8 vCPU, 16GB RAM, 200GB NVMe

Etwas günstiger als Hetzner mit guten Specs. Die 200GB Speicher sind praktisch, um mehrere Modelle vorzuhalten.

3. Vultr High Frequency (Schnellste CPU)

$48/Monat | 4 vCPU (3GHz+), 16GB RAM, 256GB NVMe

Höhere Taktfrequenzen bedeuten schnellere Single-Thread-Performance. Lohnt sich, wenn die Antwortlatenz wichtig ist.

Bester GPU-VPS für Ollama

GPU-Beschleunigung ist 10- bis 50-mal schneller als die CPU. Für produktionsreife KI-Inferenz-Setups lies unseren dedizierten Guide. Hier sind deine Optionen:

1. Vultr Cloud GPU (Beste Verfügbarkeit)

$90/Monat | NVIDIA A16 (16GB VRAM), 6 vCPU, 16GB RAM

Vultr bietet die zugänglichsten GPU-Instanzen. Die A16 verarbeitet Modelle mit bis zu 30B Parametern.

Performance: ~50–80 Tokens/Sek. mit Llama 3.2 8B

# GPU-Erkennung überprüfen
nvidia-smi

# Ollama nutzt GPU automatisch
ollama run llama3.2

2. Lambda Labs (Beste Wahl für KI)

$0,50/Std. (~$360/Monat) | NVIDIA A10 (24GB VRAM)

Lambda ist auf KI-Workloads spezialisiert. Ideal für ernsthafte Entwicklung, aber teurer.

3. RunPod (Günstigste GPU)

$0,20/Std. | NVIDIA RTX 4090 (24GB VRAM)

Spot-Preisgestaltung macht dies zur günstigsten Option für gelegentliche Nutzung. Nicht für 24/7-Hosting geeignet.

4. Hetzner Dedicated GPU (Bestes Preis-Leistungs-Verhältnis)

€179/Monat | NVIDIA RTX 4000 (8GB VRAM), 8 Kerne, 64GB RAM

Dedizierter GPU-Server, keine Cloud-Instanz. Bestes Monatstarif, wenn du immer verfügbare GPU benötigst.

Modellauswahl nach VPS-Specs

Wähle dein Modell basierend auf dem verfügbaren RAM/VRAM:

Modell	Größe	Min. RAM (CPU)	Min. VRAM (GPU)	Geschwindigkeit
Phi-3 Mini	2,2GB	4GB	4GB	Am schnellsten
Llama 3.2 3B	2GB	4GB	4GB	Schnell
Llama 3.2 8B	4,7GB	8GB	8GB	Gut
Mistral 7B	4,1GB	8GB	8GB	Gut
Llama 3.1 8B	4,7GB	8GB	8GB	Gut
Llama 2 13B	7,4GB	16GB	16GB	Langsamer
Mixtral 8x7B	26GB	32GB	24GB	Langsam
Llama 3.1 70B	40GB	64GB	48GB	Sehr langsam

Tipp: Q4_K_M-Quantisierung (Standard in Ollama) bietet die beste Balance zwischen Qualität und Modellgröße.

Vollständige Einrichtungsanleitung

Schritt 1: VPS erstellen

Für diese Anleitung verwenden wir Hetzner CPX41 (€14,99/Monat, 8 vCPU, 16GB RAM):

Bei Hetzner Cloud registrieren
Server erstellen → Ubuntu 22.04 → CPX41
SSH-Key hinzufügen
IP-Adresse notieren

Schritt 2: Verbinden und Ollama installieren

ssh root@your-server-ip

# Ollama installieren
curl -fsSL https://ollama.ai/install.sh | sh

# Ollama-Dienst starten
systemctl enable ollama
systemctl start ollama

Schritt 3: Erstes Modell ausführen

# Llama 3.2 herunterladen und starten
ollama run llama3.2

# Oder zuerst ein kleineres Modell ausprobieren
ollama run phi3:mini

Beim ersten Start wird das Modell heruntergeladen (4–8GB). Danach startet es sofort.

Schritt 4: API freigeben (Optional)

Ollama betreibt eine API auf Port 11434:

# Lokal testen
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hello!"
}'

Für externe Freigabe (⚠️ Authentifizierung hinzufügen — siehe unseren VPS-Sicherheitsleitfaden):

# Ollama-Dienst bearbeiten
sudo systemctl edit ollama

# Hinzufügen:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

# Neustart
sudo systemctl restart ollama

Schritt 5: Mit Open WebUI nutzen

Open WebUI bietet dir eine ChatGPT-ähnliche Oberfläche:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Zugriff über http://your-server-ip:3000

Performance-Optimierung

1. Quantisierte Modelle verwenden

# Q4_K_M ist Standard und beste Balance
ollama run llama3.2:8b-instruct-q4_K_M

# Q5 für etwas bessere Qualität
ollama run llama3.2:8b-instruct-q5_K_M

2. Kontextlänge erhöhen

# Modelfile erstellen
cat << 'EOF' > Modelfile
FROM llama3.2
PARAMETER num_ctx 8192
EOF

ollama create llama3.2-8k -f Modelfile
ollama run llama3.2-8k

3. Swap aktivieren (CPU-Fallback)

fallocate -l 16G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. CPU-Affinität festlegen (AMD EPYC)

taskset -c 0-7 ollama serve

Kostenvergleich: VPS vs. API

Ein eigenes Ollama-Setup lohnt sich finanziell:

Option	Monatliche Kosten	Tokens/Monat
OpenAI GPT-4	$60	~1M Tokens
Claude 3.5	$45	~1M Tokens
Hetzner VPS + Ollama	€15	Unbegrenzt
Vultr GPU + Ollama	$90	Unbegrenzt

Wer mehr als 1–2 Millionen Tokens pro Monat verbraucht, für den amortisiert sich das Self-Hosting schnell.

Häufige Fragen

Kann ich Ollama mit 4GB RAM betreiben?

Kaum. Du kannst Phi-3 Mini oder Llama 3.2 1B ausführen, aber größere Modelle werden abstürzen oder stark auf Swap auslagern.

Ist eine GPU für Ollama erforderlich?

Nein! Die CPU funktioniert gut, nur langsamer. 8 vCPU liefert nutzbare Geschwindigkeiten für 7–8B-Modelle.

Was ist das beste Modell für Programmierung?

DeepSeek Coder oder CodeLlama. Beide sind verfügbar über ollama run deepseek-coder bzw. ollama run codellama.

Kann ich Modelle auf einem VPS fine-tunen?

Ja, aber dafür empfiehlt sich ein GPU-VPS. CPU-Fine-Tuning ist quälend langsam.

Wie aktualisiere ich Ollama?

curl -fsSL https://ollama.ai/install.sh | sh

Derselbe Installationsbefehl aktualisiert auf die neueste Version.

Empfohlene Setups

Anwendungsfall	VPS	Kosten	Modell
Testen/Privat	Hetzner CPX21	€8/Monat	Phi-3 Mini
Täglicher Einsatz	Hetzner CPX41	€15/Monat	Llama 3.2 8B
Schnelle Antworten	Vultr GPU	$90/Monat	Llama 3.2 8B
Schwere Workloads	Lambda A10	$360/Monat	Llama 3.1 70B

Für die meisten Nutzer ist Hetzner CPX41 für €15/Monat mit Llama 3.2 8B der ideale Kompromiss. Schnell genug für den echten Einsatz, günstig genug, um ihn rund um die Uhr laufen zu lassen.

// last updated: February 8, 2026. Disclosure: This article may contain affiliate links.

Bester VPS für Ollama 2026: LLMs auf eigenem Server betreiben