Bester VPS für Ollama 2026: LLMs auf eigenem Server betreiben
REVIEW 10 min read fordnox

Bester VPS für Ollama 2026: LLMs auf eigenem Server betreiben

Finde den besten VPS für Ollama und selbst gehostete LLMs. Vergleiche GPU-VPS-Optionen, CPU-Anforderungen und bringe deine KI-Modelle in wenigen Minuten zum Laufen.


Bester VPS für Ollama 2026

Möchtest du LLMs wie Llama, Mistral oder Phi auf deinem eigenen Server betreiben? Ollama macht das denkbar einfach — du brauchst aber die richtigen VPS-Specs. Für einen umfassenderen Vergleich von LLM-Hosting-Optionen, lies unseren besten VPS für LLM-Hosting Guide. Hier ist, was wirklich funktioniert.

Was ist Ollama?

Ollama ist ein Tool, mit dem du Large Language Models mit einem einzigen Befehl lokal ausführen kannst:

ollama run llama3.2

Das war’s. Keine Python-Umgebungen, kein Dependency-Chaos, keine GPU-Treiber, mit denen du kämpfen musst. Es übernimmt automatisch das Herunterladen der Modelle, die Quantisierung und die Inferenz.

Warum LLMs selbst hosten?

VPS-Anforderungen für Ollama

Ollama kann auf CPU oder GPU laufen. Das brauchst du:

Minimum (nur CPU, kleine Modelle)

Empfohlen (CPU, mittlere Modelle)

Optimal (GPU-Beschleunigung)

Bester VPS für Ollama (CPU)

LLMs auf der CPU zu betreiben ist langsamer, funktioniert aber gut für den persönlichen Einsatz und zum Testen.

1. Hetzner CPX41 (Bestes CPU-Preis-Leistungs-Verhältnis)

€14,99/Monat | 8 vCPU (AMD EPYC), 16GB RAM, 160GB NVMe

Hetzners AMD EPYC CPUs bieten hervorragende AVX2-Performance. 16GB RAM bewältigt 13B-Modelle problemlos.

Performance: ~10–15 Tokens/Sek. mit Llama 3.2 8B (Q4_K_M)

# Setup auf Hetzner
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama3.2

2. Hostinger KVM8 (Budgetfreundlich)

$19,99/Monat | 8 vCPU, 16GB RAM, 200GB NVMe

Etwas günstiger als Hetzner mit guten Specs. Die 200GB Speicher sind praktisch, um mehrere Modelle vorzuhalten.

3. Vultr High Frequency (Schnellste CPU)

$48/Monat | 4 vCPU (3GHz+), 16GB RAM, 256GB NVMe

Höhere Taktfrequenzen bedeuten schnellere Single-Thread-Performance. Lohnt sich, wenn die Antwortlatenz wichtig ist.

Bester GPU-VPS für Ollama

GPU-Beschleunigung ist 10- bis 50-mal schneller als die CPU. Für produktionsreife KI-Inferenz-Setups lies unseren dedizierten Guide. Hier sind deine Optionen:

1. Vultr Cloud GPU (Beste Verfügbarkeit)

$90/Monat | NVIDIA A16 (16GB VRAM), 6 vCPU, 16GB RAM

Vultr bietet die zugänglichsten GPU-Instanzen. Die A16 verarbeitet Modelle mit bis zu 30B Parametern.

Performance: ~50–80 Tokens/Sek. mit Llama 3.2 8B

# GPU-Erkennung überprüfen
nvidia-smi

# Ollama nutzt GPU automatisch
ollama run llama3.2

2. Lambda Labs (Beste Wahl für KI)

$0,50/Std. (~$360/Monat) | NVIDIA A10 (24GB VRAM)

Lambda ist auf KI-Workloads spezialisiert. Ideal für ernsthafte Entwicklung, aber teurer.

3. RunPod (Günstigste GPU)

$0,20/Std. | NVIDIA RTX 4090 (24GB VRAM)

Spot-Preisgestaltung macht dies zur günstigsten Option für gelegentliche Nutzung. Nicht für 24/7-Hosting geeignet.

4. Hetzner Dedicated GPU (Bestes Preis-Leistungs-Verhältnis)

€179/Monat | NVIDIA RTX 4000 (8GB VRAM), 8 Kerne, 64GB RAM

Dedizierter GPU-Server, keine Cloud-Instanz. Bestes Monatstarif, wenn du immer verfügbare GPU benötigst.

Modellauswahl nach VPS-Specs

Wähle dein Modell basierend auf dem verfügbaren RAM/VRAM:

ModellGrößeMin. RAM (CPU)Min. VRAM (GPU)Geschwindigkeit
Phi-3 Mini2,2GB4GB4GBAm schnellsten
Llama 3.2 3B2GB4GB4GBSchnell
Llama 3.2 8B4,7GB8GB8GBGut
Mistral 7B4,1GB8GB8GBGut
Llama 3.1 8B4,7GB8GB8GBGut
Llama 2 13B7,4GB16GB16GBLangsamer
Mixtral 8x7B26GB32GB24GBLangsam
Llama 3.1 70B40GB64GB48GBSehr langsam

Tipp: Q4_K_M-Quantisierung (Standard in Ollama) bietet die beste Balance zwischen Qualität und Modellgröße.

Vollständige Einrichtungsanleitung

Schritt 1: VPS erstellen

Für diese Anleitung verwenden wir Hetzner CPX41 (€14,99/Monat, 8 vCPU, 16GB RAM):

  1. Bei Hetzner Cloud registrieren
  2. Server erstellen → Ubuntu 22.04 → CPX41
  3. SSH-Key hinzufügen
  4. IP-Adresse notieren

Schritt 2: Verbinden und Ollama installieren

ssh root@your-server-ip

# Ollama installieren
curl -fsSL https://ollama.ai/install.sh | sh

# Ollama-Dienst starten
systemctl enable ollama
systemctl start ollama

Schritt 3: Erstes Modell ausführen

# Llama 3.2 herunterladen und starten
ollama run llama3.2

# Oder zuerst ein kleineres Modell ausprobieren
ollama run phi3:mini

Beim ersten Start wird das Modell heruntergeladen (4–8GB). Danach startet es sofort.

Schritt 4: API freigeben (Optional)

Ollama betreibt eine API auf Port 11434:

# Lokal testen
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hello!"
}'

Für externe Freigabe (⚠️ Authentifizierung hinzufügen — siehe unseren VPS-Sicherheitsleitfaden):

# Ollama-Dienst bearbeiten
sudo systemctl edit ollama

# Hinzufügen:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

# Neustart
sudo systemctl restart ollama

Schritt 5: Mit Open WebUI nutzen

Open WebUI bietet dir eine ChatGPT-ähnliche Oberfläche:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Zugriff über http://your-server-ip:3000

Performance-Optimierung

1. Quantisierte Modelle verwenden

# Q4_K_M ist Standard und beste Balance
ollama run llama3.2:8b-instruct-q4_K_M

# Q5 für etwas bessere Qualität
ollama run llama3.2:8b-instruct-q5_K_M

2. Kontextlänge erhöhen

# Modelfile erstellen
cat << 'EOF' > Modelfile
FROM llama3.2
PARAMETER num_ctx 8192
EOF

ollama create llama3.2-8k -f Modelfile
ollama run llama3.2-8k

3. Swap aktivieren (CPU-Fallback)

fallocate -l 16G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. CPU-Affinität festlegen (AMD EPYC)

taskset -c 0-7 ollama serve

Kostenvergleich: VPS vs. API

Ein eigenes Ollama-Setup lohnt sich finanziell:

OptionMonatliche KostenTokens/Monat
OpenAI GPT-4$60~1M Tokens
Claude 3.5$45~1M Tokens
Hetzner VPS + Ollama€15Unbegrenzt
Vultr GPU + Ollama$90Unbegrenzt

Wer mehr als 1–2 Millionen Tokens pro Monat verbraucht, für den amortisiert sich das Self-Hosting schnell.

Häufige Fragen

Kann ich Ollama mit 4GB RAM betreiben?

Kaum. Du kannst Phi-3 Mini oder Llama 3.2 1B ausführen, aber größere Modelle werden abstürzen oder stark auf Swap auslagern.

Ist eine GPU für Ollama erforderlich?

Nein! Die CPU funktioniert gut, nur langsamer. 8 vCPU liefert nutzbare Geschwindigkeiten für 7–8B-Modelle.

Was ist das beste Modell für Programmierung?

DeepSeek Coder oder CodeLlama. Beide sind verfügbar über ollama run deepseek-coder bzw. ollama run codellama.

Kann ich Modelle auf einem VPS fine-tunen?

Ja, aber dafür empfiehlt sich ein GPU-VPS. CPU-Fine-Tuning ist quälend langsam.

Wie aktualisiere ich Ollama?

curl -fsSL https://ollama.ai/install.sh | sh

Derselbe Installationsbefehl aktualisiert auf die neueste Version.

Empfohlene Setups

AnwendungsfallVPSKostenModell
Testen/PrivatHetzner CPX21€8/MonatPhi-3 Mini
Täglicher EinsatzHetzner CPX41€15/MonatLlama 3.2 8B
Schnelle AntwortenVultr GPU$90/MonatLlama 3.2 8B
Schwere WorkloadsLambda A10$360/MonatLlama 3.1 70B

Für die meisten Nutzer ist Hetzner CPX41 für €15/Monat mit Llama 3.2 8B der ideale Kompromiss. Schnell genug für den echten Einsatz, günstig genug, um ihn rund um die Uhr laufen zu lassen.

~/best-vps-for-ollama/get-started

Ready to get started?

Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.

Get Hostinger VPS — $4.99/mo

// up to 75% off + free domain included

// related topics

bester vps für ollama ollama hosting llm selbst hosten vps für ki llama auf vps betreiben gpu vps für ki

// related guides

Andrius Putna

Andrius Putna

I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.

// last updated: February 8, 2026. Disclosure: This article may contain affiliate links.