Beste VPS voor Ollama in 2026

Wil je LLMs zoals Llama, Mistral of Phi op je eigen server draaien? Ollama maakt het verrassend eenvoudig, maar je hebt wel de juiste VPS-specificaties nodig. Voor een bredere vergelijking van LLM-hostingopties, bekijk onze beste VPS voor LLM-hosting gids. Dit is wat echt werkt.

Wat is Ollama?

Ollama is een tool waarmee je grote taalmodellen lokaal kunt draaien met één enkel commando:

ollama run llama3.2

Dat is alles. Geen Python-omgevingen, geen afhankelijkheidsproblemen, geen GPU-drivers om mee te worstelen. Het regelt modeldownloads, kwantisatie en inferentie automatisch.

Waarom LLMs zelf hosten?

Privacy — Je prompts verlaten nooit je server
Geen limieten — Gebruik zoveel als je wilt
Geen API-kosten — Eenmalige VPS-kosten versus per-token-prijzen
Maatwerk — Fine-tunen, aanpassen, experimenteren
Offline bruikbaar — Werkt zonder internet na het downloaden van het model

VPS-Vereisten voor Ollama

Ollama kan draaien op CPU of GPU. Dit heb je nodig:

Minimum (alleen CPU, kleine modellen)

CPU: 4+ cores (AVX2-ondersteuning vereist)
RAM: 8GB (voor 7B-modellen)
Opslag: 20GB+ SSD (modellen zijn elk 4-8GB)

Aanbevolen (CPU, middelgrote modellen)

CPU: 8+ cores
RAM: 16GB (voor 13B-modellen)
Opslag: 50GB+ NVMe

Optimaal (GPU-versnelling)

GPU: NVIDIA met 8GB+ VRAM
RAM: 16GB+ systeemgeheugen
Opslag: 100GB+ NVMe

Beste VPS voor Ollama (CPU)

LLMs draaien op CPU is trager, maar werkt prima voor persoonlijk gebruik en testen.

1. Hetzner CPX41 (Beste CPU-waarde)

€14,99/maand | 8 vCPU (AMD EPYC), 16GB RAM, 160GB NVMe

Hetzner’s AMD EPYC-processors hebben uitstekende AVX2-prestaties. 16GB RAM verwerkt 13B-modellen zonder moeite.

Prestaties: ~10-15 tokens/sec met Llama 3.2 8B (Q4_K_M)

# Setup op Hetzner
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama3.2

2. Hostinger KVM8 (Budgetvriendelijk)

$19,99/maand | 8 vCPU, 16GB RAM, 200GB NVMe

Iets goedkoper dan Hetzner met goede specificaties. De 200GB opslag is handig als je meerdere modellen wilt bewaren.

3. Vultr High Frequency (Snelste CPU)

$48/maand | 4 vCPU (3GHz+), 16GB RAM, 256GB NVMe

Hogere kloksnelheden betekenen betere single-threaded prestaties. De moeite waard als responstijd belangrijk is.

Beste GPU VPS voor Ollama

GPU-versnelling is 10 tot 50 keer sneller dan CPU. Voor productie-klare AI-inferentie-setups verwijzen we je naar onze speciale gids. Dit zijn je opties:

1. Vultr Cloud GPU (Beste Beschikbaarheid)

$90/maand | NVIDIA A16 (16GB VRAM), 6 vCPU, 16GB RAM

Vultr biedt de meest toegankelijke GPU-instanties. De A16 verwerkt modellen tot 30B parameters.

Prestaties: ~50-80 tokens/sec met Llama 3.2 8B

# Controleer of GPU wordt herkend
nvidia-smi

# Ollama gebruikt automatisch de GPU
ollama run llama3.2

2. Lambda Labs (Beste voor AI)

$0,50/uur (~$360/maand) | NVIDIA A10 (24GB VRAM)

Lambda is gespecialiseerd in AI-workloads. Uitstekend voor serieuze ontwikkeling, maar duurder.

3. RunPod (Goedkoopste GPU)

$0,20/uur | NVIDIA RTX 4090 (24GB VRAM)

Spotprijzen maken dit de goedkoopste optie voor sporadisch gebruik. Niet geschikt voor 24/7-hosting.

4. Hetzner Dedicated GPU (Beste Waarde)

€179/maand | NVIDIA RTX 4000 (8GB VRAM), 8 cores, 64GB RAM

Dedicated GPU-server, geen cloud-instanties. Beste maandtarief als je altijd-actieve GPU nodig hebt.

Modelkeuze per VPS-Specificaties

Kies je model op basis van beschikbaar RAM/VRAM:

Model	Grootte	Min RAM (CPU)	Min VRAM (GPU)	Snelheid
Phi-3 Mini	2,2GB	4GB	4GB	Snelst
Llama 3.2 3B	2GB	4GB	4GB	Snel
Llama 3.2 8B	4,7GB	8GB	8GB	Goed
Mistral 7B	4,1GB	8GB	8GB	Goed
Llama 3.1 8B	4,7GB	8GB	8GB	Goed
Llama 2 13B	7,4GB	16GB	16GB	Trager
Mixtral 8x7B	26GB	32GB	24GB	Traag
Llama 3.1 70B	40GB	64GB	48GB	Zeer traag

Tip: Q4_K_M-kwantisatie (standaard in Ollama) biedt de beste balans tussen kwaliteit en bestandsgrootte.

Volledige Installatiegids

Stap 1: Maak je VPS aan

Voor deze gids gebruiken we Hetzner CPX41 (€14,99/maand, 8 vCPU, 16GB RAM):

Registreer bij Hetzner Cloud
Maak een server aan → Ubuntu 22.04 → CPX41
Voeg je SSH-sleutel toe
Noteer het IP-adres

Stap 2: Verbind en Installeer Ollama

ssh root@your-server-ip

# Ollama installeren
curl -fsSL https://ollama.ai/install.sh | sh

# Ollama-service starten
systemctl enable ollama
systemctl start ollama

Stap 3: Draai je Eerste Model

# Download en start Llama 3.2
ollama run llama3.2

# Of probeer eerst een kleiner model
ollama run phi3:mini

De eerste keer wordt het model gedownload (4-8GB). Daarna start het meteen.

Stap 4: API Beschikbaar Stellen (Optioneel)

Ollama draait een API op poort 11434:

# Lokaal testen
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hello!"
}'

Om extern toegankelijk te maken (⚠️ voeg authenticatie toe — zie onze VPS-beveiligingsgids):

# Ollama-service bewerken
sudo systemctl edit ollama

# Toevoegen:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

# Herstarten
sudo systemctl restart ollama

Stap 5: Gebruik met Open WebUI

Open WebUI geeft je een ChatGPT-achtige interface:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Bereikbaar via http://your-server-ip:3000

Prestatieoptimalisatie

1. Gebruik Gekwantiseerde Modellen

# Q4_K_M is standaard en biedt de beste balans
ollama run llama3.2:8b-instruct-q4_K_M

# Q5 voor iets betere kwaliteit
ollama run llama3.2:8b-instruct-q5_K_M

2. Vergroot de Contextlengte

# Modelfile aanmaken
cat << 'EOF' > Modelfile
FROM llama3.2
PARAMETER num_ctx 8192
EOF

ollama create llama3.2-8k -f Modelfile
ollama run llama3.2-8k

3. Swap Inschakelen (CPU-terugval)

fallocate -l 16G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. CPU-affiniteit Instellen (AMD EPYC)

taskset -c 0-7 ollama serve

Kostenvergelijking: VPS vs API

Je eigen Ollama-instantie draaien loont financieel:

Optie	Maandelijkse Kosten	Tokens/Maand
OpenAI GPT-4	$60	~1M tokens
Claude 3.5	$45	~1M tokens
Hetzner VPS + Ollama	€15	Onbeperkt
Vultr GPU + Ollama	$90	Onbeperkt

Als je meer dan 1-2 miljoen tokens per maand gebruikt, verdient zelfhosten zichzelf terug.

Veelgestelde Vragen

Kan ik Ollama draaien met 4GB RAM?

Nauwelijks. Je kunt Phi-3 Mini of Llama 3.2 1B draaien, maar grotere modellen crashen of gebruiken veel swap.

Is een GPU vereist voor Ollama?

Nee! CPU werkt prima, alleen trager. 8 vCPU geeft bruikbare snelheden voor 7-8B-modellen.

Wat is het beste model voor programmeren?

DeepSeek Coder of CodeLlama. Beide beschikbaar via ollama run deepseek-coder of ollama run codellama.

Kan ik modellen fine-tunen op een VPS?

Ja, maar daarvoor wil je een GPU VPS. CPU-fine-tuning is pijnlijk traag.

Hoe update ik Ollama?

curl -fsSL https://ollama.ai/install.sh | sh

Hetzelfde installatiecommando werkt ook als update naar de nieuwste versie.

Aanbevolen Setup

Gebruik	VPS	Kosten	Model
Testen/Persoonlijk	Hetzner CPX21	€8/maand	Phi-3 Mini
Dagelijks gebruik	Hetzner CPX41	€15/maand	Llama 3.2 8B
Snelle reacties	Vultr GPU	$90/maand	Llama 3.2 8B
Zware werklasten	Lambda A10	$360/maand	Llama 3.1 70B

Voor de meeste gebruikers is Hetzner CPX41 voor €15/maand met Llama 3.2 8B de beste keuze. Snel genoeg voor dagelijks gebruik, goedkoop genoeg om 24/7 aan te laten staan.

// last updated: February 8, 2026. Disclosure: This article may contain affiliate links.

Beste VPS voor Ollama 2026: Draai LLMs op je Eigen Server