Beste VPS voor Ollama 2026: Draai LLMs op je Eigen Server
REVIEW 10 min read fordnox

Beste VPS voor Ollama 2026: Draai LLMs op je Eigen Server

Ontdek de beste VPS voor het draaien van Ollama en zelfgehoste LLMs. Vergelijk GPU VPS-opties, CPU-vereisten en zet je AI-modellen binnen enkele minuten aan de gang.


Beste VPS voor Ollama in 2026

Wil je LLMs zoals Llama, Mistral of Phi op je eigen server draaien? Ollama maakt het verrassend eenvoudig, maar je hebt wel de juiste VPS-specificaties nodig. Voor een bredere vergelijking van LLM-hostingopties, bekijk onze beste VPS voor LLM-hosting gids. Dit is wat echt werkt.

Wat is Ollama?

Ollama is een tool waarmee je grote taalmodellen lokaal kunt draaien met één enkel commando:

ollama run llama3.2

Dat is alles. Geen Python-omgevingen, geen afhankelijkheidsproblemen, geen GPU-drivers om mee te worstelen. Het regelt modeldownloads, kwantisatie en inferentie automatisch.

Waarom LLMs zelf hosten?

VPS-Vereisten voor Ollama

Ollama kan draaien op CPU of GPU. Dit heb je nodig:

Minimum (alleen CPU, kleine modellen)

Aanbevolen (CPU, middelgrote modellen)

Optimaal (GPU-versnelling)

Beste VPS voor Ollama (CPU)

LLMs draaien op CPU is trager, maar werkt prima voor persoonlijk gebruik en testen.

1. Hetzner CPX41 (Beste CPU-waarde)

€14,99/maand | 8 vCPU (AMD EPYC), 16GB RAM, 160GB NVMe

Hetzner’s AMD EPYC-processors hebben uitstekende AVX2-prestaties. 16GB RAM verwerkt 13B-modellen zonder moeite.

Prestaties: ~10-15 tokens/sec met Llama 3.2 8B (Q4_K_M)

# Setup op Hetzner
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama3.2

2. Hostinger KVM8 (Budgetvriendelijk)

$19,99/maand | 8 vCPU, 16GB RAM, 200GB NVMe

Iets goedkoper dan Hetzner met goede specificaties. De 200GB opslag is handig als je meerdere modellen wilt bewaren.

3. Vultr High Frequency (Snelste CPU)

$48/maand | 4 vCPU (3GHz+), 16GB RAM, 256GB NVMe

Hogere kloksnelheden betekenen betere single-threaded prestaties. De moeite waard als responstijd belangrijk is.

Beste GPU VPS voor Ollama

GPU-versnelling is 10 tot 50 keer sneller dan CPU. Voor productie-klare AI-inferentie-setups verwijzen we je naar onze speciale gids. Dit zijn je opties:

1. Vultr Cloud GPU (Beste Beschikbaarheid)

$90/maand | NVIDIA A16 (16GB VRAM), 6 vCPU, 16GB RAM

Vultr biedt de meest toegankelijke GPU-instanties. De A16 verwerkt modellen tot 30B parameters.

Prestaties: ~50-80 tokens/sec met Llama 3.2 8B

# Controleer of GPU wordt herkend
nvidia-smi

# Ollama gebruikt automatisch de GPU
ollama run llama3.2

2. Lambda Labs (Beste voor AI)

$0,50/uur (~$360/maand) | NVIDIA A10 (24GB VRAM)

Lambda is gespecialiseerd in AI-workloads. Uitstekend voor serieuze ontwikkeling, maar duurder.

3. RunPod (Goedkoopste GPU)

$0,20/uur | NVIDIA RTX 4090 (24GB VRAM)

Spotprijzen maken dit de goedkoopste optie voor sporadisch gebruik. Niet geschikt voor 24/7-hosting.

4. Hetzner Dedicated GPU (Beste Waarde)

€179/maand | NVIDIA RTX 4000 (8GB VRAM), 8 cores, 64GB RAM

Dedicated GPU-server, geen cloud-instanties. Beste maandtarief als je altijd-actieve GPU nodig hebt.

Modelkeuze per VPS-Specificaties

Kies je model op basis van beschikbaar RAM/VRAM:

ModelGrootteMin RAM (CPU)Min VRAM (GPU)Snelheid
Phi-3 Mini2,2GB4GB4GBSnelst
Llama 3.2 3B2GB4GB4GBSnel
Llama 3.2 8B4,7GB8GB8GBGoed
Mistral 7B4,1GB8GB8GBGoed
Llama 3.1 8B4,7GB8GB8GBGoed
Llama 2 13B7,4GB16GB16GBTrager
Mixtral 8x7B26GB32GB24GBTraag
Llama 3.1 70B40GB64GB48GBZeer traag

Tip: Q4_K_M-kwantisatie (standaard in Ollama) biedt de beste balans tussen kwaliteit en bestandsgrootte.

Volledige Installatiegids

Stap 1: Maak je VPS aan

Voor deze gids gebruiken we Hetzner CPX41 (€14,99/maand, 8 vCPU, 16GB RAM):

  1. Registreer bij Hetzner Cloud
  2. Maak een server aan → Ubuntu 22.04 → CPX41
  3. Voeg je SSH-sleutel toe
  4. Noteer het IP-adres

Stap 2: Verbind en Installeer Ollama

ssh root@your-server-ip

# Ollama installeren
curl -fsSL https://ollama.ai/install.sh | sh

# Ollama-service starten
systemctl enable ollama
systemctl start ollama

Stap 3: Draai je Eerste Model

# Download en start Llama 3.2
ollama run llama3.2

# Of probeer eerst een kleiner model
ollama run phi3:mini

De eerste keer wordt het model gedownload (4-8GB). Daarna start het meteen.

Stap 4: API Beschikbaar Stellen (Optioneel)

Ollama draait een API op poort 11434:

# Lokaal testen
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hello!"
}'

Om extern toegankelijk te maken (⚠️ voeg authenticatie toe — zie onze VPS-beveiligingsgids):

# Ollama-service bewerken
sudo systemctl edit ollama

# Toevoegen:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

# Herstarten
sudo systemctl restart ollama

Stap 5: Gebruik met Open WebUI

Open WebUI geeft je een ChatGPT-achtige interface:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Bereikbaar via http://your-server-ip:3000

Prestatieoptimalisatie

1. Gebruik Gekwantiseerde Modellen

# Q4_K_M is standaard en biedt de beste balans
ollama run llama3.2:8b-instruct-q4_K_M

# Q5 voor iets betere kwaliteit
ollama run llama3.2:8b-instruct-q5_K_M

2. Vergroot de Contextlengte

# Modelfile aanmaken
cat << 'EOF' > Modelfile
FROM llama3.2
PARAMETER num_ctx 8192
EOF

ollama create llama3.2-8k -f Modelfile
ollama run llama3.2-8k

3. Swap Inschakelen (CPU-terugval)

fallocate -l 16G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. CPU-affiniteit Instellen (AMD EPYC)

taskset -c 0-7 ollama serve

Kostenvergelijking: VPS vs API

Je eigen Ollama-instantie draaien loont financieel:

OptieMaandelijkse KostenTokens/Maand
OpenAI GPT-4$60~1M tokens
Claude 3.5$45~1M tokens
Hetzner VPS + Ollama€15Onbeperkt
Vultr GPU + Ollama$90Onbeperkt

Als je meer dan 1-2 miljoen tokens per maand gebruikt, verdient zelfhosten zichzelf terug.

Veelgestelde Vragen

Kan ik Ollama draaien met 4GB RAM?

Nauwelijks. Je kunt Phi-3 Mini of Llama 3.2 1B draaien, maar grotere modellen crashen of gebruiken veel swap.

Is een GPU vereist voor Ollama?

Nee! CPU werkt prima, alleen trager. 8 vCPU geeft bruikbare snelheden voor 7-8B-modellen.

Wat is het beste model voor programmeren?

DeepSeek Coder of CodeLlama. Beide beschikbaar via ollama run deepseek-coder of ollama run codellama.

Kan ik modellen fine-tunen op een VPS?

Ja, maar daarvoor wil je een GPU VPS. CPU-fine-tuning is pijnlijk traag.

Hoe update ik Ollama?

curl -fsSL https://ollama.ai/install.sh | sh

Hetzelfde installatiecommando werkt ook als update naar de nieuwste versie.

Aanbevolen Setup

GebruikVPSKostenModel
Testen/PersoonlijkHetzner CPX21€8/maandPhi-3 Mini
Dagelijks gebruikHetzner CPX41€15/maandLlama 3.2 8B
Snelle reactiesVultr GPU$90/maandLlama 3.2 8B
Zware werklastenLambda A10$360/maandLlama 3.1 70B

Voor de meeste gebruikers is Hetzner CPX41 voor €15/maand met Llama 3.2 8B de beste keuze. Snel genoeg voor dagelijks gebruik, goedkoop genoeg om 24/7 aan te laten staan.

~/best-vps-for-ollama/get-started

Ready to get started?

Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.

Get Hostinger VPS — $4.99/mo

// up to 75% off + free domain included

// related topics

beste vps voor ollama ollama hosting zelfgehoste llm vps voor ai llama draaien op vps gpu vps voor ai

// related guides

Andrius Putna

Andrius Putna

I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.

// last updated: February 8, 2026. Disclosure: This article may contain affiliate links.