Beste VPS voor Ollama 2026: Draai LLMs op je Eigen Server
Ontdek de beste VPS voor het draaien van Ollama en zelfgehoste LLMs. Vergelijk GPU VPS-opties, CPU-vereisten en zet je AI-modellen binnen enkele minuten aan de gang.
Beste VPS voor Ollama in 2026
Wil je LLMs zoals Llama, Mistral of Phi op je eigen server draaien? Ollama maakt het verrassend eenvoudig, maar je hebt wel de juiste VPS-specificaties nodig. Voor een bredere vergelijking van LLM-hostingopties, bekijk onze beste VPS voor LLM-hosting gids. Dit is wat echt werkt.
Wat is Ollama?
Ollama is een tool waarmee je grote taalmodellen lokaal kunt draaien met één enkel commando:
ollama run llama3.2
Dat is alles. Geen Python-omgevingen, geen afhankelijkheidsproblemen, geen GPU-drivers om mee te worstelen. Het regelt modeldownloads, kwantisatie en inferentie automatisch.
Waarom LLMs zelf hosten?
- Privacy — Je prompts verlaten nooit je server
- Geen limieten — Gebruik zoveel als je wilt
- Geen API-kosten — Eenmalige VPS-kosten versus per-token-prijzen
- Maatwerk — Fine-tunen, aanpassen, experimenteren
- Offline bruikbaar — Werkt zonder internet na het downloaden van het model
VPS-Vereisten voor Ollama
Ollama kan draaien op CPU of GPU. Dit heb je nodig:
Minimum (alleen CPU, kleine modellen)
- CPU: 4+ cores (AVX2-ondersteuning vereist)
- RAM: 8GB (voor 7B-modellen)
- Opslag: 20GB+ SSD (modellen zijn elk 4-8GB)
Aanbevolen (CPU, middelgrote modellen)
- CPU: 8+ cores
- RAM: 16GB (voor 13B-modellen)
- Opslag: 50GB+ NVMe
Optimaal (GPU-versnelling)
- GPU: NVIDIA met 8GB+ VRAM
- RAM: 16GB+ systeemgeheugen
- Opslag: 100GB+ NVMe
Beste VPS voor Ollama (CPU)
LLMs draaien op CPU is trager, maar werkt prima voor persoonlijk gebruik en testen.
1. Hetzner CPX41 (Beste CPU-waarde)
€14,99/maand | 8 vCPU (AMD EPYC), 16GB RAM, 160GB NVMe
Hetzner’s AMD EPYC-processors hebben uitstekende AVX2-prestaties. 16GB RAM verwerkt 13B-modellen zonder moeite.
Prestaties: ~10-15 tokens/sec met Llama 3.2 8B (Q4_K_M)
# Setup op Hetzner
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama3.2
2. Hostinger KVM8 (Budgetvriendelijk)
$19,99/maand | 8 vCPU, 16GB RAM, 200GB NVMe
Iets goedkoper dan Hetzner met goede specificaties. De 200GB opslag is handig als je meerdere modellen wilt bewaren.
3. Vultr High Frequency (Snelste CPU)
$48/maand | 4 vCPU (3GHz+), 16GB RAM, 256GB NVMe
Hogere kloksnelheden betekenen betere single-threaded prestaties. De moeite waard als responstijd belangrijk is.
Beste GPU VPS voor Ollama
GPU-versnelling is 10 tot 50 keer sneller dan CPU. Voor productie-klare AI-inferentie-setups verwijzen we je naar onze speciale gids. Dit zijn je opties:
1. Vultr Cloud GPU (Beste Beschikbaarheid)
$90/maand | NVIDIA A16 (16GB VRAM), 6 vCPU, 16GB RAM
Vultr biedt de meest toegankelijke GPU-instanties. De A16 verwerkt modellen tot 30B parameters.
Prestaties: ~50-80 tokens/sec met Llama 3.2 8B
# Controleer of GPU wordt herkend
nvidia-smi
# Ollama gebruikt automatisch de GPU
ollama run llama3.2
2. Lambda Labs (Beste voor AI)
$0,50/uur (~$360/maand) | NVIDIA A10 (24GB VRAM)
Lambda is gespecialiseerd in AI-workloads. Uitstekend voor serieuze ontwikkeling, maar duurder.
3. RunPod (Goedkoopste GPU)
$0,20/uur | NVIDIA RTX 4090 (24GB VRAM)
Spotprijzen maken dit de goedkoopste optie voor sporadisch gebruik. Niet geschikt voor 24/7-hosting.
4. Hetzner Dedicated GPU (Beste Waarde)
€179/maand | NVIDIA RTX 4000 (8GB VRAM), 8 cores, 64GB RAM
Dedicated GPU-server, geen cloud-instanties. Beste maandtarief als je altijd-actieve GPU nodig hebt.
Modelkeuze per VPS-Specificaties
Kies je model op basis van beschikbaar RAM/VRAM:
| Model | Grootte | Min RAM (CPU) | Min VRAM (GPU) | Snelheid |
|---|---|---|---|---|
| Phi-3 Mini | 2,2GB | 4GB | 4GB | Snelst |
| Llama 3.2 3B | 2GB | 4GB | 4GB | Snel |
| Llama 3.2 8B | 4,7GB | 8GB | 8GB | Goed |
| Mistral 7B | 4,1GB | 8GB | 8GB | Goed |
| Llama 3.1 8B | 4,7GB | 8GB | 8GB | Goed |
| Llama 2 13B | 7,4GB | 16GB | 16GB | Trager |
| Mixtral 8x7B | 26GB | 32GB | 24GB | Traag |
| Llama 3.1 70B | 40GB | 64GB | 48GB | Zeer traag |
Tip: Q4_K_M-kwantisatie (standaard in Ollama) biedt de beste balans tussen kwaliteit en bestandsgrootte.
Volledige Installatiegids
Stap 1: Maak je VPS aan
Voor deze gids gebruiken we Hetzner CPX41 (€14,99/maand, 8 vCPU, 16GB RAM):
- Registreer bij Hetzner Cloud
- Maak een server aan → Ubuntu 22.04 → CPX41
- Voeg je SSH-sleutel toe
- Noteer het IP-adres
Stap 2: Verbind en Installeer Ollama
ssh root@your-server-ip
# Ollama installeren
curl -fsSL https://ollama.ai/install.sh | sh
# Ollama-service starten
systemctl enable ollama
systemctl start ollama
Stap 3: Draai je Eerste Model
# Download en start Llama 3.2
ollama run llama3.2
# Of probeer eerst een kleiner model
ollama run phi3:mini
De eerste keer wordt het model gedownload (4-8GB). Daarna start het meteen.
Stap 4: API Beschikbaar Stellen (Optioneel)
Ollama draait een API op poort 11434:
# Lokaal testen
curl http://localhost:11434/api/generate -d '{
"model": "llama3.2",
"prompt": "Hello!"
}'
Om extern toegankelijk te maken (⚠️ voeg authenticatie toe — zie onze VPS-beveiligingsgids):
# Ollama-service bewerken
sudo systemctl edit ollama
# Toevoegen:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"
# Herstarten
sudo systemctl restart ollama
Stap 5: Gebruik met Open WebUI
Open WebUI geeft je een ChatGPT-achtige interface:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui \
ghcr.io/open-webui/open-webui:main
Bereikbaar via http://your-server-ip:3000
Prestatieoptimalisatie
1. Gebruik Gekwantiseerde Modellen
# Q4_K_M is standaard en biedt de beste balans
ollama run llama3.2:8b-instruct-q4_K_M
# Q5 voor iets betere kwaliteit
ollama run llama3.2:8b-instruct-q5_K_M
2. Vergroot de Contextlengte
# Modelfile aanmaken
cat << 'EOF' > Modelfile
FROM llama3.2
PARAMETER num_ctx 8192
EOF
ollama create llama3.2-8k -f Modelfile
ollama run llama3.2-8k
3. Swap Inschakelen (CPU-terugval)
fallocate -l 16G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab
4. CPU-affiniteit Instellen (AMD EPYC)
taskset -c 0-7 ollama serve
Kostenvergelijking: VPS vs API
Je eigen Ollama-instantie draaien loont financieel:
| Optie | Maandelijkse Kosten | Tokens/Maand |
|---|---|---|
| OpenAI GPT-4 | $60 | ~1M tokens |
| Claude 3.5 | $45 | ~1M tokens |
| Hetzner VPS + Ollama | €15 | Onbeperkt |
| Vultr GPU + Ollama | $90 | Onbeperkt |
Als je meer dan 1-2 miljoen tokens per maand gebruikt, verdient zelfhosten zichzelf terug.
Veelgestelde Vragen
Kan ik Ollama draaien met 4GB RAM?
Nauwelijks. Je kunt Phi-3 Mini of Llama 3.2 1B draaien, maar grotere modellen crashen of gebruiken veel swap.
Is een GPU vereist voor Ollama?
Nee! CPU werkt prima, alleen trager. 8 vCPU geeft bruikbare snelheden voor 7-8B-modellen.
Wat is het beste model voor programmeren?
DeepSeek Coder of CodeLlama. Beide beschikbaar via ollama run deepseek-coder of ollama run codellama.
Kan ik modellen fine-tunen op een VPS?
Ja, maar daarvoor wil je een GPU VPS. CPU-fine-tuning is pijnlijk traag.
Hoe update ik Ollama?
curl -fsSL https://ollama.ai/install.sh | sh
Hetzelfde installatiecommando werkt ook als update naar de nieuwste versie.
Aanbevolen Setup
| Gebruik | VPS | Kosten | Model |
|---|---|---|---|
| Testen/Persoonlijk | Hetzner CPX21 | €8/maand | Phi-3 Mini |
| Dagelijks gebruik | Hetzner CPX41 | €15/maand | Llama 3.2 8B |
| Snelle reacties | Vultr GPU | $90/maand | Llama 3.2 8B |
| Zware werklasten | Lambda A10 | $360/maand | Llama 3.1 70B |
Voor de meeste gebruikers is Hetzner CPX41 voor €15/maand met Llama 3.2 8B de beste keuze. Snel genoeg voor dagelijks gebruik, goedkoop genoeg om 24/7 aan te laten staan.
Ready to get started?
Get the best VPS hosting deal today. Hostinger offers 4GB RAM VPS starting at just $4.99/mo.
Get Hostinger VPS — $4.99/mo// up to 75% off + free domain included
// related topics
// related guides
AWS EC2 Alternatives 2026: Cheaper, Simpler VPS Hosting
Best AWS EC2 alternatives for cheaper VPS hosting. Compare Hetzner, Vultr, DigitalOcean, and more — save 70%+ with simpler billing.
reviewCheapest VPS Hosting 2026 — Best Budget Servers From $2.50
We compared 10 budget VPS providers on price, specs, and support. Here are the cheapest worth using — from $2.50/mo with real performance data.
reviewBest GPU VPS in 2026 — Cheapest NVIDIA Servers Compared
Rent GPU servers from $0.50/hr. We compare 8 GPU VPS providers for AI training, inference, and rendering — NVIDIA A100, H100, and RTX options.
reviewBest macOS VPS for iOS Development in 2026
Need a macOS VPS for iOS app development? We review the best providers offering macOS virtual servers for Xcode, Swift, and App Store publishing.
Andrius Putna
I am Andrius Putna. Geek. Since early 2000 in love tinkering with web technologies. Now AI. Bridging business and technology to drive meaningful impact. Combining expertise in customer experience, technology, and business strategy to deliver valuable insights. Father, open-source contributor, investor, 2xIronman, MBA graduate.
// last updated: February 8, 2026. Disclosure: This article may contain affiliate links.