Meilleur VPS pour Ollama en 2026

Vous souhaitez faire tourner des LLMs comme Llama, Mistral ou Phi sur votre propre serveur ? Ollama rend la chose extrêmement simple, mais il faut les bonnes spécifications VPS. Pour une comparaison plus large des options d’hébergement LLM, consultez notre guide meilleur VPS pour l’hébergement LLM. Voici ce qui fonctionne vraiment.

Qu’est-ce qu’Ollama ?

Ollama est un outil qui vous permet de faire tourner de grands modèles de langage en local avec une seule commande :

ollama run llama3.2

C’est tout. Pas d’environnements Python, pas de galère avec les dépendances, pas de pilotes GPU à configurer. Il gère automatiquement le téléchargement des modèles, la quantification et l’inférence.

Pourquoi auto-héberger des LLMs ?

Confidentialité — Vos requêtes ne quittent jamais votre serveur
Aucune limite de débit — Utilisez autant que vous le souhaitez
Aucun coût d’API — Coût VPS unique versus facturation par token
Personnalisation — Affinez, modifiez, expérimentez
Fonctionne hors ligne — Opérationnel sans internet après le téléchargement du modèle

Configuration Requise pour Ollama

Ollama peut tourner sur CPU ou GPU. Voici ce dont vous avez besoin :

Minimum (CPU uniquement, petits modèles)

CPU : 4+ cœurs (support AVX2 requis)
RAM : 8 Go (pour les modèles 7B)
Stockage : 20 Go+ SSD (les modèles font 4-8 Go chacun)

Recommandé (CPU, modèles moyens)

CPU : 8+ cœurs
RAM : 16 Go (pour les modèles 13B)
Stockage : 50 Go+ NVMe

Optimal (accélération GPU)

GPU : NVIDIA avec 8 Go+ de VRAM
RAM : 16 Go+ de RAM système
Stockage : 100 Go+ NVMe

Meilleurs VPS pour Ollama (CPU)

Faire tourner des LLMs sur CPU est plus lent, mais convient parfaitement à un usage personnel et aux tests.

1. Hetzner CPX41 (Meilleur Rapport Qualité-Prix CPU)

14,99 €/mois | 8 vCPU (AMD EPYC), 16 Go RAM, 160 Go NVMe

Les CPU AMD EPYC de Hetzner offrent d’excellentes performances AVX2. 16 Go de RAM gère confortablement les modèles 13B.

Performance : ~10-15 tokens/sec avec Llama 3.2 8B (Q4_K_M)

# Setup on Hetzner
curl -fsSL https://ollama.ai/install.sh | sh
ollama run llama3.2

2. Hostinger KVM8 (Option Économique)

$19,99/mois | 8 vCPU, 16 Go RAM, 200 Go NVMe

Légèrement moins cher que Hetzner avec de bonnes spécifications. Les 200 Go de stockage sont appréciables pour conserver plusieurs modèles.

3. Vultr High Frequency (CPU le Plus Rapide)

$48/mois | 4 vCPU (3 GHz+), 16 Go RAM, 256 Go NVMe

Des fréquences d’horloge plus élevées offrent de meilleures performances monothread. Intéressant si la latence de réponse est importante pour vous.

Meilleurs GPU VPS pour Ollama

L’accélération GPU est 10 à 50 fois plus rapide que le CPU. Pour des configurations d’inférence IA de production, consultez notre guide dédié. Voici vos options :

1. Vultr Cloud GPU (Meilleure Disponibilité)

$90/mois | NVIDIA A16 (16 Go VRAM), 6 vCPU, 16 Go RAM

Vultr propose les instances GPU les plus accessibles. Le A16 gère des modèles jusqu’à 30 milliards de paramètres.

Performance : ~50-80 tokens/sec avec Llama 3.2 8B

# Verify GPU is detected
nvidia-smi

# Ollama automatically uses GPU
ollama run llama3.2

2. Lambda Labs (Meilleur pour l’IA)

$0,50/hr (~$360/mois) | NVIDIA A10 (24 Go VRAM)

Lambda se spécialise dans les charges de travail IA. Idéal pour le développement sérieux, mais plus coûteux.

3. RunPod (GPU le Moins Cher)

$0,20/hr | NVIDIA RTX 4090 (24 Go VRAM)

La tarification spot en fait l’option la moins chère pour une utilisation intermittente. Pas adapté à un hébergement 24h/24.

4. Hetzner Dedicated GPU (Meilleur Rapport Qualité-Prix)

179 €/mois | NVIDIA RTX 4000 (8 Go VRAM), 8 cœurs, 64 Go RAM

Serveur GPU dédié, pas une instance cloud. Meilleur tarif mensuel si vous avez besoin d’un GPU toujours actif.

Choix du Modèle selon les Spécifications VPS

Choisissez votre modèle en fonction de la RAM/VRAM disponible :

Modèle	Taille	RAM min (CPU)	VRAM min (GPU)	Vitesse
Phi-3 Mini	2,2 Go	4 Go	4 Go	Très rapide
Llama 3.2 3B	2 Go	4 Go	4 Go	Rapide
Llama 3.2 8B	4,7 Go	8 Go	8 Go	Bon
Mistral 7B	4,1 Go	8 Go	8 Go	Bon
Llama 3.1 8B	4,7 Go	8 Go	8 Go	Bon
Llama 2 13B	7,4 Go	16 Go	16 Go	Plus lent
Mixtral 8x7B	26 Go	32 Go	24 Go	Lent
Llama 3.1 70B	40 Go	64 Go	48 Go	Très lent

Conseil : La quantification Q4_K_M (par défaut dans Ollama) offre le meilleur équilibre qualité/taille.

Guide d’Installation Complet

Étape 1 : Créez votre VPS

Pour ce guide, nous utilisons Hetzner CPX41 (14,99 €/mois, 8 vCPU, 16 Go RAM) :

Inscrivez-vous sur Hetzner Cloud
Créez un serveur → Ubuntu 22.04 → CPX41
Ajoutez votre clé SSH
Notez l’adresse IP

Étape 2 : Connectez-vous et installez Ollama

ssh root@your-server-ip

# Install Ollama
curl -fsSL https://ollama.ai/install.sh | sh

# Start Ollama service
systemctl enable ollama
systemctl start ollama

Étape 3 : Lancez votre premier modèle

# Download and run Llama 3.2
ollama run llama3.2

# Or try smaller model first
ollama run phi3:mini

Le premier lancement télécharge le modèle (4-8 Go). Ensuite, il démarre instantanément.

Étape 4 : Exposer l’API (Optionnel)

Ollama expose une API sur le port 11434 :

# Test locally
curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Hello!"
}'

Pour exposer l’API en externe (⚠️ ajoutez une authentification — voir notre guide de sécurité VPS) :

# Edit Ollama service
sudo systemctl edit ollama

# Add:
[Service]
Environment="OLLAMA_HOST=0.0.0.0:11434"

# Restart
sudo systemctl restart ollama

Étape 5 : Utiliser avec Open WebUI

Open WebUI vous offre une interface similaire à ChatGPT :

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui \
  ghcr.io/open-webui/open-webui:main

Accédez à l’interface via http://your-server-ip:3000

Optimisation des Performances

1. Utiliser des Modèles Quantifiés

# Q4_K_M is default and best balance
ollama run llama3.2:8b-instruct-q4_K_M

# Q5 for slightly better quality
ollama run llama3.2:8b-instruct-q5_K_M

2. Augmenter la Longueur du Contexte

# Create modelfile
cat << 'EOF' > Modelfile
FROM llama3.2
PARAMETER num_ctx 8192
EOF

ollama create llama3.2-8k -f Modelfile
ollama run llama3.2-8k

3. Activer le Swap (repli CPU)

fallocate -l 16G /swapfile
chmod 600 /swapfile
mkswap /swapfile
swapon /swapfile
echo '/swapfile swap swap defaults 0 0' >> /etc/fstab

4. Épingler l’Affinité CPU (AMD EPYC)

taskset -c 0-7 ollama serve

Comparaison des Coûts : VPS vs API

Faire tourner votre propre instance Ollama est financièrement avantageux :

Option	Coût Mensuel	Tokens/Mois
OpenAI GPT-4	$60	~1M tokens
Claude 3.5	$45	~1M tokens
Hetzner VPS + Ollama	€15	Illimité
Vultr GPU + Ollama	$90	Illimité

Si vous utilisez plus de 1 à 2 millions de tokens par mois, l’auto-hébergement est rentabilisé rapidement.

Questions Fréquentes

Peut-on faire tourner Ollama avec 4 Go de RAM ?

Difficilement. Vous pouvez utiliser Phi-3 Mini ou Llama 3.2 1B, mais les modèles plus grands planteront ou utiliseront massivement le swap.

Un GPU est-il indispensable pour Ollama ?

Non ! Le CPU fonctionne très bien, simplement plus lentement. 8 vCPU offre des vitesses utilisables pour les modèles 7-8B.

Quel est le meilleur modèle pour le code ?

DeepSeek Coder ou CodeLlama. Les deux sont disponibles via ollama run deepseek-coder ou ollama run codellama.

Peut-on affiner des modèles sur un VPS ?

Oui, mais il vous faudra un GPU VPS pour cela. L’affinage sur CPU est extrêmement lent.

Comment mettre à jour Ollama ?

curl -fsSL https://ollama.ai/install.sh | sh

La même commande d’installation met à jour vers la dernière version.

Configuration Recommandée

Cas d’usage	VPS	Coût	Modèle
Tests/Usage personnel	Hetzner CPX21	€8/mois	Phi-3 Mini
Usage quotidien	Hetzner CPX41	€15/mois	Llama 3.2 8B
Réponses rapides	Vultr GPU	$90/mois	Llama 3.2 8B
Charges lourdes	Lambda A10	$360/mois	Llama 3.1 70B

Pour la plupart des utilisateurs, Hetzner CPX41 à 15 €/mois avec Llama 3.2 8B représente le meilleur compromis. Assez rapide pour un usage réel, assez abordable pour le laisser tourner 24h/24.

// last updated: February 8, 2026. Disclosure: This article may contain affiliate links.

Meilleur VPS pour Ollama 2026 : Faites tourner des LLMs sur votre propre serveur