← Retour au blog Technique

IA hors-ligne avec Ollama : guide pratique

20 mars 2026 10 min de lecture

Et si votre assistant IA fonctionnait sans connexion internet ? Avec Ollama, c'est possible. Ce guide vous montre comment installer, configurer et utiliser des modeles d'IA directement sur votre machine, et les integrer a Ramexa pour une experience fluide.

Pourquoi utiliser l'IA hors-ligne ?

L'IA cloud a ses limites. Voici pourquoi de plus en plus d'utilisateurs se tournent vers l'IA locale :

Qu'est-ce qu'Ollama ?

Ollama est un outil open-source qui permet de telecharger et d'executer des modeles de langage (LLM) localement. Il gere tout : telechargement du modele, gestion de la memoire GPU/CPU, et exposition d'une API locale compatible OpenAI.

Installation d'Ollama

Windows

  1. Rendez-vous sur le site officiel d'Ollama
  2. Telechargez l'installateur Windows
  3. Lancez l'installation (suivant, suivant, terminer)
  4. Ollama tourne en arriere-plan dans la barre des taches

macOS

brew install ollama

Ou telechargez l'application depuis le site officiel.

Linux

curl -fsSL https://ollama.com/install.sh | sh

Telecharger votre premier modele

Une fois Ollama installe, ouvrez un terminal et tapez :

ollama pull llama3.2

Cela telecharge le modele Llama 3.2 (environ 4 Go). D'autres modeles populaires :

Modele Taille Usage ideal
llama3.24 GoUsage general, bon equilibre vitesse/qualite
mistral4 GoExcellent pour le francais
codellama4 GoOptimise pour le code
phi32 GoUltra-leger, machines modestes
llama3.2:70b40 GoQualite maximale (necessite GPU puissant)

Tester en ligne de commande

Pour verifier que tout fonctionne :

ollama run llama3.2
>>> Bonjour ! Resume-moi les avantages de l'IA locale en 3 points.

La reponse apparait directement dans votre terminal, sans aucune connexion internet.

Integrer Ollama avec Ramexa

Ramexa detecte automatiquement Ollama s'il est installe. Voici comment configurer l'integration :

  1. Ouvrez Ramexa et accedez aux Parametres
  2. Dans la section Modeles IA, activez Ollama (local)
  3. Selectionnez le modele que vous avez telecharge
  4. C'est fait ! Ramexa utilisera ce modele quand vous etes hors-ligne

Ramexa bascule intelligemment entre le cloud et le local :

Optimiser les performances

GPU vs CPU

Ollama utilise automatiquement votre GPU si disponible (NVIDIA CUDA, Apple Metal). Sur GPU, les reponses sont 5 a 10 fois plus rapides qu'en CPU seul.

Choisir le bon modele

Quantification

Les modeles Ollama sont "quantifies" (comprimes) pour tourner sur du materiel grand public. La qualite reste excellente pour la plupart des usages quotidiens : redaction, resume, traduction, questions-reponses.

Cas d'usage concrets

1. Traitement de documents confidentiels

Avocat, medecin, RH — analysez des documents sensibles sans qu'ils ne quittent votre machine. Resume, extraction d'informations, redaction : tout reste en local.

2. Developpement en deplacement

En avion ou en train sans Wi-Fi, votre assistant IA continue de fonctionner. Generation de code, debugging, documentation — Ollama + Ramexa restent operationnels.

3. Usage intensif sans cout

Si vous faites des centaines de requetes IA par jour, le cout des API cloud s'accumule. Avec Ollama, c'est 100% gratuit apres l'investissement materiel initial.

L'IA qui fonctionne partout, meme sans internet

Telechargez Ramexa, installez Ollama, et profitez d'un assistant IA 100% local et gratuit.

Telecharger Ramexa gratuitement