IA locale / privée — Votre cerveau, votre machine, vos règles

Voici une idée radicale : et si vous pouviez faire tourner une IA véritablement intelligente sur votre propre matériel, sans qu'aucune de vos données ne quitte jamais votre machine ? Pas de serveurs cloud. Pas de collecte de données. Pas de frais d'abonnement. Juste vous, votre portable et une intelligence qui respecte votre vie privée par conception. Bienvenue dans la révolution des modèles open-weight.

Filtre Tous Écosystème Quotidien Génération d'Images Programmation Créateurs d'Applications Recherche Architectes Numériques Mentors Académiques Vidéo Musique et Voix IA Locale / Privée Génération d'Images Locale Génération Vidéo Locale Agents IA

GLM-5.2

IA Locale / Privée Zhipu AI · Publié 13 juin 2026
#1
9.0/10

Le modèle open-weight qui réécrit les règles de l'IA locale. Design Arena #1, SWE-bench Pro 62,1%, Terminal-Bench 82,7, AkitaOnRails 87/100 — le tout sous licence MIT. Contexte 1M tokens et premier modèle ouvert à rivaliser véritablement avec les leaders fermés sur les tâches d'ingénierie à long horizon.

Modèle ouvert le plus fort pour le coding — Design Arena #1 (Elo 1360), AkitaOnRails 87/100 Tier A, SWE-bench Pro 62,1% SOTA, FrontierSWE 74,4%. MIT sans restrictions. Plus compact que DeepSeek V4 (1,6T) avec des benchmarks vérifiés plus forts. Rentre sur des Macs 256Go avec quantification.

744B MoE nécessite 256Go+ ou clusters multi-GPU. Pas de vision native. Plus lent que les modèles compacts. Écosystème occidental en maturation.


Open Weights MIT 1M Context MoE Coding Agentic Design Arena #1

Qwen3.6 — 27B

IA Locale / Privée Alibaba (Qwen Team) · Publié April 22, 2026
#2
8.3/10

Le dernier modèle dense de 27B d'Alibaba ne se contente pas de succéder au précédent roi de l'IA locale — il surpasse son propre flagship de 397B sur chaque benchmark de codage agentique majeur tout en tournant sur un seul GPU grand public. SWE-bench Verified 77,2, Terminal-Bench 2.0 59,3, vision et vidéo natifs, Apache 2.0.

Bat Qwen3.5-397B-A17B (un modèle MoE de 397B) sur SWE-bench Verified (77,2), SWE-bench Pro (53,5), Terminal-Bench 2.0 (59,3) et SkillsBench Avg5 (48,2). GPQA Diamond 87,8. Multimodal natif avec préservation du raisonnement. r/LocalLLaMA le qualifie de « plus grande sortie de l'année » et de « tournant pour l'inférence locale ».

Profil VRAM similaire au prédécesseur (~17–20 Go en 4 bits) ; très récent donc les options quantifiées continuent de se déployer ; le mode pensée peut être verbeux sur les tâches simples (désactivable).


Multimodal Open Weight Apache 2.0 Agentic Coding Vision + Video Free Offline

Gemma 4

IA Locale / Privée Google DeepMind · Publié 2 avril 2026 (12B Unified : 3 juin 2026)
#3
8.1/10

Pas un modèle — cinq. Gemma 4 de Google DeepMind est une famille couvrant tout, d'un modèle de 2 milliards de paramètres qui tourne sur votre téléphone à un mastodonte dense de 31 milliards de paramètres pour serveurs. Chaque membre a une architecture différente, des forces différentes et des besoins matériels différents. Le E2B tient dans 1 Go de RAM. Le 12B Unified fait tourner une IA multimodale complète sur un GPU de laptop. Le 26B MoE n'active que 3,8B de paramètres par token. Tous Apache 2.0, tous open-weight, tous à vous. Ce guide passe en revue chacun pour que vous sachiez exactement quel Gemma correspond à votre matériel et votre utilisation.

Cinq modèles couvrant téléphone → laptop → serveur. 12B Unified : multimodal encoder-free, ~7 Go VRAM avec QAT, 100+ tok/s sur GPU grand public. E2B tourne dans 1 Go de RAM sur téléphone. E4B obtient 42,5% AIME 2026 sur smartphone. 26B MoE délivre ~97% de la qualité du 31B à une fraction du calcul. 31B classé top-3 parmi les modèles ouverts. Tous Apache 2.0. Tous supportent 140+ langues.

Cinq modèles signifie cinq jeux de compromis. Les modèles edge sacrifient la profondeur de raisonnement. Le 12B nécessite un GPU correct. Les 26B/31B demandent sérieusement de VRAM. Aucun modèle unique ne fait tout — vous choisissez celui qui correspond à votre matériel. Outillage Google préféré pour l'expérience la plus fluide.


Multimodal Open Weight Apache 2.0 On-Device QAT Free

Foire aux questions

L’IA locale offre une confidentialité totale (les données ne quittent jamais votre machine), fonctionne hors ligne, ne nécessite pas d’abonnement récurrent et évite les limites de requêtes des API cloud.

Vous avez besoin d’un GPU performant avec suffisamment de VRAM (au moins 8 à 12 Go pour les petits modèles comme Llama 4 8B ou Gemma 4, et 16 à 24 Go ou plus pour les grands modèles comme Qwen 3.6 27B ou Gemma 4 31B) ou d’un Mac Apple Silicon avec mémoire unifiée (16 à 48 Go ou plus). L’exécution par CPU est très lente.

L’open-source réel inclut le jeu de données d’entraînement et le code. Les modèles open-weight (comme DeepSeek, Llama, Gemma) vous fournissent les poids pré-entraînés pour exécution locale, mais le jeu de données d’entraînement reste propriétaire.

Le plus simple est d’utiliser des applications gratuites comme Ollama, LM Studio ou AnythingLLM. Elles gèrent la configuration complexe du backend pour vous permettre de télécharger et discuter avec les modèles en un clic.