Lokale / Private KI — Ihr Gehirn, Ihre Maschine, Ihre Regeln

Hier eine radikale Idee: Was wäre, wenn Sie eine wirklich intelligente KI auf Ihrer eigenen Hardware betreiben könnten, und nichts, was Sie ihr sagen, jemals Ihre Maschine verlässt? Keine Cloud-Server. Keine Datensammlung. Keine Abogebühren. Nur Sie, Ihr Laptop und eine Intelligenz, die Ihre Privatsphäre von vornherein respektiert. Willkommen zur Open-Weight-Revolution.

Filter Alle Alltags-Ökosystem Bildgenerierung Programmierung App-Builder Recherche Digitale Architekten Akademische Mentoren Video Musik & Stimme Lokale / Private KI Lokale Bildgenerierung Lokale Videogenerierung KI-Agenten

GLM-5.2

Lokale / Private KI Zhipu AI · Veröffentlicht 13. Juni 2026
#1
9.0/10

Das Open-Weight-Modell, das die Regeln für lokale KI neu schreibt. Design Arena #1, SWE-bench Pro 62,1%, Terminal-Bench 82,7, AkitaOnRails 87/100 — alles unter MIT-Lizenz zum Herunterladen und Selbst-Betreiben. 1M-Kontextfenster, zwei Reasoning-Stufen, und das erste offene Modell, das ernsthaft mit geschlossenen Frontier-Führern bei langfristigen Engineering-Aufgaben konkurriert.

Stärkstes offenes Modell für Coding und agentische Arbeit — Design Arena #1 (Elo 1360), AkitaOnRails 87/100 Tier A, SWE-bench Pro 62,1% (SOTA open-weight), FrontierSWE 74,4%. MIT-Lizenz ohne Einschränkungen. Kompakter als DeepSeek V4s 1,6T mit stärkeren verifizierten Benchmarks. Läuft auf vLLM, SGLang, ktransformers. Passt auf 256GB-Unified-Memory-Macs mit aggressiver Quantisierung.

744B MoE erfordert ernsthafte Hardware — 256GB+ Unified Memory oder Multi-GPU. Kein Laptop-Modell. Keine nativen Vision-Fähigkeiten. Langsamer pro Token als kompakte Modelle. Westliches Ökosystem reift noch.


Open Weights MIT 1M Context MoE Coding Agentic Design Arena #1

Qwen3.6 — 27B

Lokale / Private KI Alibaba (Qwen Team) · Veröffentlicht April 22, 2026
#2
8.3/10

Alibabas neuestes 27B-Dense-Modell löst nicht nur den bisherigen lokalen KI-König ab — es übertrifft das eigene 397B-Flaggschiff bei jedem wichtigen agentischen Coding-Benchmark und läuft auf einer einzigen Consumer-GPU. SWE-bench Verified 77,2, Terminal-Bench 2.0 59,3, native Vision und Video, Apache 2.0. Der Wendepunkt für lokale Inferenz.

Schlägt Qwen3.5-397B-A17B (ein 397B-MoE-Modell) bei SWE-bench Verified (77,2), SWE-bench Pro (53,5), Terminal-Bench 2.0 (59,3) und SkillsBench Avg5 (48,2). GPQA Diamond 87,8. Native Multimodalität mit Thinking Preservation. r/LocalLLaMA nennt es "die größte Veröffentlichung des Jahres" und "einen Wendepunkt für lokale Inferenz."

Ähnliches VRAM-Profil wie der Vorgänger (~17–20 GB in 4-Bit); sehr neu, daher sind quantisierte Optionen noch im Rollout; Denk-Modus kann bei einfacheren Aufgaben wortreich sein (umschaltbar). Bei den allerschwersten Long-Horizon-Agent-Runs noch nicht ganz auf dem Niveau geschlossener Frontier-Modelle.


Multimodal Open Weight Apache 2.0 Agentic Coding Vision + Video Free Offline

Gemma 4

Lokale / Private KI Google DeepMind · Veröffentlicht 2. April 2026 (12B Unified: 3. Juni 2026)
#3
8.1/10

Nicht ein Modell — fünf. Google DeepMinds Gemma 4 ist eine Familie, die alles abdeckt: von einem 2-Milliarden-Parameter-Winzling, der auf deinem Handy läuft, bis hin zu einem 31-Milliarden-Parameter-Kraftpaket für Server. Jedes Familienmitglied hat eine andere Architektur, andere Stärken und andere Hardware-Anforderungen. Das E2B passt in 1 GB RAM. Das 12B Unified betreibt eine vollständige multimodale KI auf einer Laptop-GPU. Das 26B MoE aktiviert nur 3,8B Parameter pro Token. Alle Apache 2.0, alle mit offenen Gewichten. Dieser Guide geht jedes einzelne durch, damit du genau weißt, welches Gemma zu deiner Hardware und deinem Workflow passt.

Fünf Modelle von Handy → Laptop → Server. 12B Unified: encoder-free multimodal, ~7 GB VRAM mit QAT, 100+ tok/s auf Consumer-GPUs. E2B läuft mit 1 GB RAM auf Handys. E4B erreicht 42,5 % AIME 2026 auf einem Smartphone. 26B MoE liefert ~97 % der 31B-Qualität bei einem Bruchteil der Rechenleistung. 31B gehört zu den Top 3 unter offenen Modellen. Alle Apache 2.0. Alle unterstützen 140+ Sprachen.

Fünf Modelle bedeuten fünf verschiedene Kompromisse. Edge-Modelle opfern Reasoning-Tiefe. Das 12B braucht eine ordentliche GPU. Das 26B/31B braucht ernsthaft VRAM. Kein einzelnes Modell kann alles — du wählst das, das zu deiner Hardware passt. Für die reibungsloseste Erfahrung ist Google-Tooling empfehlenswert.


Multimodal Open Weight Apache 2.0 On-Device QAT Free

Häufig gestellte Fragen

Lokale KI bietet vollständige Privatsphäre (Daten verlassen niemals Ihren Rechner), funktioniert offline, verursacht keine wiederkehrenden Abonnementkosten und umgeht Cloud-API-Ratenbegrenzungen.

Sie benötigen eine Grafikkarte mit ausreichend VRAM (mindestens 8 GB–12 GB für kleinere Modelle wie Llama 4 8B oder Gemma 4 und 16 GB–24 GB+ für größere Modelle wie Qwen 3.6 27B oder Gemma 4 31B) oder einen Apple Silicon Mac mit Unified Memory (16 GB–48 GB+). Die Ausführung nur über die CPU ist extrem langsam.

Echtes Open-Source umfasst das Trainingsdatenset und den Code. Open-Weight-Modelle (wie DeepSeek, Llama, Gemma) stellen Ihnen die vorab trainierten Gewichte für den lokalen Betrieb zur Verfügung, halten aber die genauen Trainingsdaten proprietär.

Der einfachste Weg ist die Nutzung kostenloser Anwendungen wie Ollama, LM Studio oder AnythingLLM. Sie übernehmen die komplexe Backend-Konfiguration, sodass Sie Modelle mit einem Klick herunterladen und nutzen können.