Gemma 4
Google DeepMind · تم الإصدار 2 أبريل 2026 (12B Unified: 3 يونيو 2026)
ما هو في الواقع
معظم إطلاقات نماذج الذكاء الاصطناعي تمنحك نموذجًا واحدًا وقرارًا واحدًا: استخدمه أو لا تستخدمه. Gemma 4 يمنحك خمسة نماذج ويطرح سؤالاً مختلفًا: ما العتاد الذي تملكه؟
قد يبدو هذا كلامًا تسويقيًا، لكنه في الحقيقة أكثر شيء مفيد في هذه العائلة. كل عضو مختلف معماريًا — وليس مجرد نسخة مكبّرة من الشيء ذاته. نماذج الحافة تستخدم Per-Layer Embeddings. الـ 12B تخلّص من مشفّرات الرؤية والصوت بالكامل. الـ 26B يوجّه الرموز عبر خليط من 128 خبيرًا. الـ 31B ببساطة يُلقي بكل 30.7 مليار معامل على كل رمز. عائلة واحدة، فلسفات هندسية مختلفة، مقايضات مختلفة.
دعنا نستعرضها واحدًا تلو الآخر.
E2B — الذكاء الاصطناعي الجيبي (~1 غيغابايت ذاكرة)
أصغر عضو في عائلة Gemma 4. ملياران من المعاملات، مكمّم ليعمل في حوالي 1 غيغابايت من الذاكرة. يتعامل مع النصوص والصور والصوت الحي — كله على الجهاز، كله بدون اتصال. يحقق 37.5% في AIME 2026، وهو استدلال رياضي تنافسي على شيء يمكن أن يعمل على Raspberry Pi. السر يكمن في Per-Layer Embeddings (PLE)، التي تمنح كل طبقة فك ترميز تمثيلاً مخصّصًا لها لاستخلاص أقصى ذكاء بدون تضخيم عدد المعاملات. لن تخلط بينه وبين نموذج مكتبي، لكن للترجمات السريعة أو أسئلة عن الصور أو الاستعلامات الصوتية على هاتف اقتصادي — فهو مفيد فعلاً.
E4B — محطة الطاقة الهاتفية (4–6 غيغابايت ذاكرة)
الـ E4B هو ما يحدث عندما تمنح نموذجًا مُحسَّنًا للهاتف عددًا كافيًا من المعاملات ليفكّر فعلاً. يحقق 42.5% في AIME 2026 — أي أكثر من ضعف نتيجة نموذج Gemma 3 الأكبر بكثير 27B. يتعامل مع النصوص والصور والصوت بشكل أصلي، لديه نافذة سياق بحجم 128K، ويتضمّن وضع تفكير قابل للتهيئة للاستدلال متعدد الخطوات. إذا كان لديك هاتف رائد حديث بـ 8 غيغابايت ذاكرة أو أكثر، فهذا هو النموذج الذي يجعل عبارة «سأسأل هاتفي — بدون اتصال» خيارًا جدّيًا بدلاً من خدعة حفلات.
12B Unified — تغيير قواعد اللعبة للحواسيب المحمولة (~7 غيغابايت VRAM مع QAT)
هنا يصبح Gemma 4 مثيرًا لمعظم الناس. صدر في 3 يونيو 2026، والـ 12B Unified يفعل شيئًا لا يفعله أي نموذج آخر بحجمه: يتعامل مع النصوص والصور والصوت في محوّل واحد بمفكّك ترميز فقط (decoder-only) بدون مشفّرات منفصلة. رقع الصور الخام وأشكال الموجات الصوتية تدخل مباشرةً إلى فضاء التمثيل عبر طبقات خطية خفيفة. بنية أبسط، زمن استجابة أقل، ضبط دقيق أسهل.
الأرقام: 77.2% MMLU Pro، 77.5% AIME 2026، 72.0% LiveCodeBench، 78.8% GPQA Diamond. تقول جوجل إنه يقترب من 26B MoE «بأقل من نصف البصمة الإجمالية للذاكرة». مع متغيّر QAT (Quantization-Aware Training) الرسمي الذي صدر في 5 يونيو، نسخة Q4_0 تحتاج تقريبًا 6.7 غيغابايت VRAM. أضف إلى ذلك Multi-Token Prediction لفك الترميز التخميني، ومعايير المجتمع تُظهر 100–130+ رمز في الثانية على بطاقة 12 غيغابايت مثل RTX 4070 Super. بل يعمل حتى على حواسيب محمولة بـ 16 غيغابايت ذاكرة موحّدة — بدون حاجة لبطاقة رسومات مخصّصة.
إذا أردت نموذجًا واحدًا من هذه العائلة ولديك حاسوب محمول ببطاقة رسومات لائقة، فهذا هو.
26B MoE — خبير الكفاءة (15–18 غيغابايت VRAM مكمّم)
الـ 26B يحتوي على 26 مليار معامل إجمالاً، لكن الحيلة هنا: فقط 3.8 مليار تُنشَّط لكل رمز. موجّه متعلّم يختار 2 من 128 شبكة فرعية متخصصة لكل رمز، فيمنحك جودة قريبة من 31B بتكلفة حوسبة أقل بشكل كبير. فكّر في الأمر كمبنى مليء بالمتخصصين حيث تستدعي فقط الاثنين اللذين تحتاجهما لكل سؤال.
يدعم النصوص والصور والفيديو (وليس الصوت فقط كالنماذج الأصغر)، لديه نافذة سياق بحجم 256K، ويحتل المرتبة السادسة بين النماذج المفتوحة على Arena AI. المقايضة هي VRAM — تحتاج 15–18 غيغابايت مكمّمًا، ما يعني RTX 4090، أو RTX 5060 Ti 16GB، أو Mac بـ 32 غيغابايت+ ذاكرة موحّدة. إذا كان لديك العتاد وتريد أفضل نسبة ذكاء لكل واط، فهذا نموذجك.
31B Dense — العملاق بلا تنازلات (16–20 غيغابايت VRAM مكمّم)
لا توجيه، لا خليط خبراء، لا اختصارات. الـ 31B Dense يُطلق كل 30.7 مليار معامل على كل رمز. إنه سقف الجودة في عائلة Gemma 4 — يحتل المرتبة الثالثة بين جميع النماذج المفتوحة على Arena AI ويحقق 89.2% في AIME 2026. نفس الوسائط كالـ 26B (نصوص وصور وفيديو)، نفس نافذة السياق 256K، لكن بأقصى عمق استدلال في كل استجابة.
التكلفة هي الحوسبة. BF16 يحتاج حوالي 71 غيغابايت VRAM (أرض بطاقات الرسومات المؤسسية). لكن مكمّمًا إلى INT4، يعمل في 16–20 غيغابايت — قابل للإدارة على بطاقة رسومات استهلاكية متطورة. إذا كان لديك العتاد والدقة أهم من السرعة بالنسبة لك، فهذا هو النموذج المفتوح الأقرب لأداء السحابة الرائد.
أي نموذج يجب أن تختار؟
إليك ورقة الغش الصادقة:
- هاتف، بدون اتصال، مهام سريعة ← E4B (أو E2B لأجهزة محدودة جدًا)
- حاسوب محمول، بطاقة 8–12 غيغابايت ← 12B Unified مع QAT
- حاسوب محمول، 16 غيغابايت ذاكرة موحّدة، بدون بطاقة رسومات ← 12B Unified مع QAT (أبطأ لكنه يعمل)
- محطة عمل، RTX 4090 / Mac بـ 32 غيغابايت ← 26B MoE (أفضل جودة لكل واط)
- خادم أو محطة عمل متطورة ← 31B Dense (أقصى جودة)
جميع النماذج الخمسة تتشارك ترخيص Apache 2.0، وتدعم أكثر من 140 لغة، وتعمل مع Ollama وllama.cpp وLM Studio وvLLM ومجموعة أدوات Google AI Edge. العائلة تختلف في البنية المعمارية — لكنها تتفق على الفلسفة: ذكاء اصطناعي جدّي يعمل على عتادك أنت.
نقاط القوة الرئيسية
- E2B — ذكاء اصطناعي على هاتف اقتصادي (1 غيغابايت ذاكرة): أصغر عضو في العائلة يعمل مكمّمًا في حوالي 1 غيغابايت من الذاكرة. نصوص وصور وصوت — كله على الجهاز، كله بدون اتصال. يحقق 37.5% في AIME 2026، وهي نتيجة كانت ستُعتبر مبهرة لنموذج مكتبي قبل عامين. يستخدم Per-Layer Embeddings (PLE) لاستخلاص أقصى ذكاء من أقل عدد ممكن من المعاملات. مثالي لأجهزة إنترنت الأشياء وRaspberry Pi وهواتف Android الاقتصادية.
- E4B — ذكاء اصطناعي للهواتف الرائدة (4–6 غيغابايت ذاكرة): النقطة المثالية للأجهزة المحمولة. يحقق 42.5% في AIME 2026 — أي أكثر من ضعف نتيجة نموذج Gemma 3 27B. يتعامل مع النصوص والصور والصوت بشكل أصلي. نافذة سياق بحجم 128K. وضع تفكير مدمج للاستدلال المعقّد. هذا مساعد ذكاء اصطناعي كفء فعلاً يعمل بالكامل على هاتفك بدون إنترنت. إذا كان لديك هاتف رائد حديث، فهذا نموذجك.
- 12B Unified — تغيير قواعد اللعبة للحواسيب المحمولة (~7 غيغابايت VRAM مع QAT): نجم العائلة. بنية بدون مشفّرات (encoder-free) — لا مشفّر رؤية أو صوت منفصل. محوّل واحد يتعامل مع النصوص والصور والصوت بشكل أصلي. متغيّر QAT يعمل بحوالي 6.7 غيغابايت VRAM (Q4_0)، أي يناسب بطاقة RTX 4070 بـ 12 غيغابايت أو حاسوب محمول بـ 16 غيغابايت ذاكرة موحّدة. فك الترميز التخميني عبر MTP يقدّم 100–130+ رمز/ثانية. يحقق 77.2% MMLU Pro، 77.5% AIME 2026، 72.0% LiveCodeBench. يقترب من 26B MoE بنصف الذاكرة.
- 26B MoE — كفاءة محطات العمل (15–18 غيغابايت VRAM مكمّم): 26 مليار معامل إجمالاً، لكن فقط 3.8 مليار تُنشَّط لكل رمز. موجّه متعلّم يختار 2 من 128 خبيرًا لكل طبقة، ليمنحك جودة قريبة من 31B بجزء بسيط من الحوسبة. يدعم النصوص والصور والفيديو. سياق بحجم 256K. يحتل المرتبة السادسة بين النماذج المفتوحة. مثالي للمطورين الذين يملكون RTX 4090 أو Mac بـ 32 غيغابايت ويريدون أفضل نسبة جودة إلى سرعة.
- 31B Dense — سقف الجودة (16–20 غيغابايت VRAM مكمّم): كل واحد من 30.7 مليار معامل يعمل على كل رمز. لا توجيه، لا اختصارات — أقصى عمق استدلال. يحتل المرتبة الثالثة بين النماذج المفتوحة. 89.2% في AIME 2026. نصوص وصور وفيديو. سياق بحجم 256K. إذا كان لديك ذاكرة VRAM كافية (RTX 4090 أو Mac بـ 64 غيغابايت)، فهذا هو النموذج المفتوح الأقرب لنماذج السحابة الرائدة.
-
AIME 2026 — 31B: 89.2%، 12B: 77.5%، E4B: 42.5%، E2B: 37.5% رياضيات تنافسية. تُظهر سلّم الجودة الواضح عبر العائلة — من حجم الهاتف إلى فئة الخوادم. الـ 12B يدخل أرض الرياضيات الجدّية من حاسوب محمول.
-
MMLU Pro — 12B: 77.2% استدلال معرفي على المستوى المهني. الـ 12B يقترب من 26B MoE (~97% من نتيجته) مع استخدام أقل من نصف الذاكرة. ذكاء استثنائي لكل معامل.
-
LiveCodeBench v6 — 12B: 72.0% تقييم برمجة واقعي. الـ 12B مساعد برمجة محلي بكفاءة حقيقية — قوي كفاية لعمل التطوير اليومي بدون اعتماد على السحابة.
-
GPQA Diamond — 12B: 78.8% أسئلة وأجوبة علمية على مستوى الدراسات العليا. نتائج كانت ستُعتبر رائدة قبل عام، تعمل الآن على عتاد المستهلك مع تكميم QAT.
-
Arena AI — 31B: المرتبة 3، 26B MoE: المرتبة 6 (نماذج مفتوحة) مقارنة جماهيرية وجهًا لوجه. الـ 31B من الطبقة العليا بين النماذج المفتوحة؛ الـ 26B MoE يقترب منه بفارق 1–2% بجزء بسيط من الحوسبة.
-
Codeforces ELO — 12B: 1659 برمجة تنافسية. قوي كفاية لحل مسائل خوارزمية غير بسيطة محليًا. الـ 26B/31B يسجّلان نتائج أعلى.
قيود صادقة
- نماذج الحافة تُقايض العمق بالخفة: E2B وE4B لن يضاهيا الـ 12B في الاستدلال المعقّد أو البرمجة متعددة الخطوات أو التحليل العميق. هي مُحسَّنة للجودة لكل بايت، وليس للجودة المطلقة. ممتازة للمهام السريعة، وليس للأبحاث.
- 12B يحتاج بطاقة رسومات حقيقية (أو حاسوب محمول قوي): حتى مع QAT، تحتاج حوالي 7 غيغابايت VRAM متاحة للاستدلال. هذا يعني بطاقة رسومات مخصّصة (فئة GTX 1080 وما فوق) أو حاسوب محمول بـ 16 غيغابايت+ ذاكرة موحّدة. الرسومات المدمجة لن تفي بالغرض لسرعات عملية.
- 26B/31B يحتاجان عتادًا جدّيًا: مكمّمًا، أنت بحاجة إلى 15–20 غيغابايت VRAM. بدون تكميم (BF16)، الـ 31B يحتاج حوالي 71 غيغابايت. هذه نماذج لمحطات العمل أو الحواسيب المحمولة المتطورة، وليست لإعداد اقتصادي.
- لا فيديو على الحافة أو 12B: فهم الفيديو متاح فقط على 26B و31B. النماذج الأصغر تتعامل مع النصوص والصور والصوت فقط.
- أدوات جوجل مفضّلة: أفضل دعم عبر MediaPipe وLiteRT وGoogle AI Edge SDK وAI Studio. أدوات Ollama وllama.cpp وLM Studio تعمل بشكل جيد، لكن توقّع بعض الحواف الخشنة مقارنةً بالمسار المُحسَّن من جوجل.
- غير مصمّم لجلسات الماراثون: على عكس نماذج السحابة الرائدة التي تُجري سباقات برمجة مستقلة متواصلة لعدة أيام، Gemma 4 مبني للاستدلال في جولة واحدة أو متعددة — وليس لماراثونات وكيلية مطوّلة.
الحكم: Gemma 4 هي أكثر عائلة نماذج مفتوحة عملية صدرت هذا العام — ليس لأن نموذجًا واحدًا منها هو الأفضل في كل شيء، بل لأن هناك Gemma لكل حالة. تبني مساعدًا يعمل بدون اتصال على الهاتف؟ E4B. تحتاج رفيق برمجة خاصًا على حاسوبك المحمول ببطاقة 12 غيغابايت؟ الـ 12B Unified مع QAT. تُشغّل محطة عمل بـ RTX 4090 وتريد أقصى جودة لكل واط؟ الـ 26B MoE. تحتاج أقصى استدلال مفتوح على مستوى الرواد؟ الـ 31B Dense. البنى المعمارية مختلفة (PLE، encoder-free، MoE، dense)، متطلبات العتاد مختلفة (من 1 غيغابايت إلى 71 غيغابايت)، لكنها تتشارك الترخيص نفسه (Apache 2.0)، والدعم اللغوي نفسه (أكثر من 140 لغة)، والفلسفة نفسها: ذكاء اصطناعي جدّي يعمل على عتادك أنت، وليس سحابة شخص آخر.