Claude Fable 5

Anthropic · تم الإصدار June 9, 2026

9.9 /10 التقييم العام

ما هو في الواقع

هناك رقم يجعل كتابة هذه المراجعة سهلة: 80.3%. هذه نتيجة Claude Fable 5 على SWE-Bench Pro — المعيار الذي لا يهتم بالمسائل البسيطة، فقط ما إذا كان الذكاء الاصطناعي يستطيع إصلاح أخطاء حقيقية في قواعد أكواد إنتاجية حقيقية. GPT-5.5 يسجّل 58.6%. الملك السابق Opus 4.8 سجّل 69.2%. Fable 5 لا يفوز فحسب — بل يفوز بفارق يجعلك تعيد التحقق من الأرقام.

لكن SWE-Bench Pro نصف القصة فقط. FrontierCode Diamond — معيار Cognition لمعرفة ما إذا كانت النماذج تستطيع كتابة كود إنتاجي عالي الجودة بكفاءة رمزية — يروي النصف الآخر. Fable 5: 29.3%. Opus 4.8: 13.4%. GPT-5.5: 5.7%. هذا ليس تقدّماً؛ إنه رياضة مختلفة. والنموذج يحقق هذه النتائج بجهد تفكير متوسط، مما يعني أنه يحرق رموزاً أقل لإنتاج كود أفضل. النموذج الغالي الذي هو فعلاً أرخص لكل مهمة واقعية.

دراسة حالة Stripe ليست خيالاً صحفياً. قاعدة أكواد Ruby من 50 مليون سطر — من النوع الذي يجعل المهندسين يتعرّقون — تمّ ترحيلها في يوم واحد. عمل كان سيستغرق فريقاً كاملاً شهرين. النموذج خطّط ونفّذ وتحقّق ذاتياً وسلّم. على CursorBench، قال الرئيس التنفيذي لـ Cursor إنه “فتح فئة من المشاكل طويلة الأفق كانت بعيدة المنال عن النماذج السابقة.” وعلى Senior Engineer Benchmark، سجّل 91/100 — بينما GPT-5.5 وOpus 4.8 كلاهما حلّ في أوائل الستينات.

هذا ما تبدو عليه بنية فئة Mythos عندما تغلّفها بحواجز أمان وتسلّمها للمطورين. الحواجز حقيقية — الاستعلامات عن الأمن السيبراني والبيولوجيا والكيمياء تُحوَّل إلى Opus 4.8 (لا يزال ممتازاً، لكن ليس المحرك الكامل). لكن لأكثر من 95% من أعمال البرمجة التي لا تُنشّط مُصنّفات الأمان، أنت تعمل مع أقدر نموذج أُطلق للعموم على الإطلاق. عصر البرمجة الوكيلية حصل للتو على بطله الأوضح.

نقاط القوة الرئيسية

SWE-Bench Pro 80.3% — الرقم القياسي الجديد: المعيار الذي يختبر هندسة البرمجيات الواقعية حصل للتو على رقم قياسي تاريخي جديد. Fable 5 يتقدم على GPT-5.5 (58.6%) بفارق 21.7 نقطة وعلى سلفه Opus 4.8 (69.2%) بفارق 11.1 نقطة. هذا ليس سباقاً متقارباً — إنه دوري مختلف.
FrontierCode Diamond 29.3% — إعادة تعريف كفاءة الرموز: معيار Cognition لجودة الكود الإنتاجي يُظهر Fable 5 عند 29.3%، وOpus 4.8 عند 13.4%، وGPT-5.5 عند 5.7%. النموذج يحقق نتائج رائدة حتى بجهد تفكير متوسط — مما يعني حرق رموز أقل لنتائج أفضل.
إثبات واقعي بـ 50 مليون سطر: Stripe استخدمت Fable 5 لترحيل قاعدة أكواد Ruby من 50 مليون سطر في يوم واحد — عمل كان سيستغرق فريقاً كاملاً شهرين. ليس معياراً. ليس عرضاً توضيحياً. كود إنتاجي في قاعدة أكواد إنتاجية.
برمجة أصلية بالرؤية: يعيد بناء تطبيقات ويب من لقطات الشاشة وحدها. يستخرج أرقاماً دقيقة من الرسوم البيانية العلمية. أتمّ Pokémon FireRed بالرؤية فقط — بدون أدوات مساعدة، بدون بيانات حالة اللعبة. النموذج يقرأ شاشتك ويبرمج مما يراه.
عمل مستقل طويل الأفق: يخطط، يفوّض لوكلاء فرعيين، يكتب ويشغّل اختباراته الخاصة، ويصحّح ذاتياً عبر جلسات متعددة الأيام. الذاكرة المستمرة المعتمدة على الملفات حسّنت أداء Slay the Spire بمقدار 3× أكثر من Opus 4.8. لا يبدأ قوياً فحسب — بل يبقى قوياً.

لمحة عن المعايير

SWE-Bench Pro — 80.3% (SOTA) هندسة برمجيات واقعية. يتقدم على GPT-5.5 (58.6%) بـ 21.7 نقطة وعلى Opus 4.8 (69.2%) بـ 11.1 نقطة. أكبر فارق يحققه أي نموذج على الإطلاق على معيار البرمجة الحاسم.
FrontierCode Diamond — 29.3% (SOTA) كود إنتاجي عالي الجودة بكفاءة رمزية. 2.2× مقارنة بـ Opus 4.8 (13.4%) و5.1× مقارنة بـ GPT-5.5 (5.7%). يحقق أداءً رائداً حتى بجهد تفكير متوسط.
Senior Engineer Benchmark — 91/100 يتفوق على GPT-5.5 (62/100) وOpus 4.8 (63/100) بفارق كبير. مهام مصمّمة لاختبار الحكم الهندسي على مستوى كبار المهندسين.
CursorBench — SOTA أفضل أداء على معيار Cursor للبرمجة المدمجة في بيئات التطوير. 'فتح فئة من المشاكل طويلة الأفق كانت بعيدة المنال عن النماذج السابقة.'

قيود صادقة

⚠️ تعليق الوصول لغير المواطنين الأمريكيين: في 12 يونيو 2026، أصدرت الحكومة الأمريكية توجيهاً لمراقبة الصادرات يعلّق كل الوصول إلى Fable 5 وMythos 5 لأي مواطن أجنبي — سواء كان داخل الولايات المتحدة أو خارجها. اضطرت Anthropic لتعطيل النموذج لجميع العملاء لضمان الامتثال. تظل جميع نماذج Anthropic الأخرى متاحة. تعارض Anthropic هذا التوجيه وتعمل على استعادة الوصول. راجع إعلانهم للاطلاع على آخر المستجدات.
تكلفة متميزة: $10/$50 لكل مليون رمز تقريباً 2× مقارنة بـ Opus 4.8 ($5/$25). كفاءة الرموز تعوّض جزئياً على المهام المعقدة، لكن المستخدمين الخفيفين سيشعرون بالفاتورة. مشتركو Pro يحصلون على وصول مضمّن حتى 22 يونيو، ثم أرصدة استخدام.
توجيه أمان على المواضيع المُعلَّمة: الاستعلامات التي تمسّ الأمن السيبراني أو البيولوجيا أو الكيمياء أو تقطير النماذج تُحوَّل تلقائياً إلى Opus 4.8. تنشط في أقل من 5% من الجلسات مع بعض الإيجابيات الخاطئة. باحثو الأمن المشروعون قد يحتاجون Mythos 5 المقيّد عبر Project Glasswing.
تقييمات الأطراف الثالثة لا تزال تظهر: معايير Anthropic الخاصة مفصّلة وغنية بالأمثلة، لكن أرقام LMSYS Arena وArtificial Analysis الكاملة غير متاحة بعد يوم الإطلاق. المؤشرات المبكرة إيجابية جداً.
أفضل أداء في البيئة المناسبة: Fable 5 يتألق أكثر في Claude Code وتكاملات API. تجربة محادثة claude.ai قوية، لكن قدرات النموذج الوكيلية تنطلق حقاً مع الأدوات المناسبة.

الحكم: تاج البرمجة انتقل للتو — بشكل حاسم. Claude Fable 5 لا يتفوق فقط على GPT-5.5 في SWE-Bench Pro — بل يتفوق عليه بـ 21.7 نقطة. لا يتصدر FrontierCode Diamond فحسب — بل يتصدره بخمس مرات. وعلى عكس الانتصارات في المعايير الاصطناعية، الإيصالات الواقعية وصلت فعلاً: 50 مليون سطر مُرحَّلة في يوم، إتمام ألعاب بالرؤية فقط، جلسات هندسية مستقلة متعددة الأيام. Opus 4.8 السابق كان ملك المبضع؛ Fable 5 هو ملك المبضع الذي يدير غرفة العمليات بأكملها أيضاً. نعم، يكلف 2× أكثر لكل رمز. نعم، أقل من 5% من الجلسات تُوجَّه أمنياً إلى Opus 4.8. لكن لنوع الهندسة العميقة المعقدة طويلة الأفق التي تُعرّف تطوير البرمجيات الاحترافي في 2026 — هذا أقوى نموذج برمجة يمكن لأي شخص الوصول إليه. نقطة.