Grok Imagine Video 1.5
xAI · Veröffentlicht 31. Mai 2026
Was es wirklich ist
xAIs Grok Imagine Video 1.5 ist das Ergebnis, wenn man 110.000 GPUs auf das Problem loslässt, Videogenerierung schnell, günstig und tatsächlich gut zu machen. Am 31. Mai 2026 leise als Preview gestartet, stürmte es prompt an die Spitze von Arena.ais Image-to-Video-Leaderboard — dem blinden Geschmackstest, der am meisten zählt — und schlug Seedance 2.0, Veo 3.1 und jeden anderen Herausforderer in der direkten menschlichen Präferenzabstimmung.
Das Modell läuft auf xAIs Aurora-Autoregressive-Engine und unterstützt drei Kernmodi: Text-to-Video, Image-to-Video (seine größte Stärke) und referenzkonditionierte Generierung zur Wahrung visueller Konsistenz. Natives Audio ist nicht nachträglich angeschraubt — es ist von Grund auf integriert und erzeugt lippensynchronen Dialog, Umgebungsklänge und Musik im selben Forward-Pass wie die Visuals. Version 1.5 hat speziell die Natürlichkeit von Dialog und Hintergrund-Audio-Integration gegenüber dem 1.0-Release verbessert.
Aber die eigentliche Schlagzeile ist der Preis: Mit $0.06–$0.08 pro Sekunde kostet Grok Imagine Video 1.5 nur einen Bruchteil dessen, was Seedance ($0.30+/s) oder Sora 2 Pro ($0.70/s) verlangen — und Audio ist inklusive. Für Creator, die schnell iterieren und in großem Umfang produzieren müssen, ist die Rechnung unwiderstehlich. Der Zugang läuft über xAIs API, den Grok-Chatbot (SuperGrok-Stufen von $10–$300/Monat) und Drittanbieter-Plattformen wie Fal.ai, Replicate und OpenRouter.
Zentrale Stärken
- Arena.ai #1 bei Image-to-Video: Führt das relevanteste Community-Blindtest-Leaderboard mit 1,473 Elo aus über 5.500 Stimmen an — knapp vor Seedance 2.0 (1,467) und deutlich über den Veo 3.1-Varianten. Das Modell, das Menschen wählen, wenn sie das Label nicht sehen können.
- Native Audio-Generierung: Erzeugt synchronisierten Dialog mit präzisem Lip-Sync, Umgebungsgeräusche, Musik und Soundeffekte in einem einzigen Generierungsdurchlauf. Version 1.5 hat die Natürlichkeit gegenüber 1.0 verbessert, insbesondere bei der Integration von Hintergrundmusik.
- Bestes Preis-Leistungs-Verhältnis: Mit $0.06–$0.08 pro Sekunde ($3.60–$4.80/Min.) ist es dramatisch günstiger als Seedance ($0.30+/s), Sora 2 Pro ($0.70/s) und wettbewerbsfähig mit Kling — inklusive nativem Audio ohne Zusatzkosten.
- Blitzschnelle Generierung: Clips werden in 5–30 Sekunden gerendert (je nach Komplexität), ideal für schnelle kreative Iteration. Basiert auf xAIs Aurora-Engine, die auf 110.000 NVIDIA GB200 GPUs läuft.
- Flexibles API-Ökosystem: Verfügbar über xAIs REST API (console.x.ai) sowie Fal.ai, Replicate, OpenRouter und WaveSpeedAI. Sieben Seitenverhältnisse werden unterstützt (16:9, 9:16, 1:1, 4:3, 3:4, 3:2, 2:3).
-
Arena.ai Image-to-Video — #1 (1,473 Elo) Führt das relevanteste Blind-Leaderboard für menschliche Präferenzen mit über 5.500 Stimmen an. Hat Seedance 2.0 um 6 Elo-Punkte und die Vorgängerversion von Grok um 52 Punkte geschlagen. Der Goldstandard für reale Nutzerpräferenz.
-
Generierungsgeschwindigkeit — 5–30 Sekunden Eines der schnellsten Frontier-Video-Modelle. Angetrieben von xAIs Aurora-Autoregressive-Engine auf 110K GB200 GPUs. Ermöglicht schnelle kreative Iteration, die langsamere Modelle nicht bieten können.
-
Kosteneffizienz — $0.06–$0.08/Sek. Bestes Preis-Leistungs-Verhältnis in der Frontier-Video-Kategorie. 480p für $0.06/Sek., 720p für $0.08/Sek., mit nativem Audio inklusive. Konkurrenten verlangen 4–10x mehr für vergleichbare Qualität.
Ehrliche Einschränkungen
- 720p-Obergrenze: Maximale Ausgabeauflösung ist 720p bei 24fps — während Kling 3.0 4K bei 60fps liefert. Ausreichend für Social Media und Prototyping, aber unzureichend für Kinoproduktionen.
- Nur kurze Clips: Maximale Dauer 6–15 Sekunden. Kein Multi-Shot-Storyboarding oder Szenenverkettung — jede Generierung steht für sich. Längere Erzählungen erfordern manuellen Zusammenschnitt.
- Aggressive Content-Moderation: Selbst eindeutig unbedenkliche Prompts lösen manchmal Content-Filter aus. Professionelle Creator berichten von Frustration durch inkonsistente Durchsetzung.
- Preview-Einschränkungen: Dynamische Drosselung reduziert die Generierungslimits bei Spitzenauslastung. Die Credit-Kosten sind seit dem Launch gestiegen. Die Plattform-Ökonomie ist noch im Fluss.
Das Fazit: Das derzeit beste Frontier-Video-Modell in Sachen Preis-Leistung — und das, welches echte Menschen in Blindtests wählen. Grok Imagine Video 1.5 wird weder Seedance 2.0s Multi-Shot-Kontrolle auf Regisseur-Niveau noch Klings 4K-Kinoqualität ersetzen, aber das muss es auch nicht. Für schnelles kreatives Prototyping, Social-Media-Content und alle, die Arena-führende Qualität ohne Arena-führende Preise wollen, ist es die offensichtliche Wahl. Noch im Preview-Status, also mit Ecken und Kanten zu rechnen — aber die Richtung ist unverkennbar.