AI Integration · 2026-05-29 · 13 Min.

Gemini 3.5 Pro: Was wir nach Flash und Omni über Googles nächstes Flaggschiff wissen — und was reine Spekulation bleibt

Michael Kaiser

Co-Founder & Head of Systems, Vincency

Am 19. Mai 2026 trat Sundar Pichai in der Shoreline Amphitheatre auf die Bühne und tat etwas, das niemand erwartet hatte: Er veröffentlichte zuerst Gemini 3.5 Flash — und verschob die Pro-Version. Das Publikum stöhnte hörbar auf. Seit mehr als einem Jahrzehnt war Googles Spielbuch klar: Zuerst das Flaggschiff, dann die Destillation in günstigere Varianten. Diesmal übertraf die "günstige" Variante auf nahezu jedem Benchmark, der für Entwickler relevant ist, das vorherige Flaggschiff. Und das echte Flaggschiff? "Gebt uns bis nächsten Monat, um es euch zu bringen", sagte Pichai. Dieser Monat ist jetzt da. Das ist, was wir über Gemini 3.5 Pro wissen — und was die Flash- und Omni-Releases über Googles umgeschriebene KI-Strategie verraten.

Die Flash-Überraschung: Warum Googles umgekehrte Release-Reihenfolge wichtig ist

Gemini 3.5 Flash sollte in dieser Form nicht existieren. Historisch waren Flash-Modelle Kompromisse: schneller, billiger und messbar schwächer als ihre Pro-Geschwister. Gemini 3.5 Flash bricht diesen Vertrag. Laut Googles veröffentlichten Benchmarks — unterschrieben von DeepMind-CTO Koray Kavukcuoglu, Jeff Dean, Oriol Vinyals und Noam Shazeer — erzielt Flash 76,2 Prozent auf Terminal-Bench 2.1, dem Industriestandard-Benchmark für agentisches Coding. Das sind sechs Punkte mehr als Gemini 3.1 Pro mit 70,3 Prozent. Beim MCP Atlas, der Tool-Use-Koordination über das Model Context Protocol misst, erreicht Flash 83,6 Prozent. Es läuft mit rund 280 Token pro Sekunde Output-Geschwindigkeit, viermal schneller als vergleichbare Frontier-Modelle, und kostet — laut durchgesickerten API-Dokumentationen — 1,50 $ pro Million Input-Token und 9,00 $ pro Million Output-Token.

Der architektonische Grund für diesen Sprung, wie er in Googles technischer Dokumentation beschrieben wird, ist eine Kombination aus extremer Wissensdestillation von einem nicht offenbarten "Gemini 3.5 Ultra"-Lehrermodell und einer neuen Mixture-of-Experts-Architektur mit 256 Mikro-Experten, von denen vier pro Inference-Schritt aktiviert werden. Jeff Dean wies in einer Post-I/O-Analyse darauf hin, dass das Fine-Tuning-Verhältnis auf hochwertigen Logical-Chain-Datasets um 400 Prozent gegenüber der vorherigen Generation gestiegen ist. Das Ergebnis ist ein Modell, das das "logische Gehirn" einer hypothetischen Ultra-Stufe geerbt hat, ohne deren Inference-Kosten zu tragen.

Was dies strategisch bedeutsam macht, ist nicht der Benchmark-Score allein. Es ist das Signal, das Google sendet, indem es Flash vor Pro veröffentlicht. In jeder vorherigen Gemini-Generation — 1.0, 1.5, 2.0, 2.5, 3.0, 3.1 — führte Pro und Flash folgte. Die Umkehrung impliziert eine von zwei Dingen: Entweder ist Google so zuversichtlich in Flashs Fähigkeiten, dass es Pro nicht mehr braucht, um Glaubwürdigkeit zu etablieren, oder Pro steht vor technischen Herausforderungen, die zusätzliche Zeit erfordern. Die verfügbare Evidenz unterstützt die erste Interpretation stärker. Pichais genaue Worte — "Ich weiß, ihr könnt es kaum erwarten, es in den Händen zu halten. Gebt uns bis nächsten Monat" — deuten auf Verfeinerung hin, nicht auf Krise.

Was der Flash-Launch über Pros wahrscheinliche Architektur verrät

Google hat keine Benchmark-Zahlen, Preise, Model Card oder Kontextfenster-Spezifikation für Gemini 3.5 Pro veröffentlicht. Die bestätigten Fakten passen in eine einzige Tabelle:

Launch-Fenster: Juni 2026 ("nächster Monat" ab I/O am 19. Mai)
Aktueller Status: interne Nutzung bei Google für Training und Red-Teaming
Fokusbereich: geteilt mit Flash bei Coding und agentischen Fähigkeiten
Alles andere: unbestätigt

Dennoch ist der Flash-Launch ungewöhnlich aufschlussreich darüber, was Pro nicht sein wird. Es wird keine marginale Verbesserung gegenüber Flash bei Coding-Geschwindigkeit sein, denn Flash sättigt bereits diese Dimension. Es wird nicht primär beim Preis konkurrieren, denn Flash besetzt die aggressive-Kosten-Position. Worauf Flash regrediert — laut mehrerer unabhängiger Analysen — ist genau dort, wo Pro sich differenzieren wird: komplexes Reasoning bei extremen Kontextlängen, Langzeit-Konsistenz bei Aufgaben und tiefe multimodale Synthese.

Die Evidenz für diese Regression stammt aus vergleichenden Tests zwischen Flash und 3.1 Pro. Während Flash bei Terminal-Bench und MCP Atlas gewinnt, fällt es bei bestimmten Long-Context-Retrieval-Benchmarks und bei Aufgaben zurück, die erweiterte Ketten abstrakten Reasonings erfordern. Das ist kein Fehler; es ist der vorhersehbare Trade-off einer destillierten, geschwindigkeitsoptimierten Architektur. Pro wird nach logischer Schlussfolgerung die Reasoning-Tiefe wiederherstellen und erweitern, die Flash für Latenz opfert. Googles Geschichte unterstützt dies: Gemini 3.1 Ultra behielt ein 2M-Token-Kontextfenster und tiefere Reasoning-Fähigkeiten bei, auch nachdem 3.1 Pro zum Developer-Default wurde.

Die glaubwürdigste leak-abgeleitete Spekulation — und ich betone, dass dies Spekulation ist, keine bestätigte Tatsache — positioniert Pro mit einem 2 Millionen Token Kontextfenster, Unterstützung für Computer Use (direkte Desktop/OS-Interaktion, die Flash fehlt) und einem "Thinking Mode" mit pro-Request-Reasoning-Tiefensteuerung. Wenn zutreffend, würde dies Pro zu Googles Antwort auf Claude Opus 4.8s agentische Tiefe und GPT-5.5s Computer-Use-Fähigkeiten machen, während Flash bei Geschwindigkeit und Kosten konkurriert.

Gemini Omni: Die Video-Schicht, die Google gefehlt hat

Während die Developer-Community auf Flash-Benchmarks fokussiert war, startete Google stillschweigend etwas Potenziell Konsequenteres für den Mainstream-Adoption: Gemini Omni. Beschrieben von DeepMind-CEO Demis Hassabis als "unser erster Schritt hin zu einem Modell, das aus jedem Input alles erschaffen kann", ist Omni Googles erstes natives World Model mit Video-Generation und -Editing als initiale Output-Modalität.

Der technische Unterschied zwischen Omni und Googles bestehendem Veo 3.1 Video-Modell ist nicht subtil — und die Verwechslung zwischen den beiden hat bei Entwicklern bereits Planungsprobleme verursacht. Veo 3.1 ist eine spezialisierte Text-zu-Video-Engine: Text rein, filmisches Video raus. Es ist seit Oktober 2025 produktionsstabil, mit etablierten API-Routen, Preisstufen (Lite bei 0,03 $/Sek., Fast bei 0,10 $/Sek., Quality bei 0,20-0,40 $/Sek.) und Enterprise-Integrationen über Vertex AI. Omni ist fundamental anders: Es akzeptiert jede beliebige Kombination aus Text, Bildern, Audio und Video als Input, unterhält ein internes World Model mit physik-bewusster Simulation (Gravitation, Fluid-Dynamik, kinetische Energie) und ermöglicht konversationelles Editing, bei dem Nutzer Outputs durch Multi-Turn-Dialog verfeinern, anstatt Prompts von Grund auf neu zu schreiben.

Die erste verfügbare Variante, Gemini Omni Flash, generiert 10-Sekunden-Clips mit synchronisiertem Audio und wurde sofort in der Gemini-App, Google Flow, YouTube Shorts und YouTube Create ausgerollt. Googles offizielle FAQ klärt einen kritischen Punkt, den viele Schlagzeilen übersehen haben: Omni ersetzt Veo nur innerhalb der Gemini-Consumer-App. Veo 3.1 bleibt vollständig in Vertex AI, der Gemini API, Google AI Studio und Google Flow unterstützt. Für Enterprise-Entwickler bedeutet das: keine erzwungene Migration. Für Consumer-Creator bedeutet es einen generationellen Sprung in der Editierbarkeit.

Charakter-Konsistenz über Szenen hinweg ist Omnis technisch beeindruckendste behauptete Fähigkeit. Nutzer können einen Charakter einmal definieren — via Textbeschreibung, Referenzbilder oder einen digitalen Avatar, der aus ihrem eigenen Erscheinungsbild erstellt wird — und diesen Charakter dann in jede Szene platzieren, mit bewahrtem Identität über Lichtwechsel, Kamerawinkel und Umweltveränderungen hinweg. Wenn das so funktioniert wie demonstriert, löst es das mit Abstand größte Qualitätsproblem in der KI-Video-Generation: den "Face-Swap"-Effekt, bei dem generierte Charaktere zwischen Schnitten morphen. Frühe unabhängige Tests sind begrenzt, aber Googles Demo-Footage — Knetanimations-Skulpturen, die in Blasen zerfallen, Sci-Fi-Szenen mit kohärenter Physik, musik-synchronisierte Visuals — deuten auf echten architektonischen Fortschritt jenseits der Frame-für-Frame-Generation hin.

Die Wettbewerbslandschaft: Gemini 3.5 Pro vs. GPT 5.6 vs. Claude Opus 4.8

Der Juni 2026 entwickelt sich zum dichtesten Model-Release-Monat in der KI-Geschichte. Drei Flaggschiffe konvergieren im selben Fenster:

Gemini 3.5 Pro — Googles verschobenes Flaggschiff, erwartet mit wiederhergestellter Deep-Reasoning- und Long-Context-Führung
GPT 5.6 — OpenAIs geleakte nächste Generation, mit internen Codenamen (iris-alpha, ember-alpha, beacon-alpha), die auf Multi-Varianten-Release hindeuten
Claude Opus 4.8 — bereits seit dem 28. Mai verfügbar, mit dem SWE-bench-Pro-Rekord bei 69,2 Prozent

Die Positionierung klärt sich. Anthropic besitzt aktuell die Coding-Quality-Krone mit Opus 4.8. OpenAIs GPT-5.6-Leaks deuten auf einen Fokus auf Kontextfenster-Expansion (1,5M Token gemunkelt) und UI-Generation-Quality hin. Googles Gemini 3.5 Flash dominiert bereits das Geschwindigkeit/Kosten-Quadranten, was Pro ermöglicht, bei Reasoning-Tiefe und multimodaler Integration zu konkurrieren. Kein einzelner Anbieter führt seit der GPT-4-Ära erstmals simultan über alle Dimensionen hinweg.

Für Enterprise-Beschaffung ist diese Fragmentation tatsächlich gesund. Sie bricht die "Default-Model"-Falle, in der viele Unternehmen 2024-2025 gefangen waren, als GPT-4 für nahezu alles die naheliegende Wahl war. Im Juni 2026 ist die korrekte Antwort auf "Welches Modell sollen wir nutzen?" zunehmend "Welches Modell für welche Aufgabe?" — mit Routing-Logik, die Coding-Aufgaben zu Claude, Long-Context-Research zu GPT 5.6 oder Gemini Pro, und Hochvolumen-Agent-Workflows zu Gemini Flash sendet.

Was das für den deutschen Mittelstand bedeutet

Aus unserer Arbeit, KI-Systeme in deutsche mittelständische Unternehmen zu integrieren — produzierende SMEs, Kanzleien, Arztpraxen, E-Commerce-Operationen — sendet die Gemini-3.5-Familie drei konkrete Signale:

Erstens: Der Geschwindigkeits-/Kosten-Durchbruch ist real genug, um zu handeln. Flashs Preisgestaltung von 1,50 $/9,00 $ pro Million Token, kombiniert mit seinem 4x-Geschwindigkeitsvorteil, verändert die Ökonomie von Hochvolumen-KI-Anwendungen. Customer-Support-Agenten, die zuvor bei GPT-4-Klassen-Modellen 0,15 $ pro Konversation kosteten, kosten nun potenziell 0,04 $. Dokumentenverarbeitungs-Pipelines, die mit Latenz zu kämpfen hatten, können nun in Echtzeit laufen. Wir migrieren bereits Klienten mit Hochdurchsatz-Use-Cases zu Flash, nicht weil Pro schlecht ist, sondern weil Flash gut genug und dramatisch billiger ist.

Zweitens: Multimodales Video nähert sich der Produktionsreife. Omni ist noch nicht bereit für Enterprise-Video-Produktion — das 10-Sekunden-Clip-Limit, das Fehlen veröffentlichter API-Preise und die Abwesenheit von Scene-Extension-Fähigkeiten machen es derzeit zu einem Consumer/Creator-Tool. Aber die Richtung ist klar. Innerhalb von 12 Monaten wird KI-generiertes Video mit konsistenten Charakteren, physik-bewusster Bewegung und konversationellem Editing zu einer Standard-Marketing-Fähigkeit. Mittelständische Unternehmen sollten jetzt mit Experimenten beginnen, während die Technologie noch differenzierend ist, anstatt zu warten, bis sie zum Standard wird.

Drittens: Googles Ökosystem-Integration bleibt sein Wettbewerbsvorteil. Flash wurde simultan in die Gemini-App, den AI Mode in Search, Google Antigravity, Vertex AI, die Gemini API, Android Studio und GitHub Copilot ausgeliefert. Kein Konkurrent erreicht diese Day-One-Surface-Abdeckung. Für Unternehmen, die bereits in Google Workspace, Cloud oder Android-Ökosysteme eingebettet sind, ist die Reibung der Gemini-Adoption nahezu null. Die strategische Implikation: Wenn Sie ein Google-Shop sind, ist Flash wahrscheinlich Ihr Default, bevor Sie überhaupt Alternativen evaluieren.

Was wir im Juni 2026 beobachten werden

Die nächsten drei Wochen werden alles klären, was derzeit spekulativ ist. Unsere Watchlist:

Der Pro-Benchmark-Drop. Wenn Google Pros Model Card veröffentlicht — erwartet innerhalb von Tagen nach Release — achten Sie nicht auf absolute Scores, sondern auf das Flash/Pro-Delta. Wenn Pro nur 5-10 Prozent besser bei Coding ist, gewinnt Flash beim Preis. Wenn Pro um 20+ Prozent bei Reasoning-Benchmarks springt, ändert sich die Rechnung.
Computer-Use-Bestätigung. Flash fehlt diese Fähigkeit explizit. Wenn Pro mit Desktop-Automation ausgeliefert wird, vergleichbar mit GPT-5.5s OSWorld-Performance, wird es für viele Teams zum agentischen Coding-Default.
Kontextfenster-Verifikation. Geleakte Behauptungen von 2M Token für Pro benötigen unabhängige Tests. Flashs 1M-Fenster ist bereits exzellent; Pro muss bedeutsame Genauigkeitsverbesserungen im Maßstab demonstrieren, nicht nur größere Zahlen.
Omni-API-Verfügbarkeit. Consumer-Zugang ist live, aber Developer-API-Routen, Preise und Content-Policies bleiben unveröffentlicht. Enterprise-Video-Workflows hängen von dieser Infrastruktur ab.

Fazit: Flash ist das Produkt, Pro ist das Versprechen, Omni ist der Plattform-Bet

Gemini 3.5 Flash ist bereits die folgenreichste Google-KI-Veröffentlichung des Jahres 2026. Es kehrt ein Jahrzehnt "man bekommt, wofür man bezahlt" in der Model-Hierarchie um und beweist, dass Destillation und architektonische Innovation Flagship-Fähigkeiten zu Commodity-Preisen liefern können. Es ist nicht perfekt — die Reasoning-Regressionen sind real, die "Faulheits"-Beschwerden früherer Flash-Generationen sind nur "größtenteils" behoben, und unabhängige Speed-Benchmarks stehen noch aus. Aber es ist gut genug, billig genug und schnell genug, um zum Default für einen riesigen Bereich von Produktions-Workloads zu werden.

Gemini 3.5 Pro, wenn es ankommt, wird an einer höheren Latte gemessen als jedes vorherige Google-Flaggschiff — denn sein günstigeres Geschwister hat bereits die Baseline gesetzt. Wenn Pro bedeutsam tieferes Reasoning, zuverlässigen Computer Use und nachhaltige Genauigkeit über 2M-Token-Kontexte liefert, reclaimt es Googles Position in der Frontier-Tier. Wenn es Flash nur mit marginalen Verbesserungen entspricht, wird Googles eigene Produktstrategie zum größten Konkurrenten.

Gemini Omni ist der langfristigste Bet der drei. Video-Generation ist für die meisten mittelständischen Unternehmen noch keine Kern-Geschäftsfähigkeit, aber konversationelles multimodales Editing — "erschaffe alles aus jedem Input" — deutet auf eine Zukunft hin, in der KI nicht ein Werkzeug ist, das man benutzt, sondern eine Umgebung, in der man arbeitet. Googles 190-Milliarden-Dollar-KI-Capex-Commitment für 2026, seine 900 Millionen monatlich aktiven Gemini-Nutzer und seine 3,2 Billarden monatlich verarbeiteten Token deuten darauf hin, dass dieser Plattform-Bet mit Ressourcen unterlegt ist, die kein Konkurrent erreichen kann.

Für den deutschen Mittelstand ist die handlungsleitende Erkenntnis einfach: Beginnen Sie heute mit Flash für alles Agentische, Coding- und Hochvolumen-Bezogene; beobachten Sie Pro im Juni für reasoning-schwere Workloads; und starten Sie jetzt Low-Risk-Experimente mit Omni-Video, bevor die Technologie zu einem Wettbewerbsvorteil wird. Die Modelle werden sich im Juli ändern. Die Infrastruktur, die Sie darum herum bauen, sollte das nicht müssen.

Häufige Fragen zu Gemini 3.5 Pro

Ist Gemini 3.5 Pro bereits verfügbar?

Nein. Stand Anfang Juni 2026 ist Gemini 3.5 Pro noch nicht öffentlich verfügbar. Google CEO Sundar Pichai kündigte auf der I/O 2026 am 19. Mai an, dass Pro "nächsten Monat" erscheinen wird — also im Juni 2026. Ein exaktes Datum wurde nicht genannt. Das Modell wird derzeit intern bei Google genutzt.

Was unterscheidet Gemini 3.5 Flash von Gemini 3.5 Pro?

Flash ist seit dem 19. Mai 2026 allgemein verfügbar und übertrifft Gemini 3.1 Pro bereits auf den meisten Coding- und Agentic-Benchmarks. Pro wird als leistungsstärkeres Modell mit verbessertem Reasoning, größerem Kontextfenster (möglicherweise 2M Token) und Unterstützung für Computer Use positioniert. Flash kostet 1,50 $ pro Million Input-Token, Pro wird voraussichtlich deutlich teurer.

Was ist Gemini Omni und wie unterscheidet es sich von Veo?

Gemini Omni ist ein multimodales Video-Modell, das bei Google I/O 2026 vorgestellt wurde. Im Gegensatz zu Veo 3.1 (spezialisiert auf Text-zu-Video) akzeptiert Omni beliebige Kombinationen aus Text, Bildern, Audio und Video als Input und ermöglicht konversationelles Editing. Omni ersetzt Veo in der Gemini-App, nicht aber in Vertex AI oder der Gemini API.

Wie schnell ist Gemini 3.5 Flash im Vergleich zu Claude Opus 4.7 und GPT-5.5?

Laut Google ist Gemini 3.5 Flash rund viermal schneller als vergleichbare Frontier-Modelle gemessen an Output-Tokens pro Sekunde. Innerhalb von Google Antigravity soll die Optimierung sogar 12x schneller sein. Unabhängige Benchmarks, die diese Geschwindigkeitsbehauptung bestätigen, liegen Stand Anfang Juni 2026 noch nicht vor.

Sollten Unternehmen jetzt auf Gemini 3.5 Flash umsteigen oder auf Pro warten?

Für die meisten agentischen Coding- und Tool-Use-Workloads lohnt der Umstieg auf Flash sofort — es übertrifft Gemini 3.1 Pro bei niedrigeren Kosten und höherer Geschwindigkeit. Unternehmen mit besonders anspruchsvollen Reasoning-Aufgaben oder Long-Context-Analysen über 128K Token sollten die Pro-Veröffentlichung im Juni abwarten und dann eine eval-basierte Entscheidung treffen.

Quellen und Primärnachweise: Diese Analyse basiert auf Googles offiziellen I/O-2026-Ankündigungen (blog.google/innovation-and-ai, 19.-20. Mai 2026), der Gemini-3.5-Flash-Model-Card, veröffentlicht von Google DeepMind (deepmind.google/models/model-cards/gemini-3.5-flash, 19. Mai 2026), Sundar Pichais Keynote-Transkript (verifiziert via Business Insider, 19. Mai 2026), und unabhängiger technischer Berichterstattung von Codersera, WaveSpeed AI, Build Fast with AI, LLM-Stats, The Planet Tools und Digital Applied (alle Mai 2026). Gemini-Omni-Details stammen aus Googles offizieller Omni-Ankündigung (blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni, 19. Mai 2026), der Gemini-Omni-Flash-Model-Card (deepmind.google/models/model-cards/gemini-omni-flash) und vergleichenden Analysen von PixVerse AI, MagicShot und Digital Applied (alle Mai 2026). Alle Pro-Spezifikationen, die nicht explizit von Google auf der Bühne bestätigt wurden, sind als Spekulation gekennzeichnet. Der Wettbewerbskontext bezieht sich auf Anthropics offizielle Opus-4.8-Ankündigung (28. Mai 2026) und GPT-5.6-Leak-Berichterstattung wie in unserer separaten GPT-5.6-Analyse referenziert.

Verwandte Insights

GESPRÄCH MIT MICHAEL VEREINBAREN WEITERE INSIGHTS