AI Integration · 2026-06-03 · 14 Min.

Warum Softwareprojekte im Mittelstand scheitern — und wie KI-gestützte Entwicklung das ändert

Michael Kaiser

Michael Kaiser

Co-Founder & Head of Systems, Vincency

Es gibt eine Statistik, die kein Geschäftsführer im Mittelstand gern hört: Die meisten Softwareprojekte enden nicht so, wie sie geplant waren. Seit drei Jahrzehnten umkreist die Branche denselben unbequemen Befund, und die Ankunft der KI hat ihn nicht zum Verschwinden gebracht — sie hat ihm nur eine neue Form gegeben. Das Versprechen von 2026 lautet: Die KI schreibt den Code für uns. Die Daten erzählen eine interessantere, nützlichere Geschichte. Dieser Beitrag schaut darauf, was die Belege tatsächlich sagen — warum Softwareprojekte scheitern, was KI ändert und was nicht, und was das für ein mittelständisches Unternehmen bedeutet, das eine funktionierende Lösung braucht, keine Forschungsthese.

Die Statistik, die niemand im Mittelstand hören will

Die meistzitierte Zahl stammt aus den CHAOS-Reports der Standish Group: 1994 galten nur etwa 16 Prozent der Softwareprojekte als voll erfolgreich; 2015 erfüllten nach einer überarbeiteten „modernen“ Definition (termingerecht, im Budget, mit zufriedenstellendem Ergebnis) rund 29 Prozent dieses Kriterium, während etwa die Hälfte als „challenged“ galt und ein Fünftel ganz scheiterte. Diese Zahlen werden überall zitiert — und verdienen einen Vorbehalt, der fast nie mitzitiert wird. In einer sorgfältigen Analyse von 2010 zeigten die Forscher J. Laurenz Eveleens und Chris Verhoef, dass die Standish-Definitionen irreführend und einseitig sind: Sie zählen nur Überschreitungen, nie den ebenso häufigen Fall der Unterschreitung — was die Zahlen pessimistischer macht als die Realität und, schlimmer, manipulierbar. Der CHAOS-Report ist also ein Richtungssignal, kein Evangelium.

Die belastbareren Belege sind zugleich die ernüchternderen. In der größten Studie ihrer Art analysierten Bent Flyvbjerg und Kollegen 5.392 IT-Projekte (2022) und fanden, dass Kostenüberschreitungen gar keiner Normalverteilung folgen — sie haben „fat tails“, dicke Ränder. Die mittlere Überschreitung (Median) liegt praktisch bei null: Die meisten Projekte landen nahe am Budget. Der Durchschnitt aber wird durch eine Minderheit katastrophaler Ausreißer auf rund 80 Prozent hochgezogen. In einem früheren Datensatz fanden Budzier und Flyvbjerg, dass jedes sechste IT-Projekt ein „schwarzer Schwan“ ist — mit durchschnittlich rund 200 Prozent Kosten- und fast 70 Prozent Zeitüberschreitung. Die Lehre ist nicht „jedes Projekt ist verloren“. Sie lautet: Die eigentliche Gefahr ist der Rand — das Projekt, das nicht nur leicht überzieht, sondern explodiert — und konventionelle, durchschnittsbasierte Planung ist genau für dieses Risiko blind.

Warum klassische Softwareprojekte scheitern — vier wiederkehrende Ursachen

Aus unserer Arbeit mit mittelständischen Unternehmen kommt das Scheitern selten von fehlendem Engineering-Talent. Es kommt von vier strukturellen Ursachen, die sich gegenseitig verstärken:

  • Anforderungs-Drift. Was das Geschäft braucht, ist zu Beginn unklar und ändert sich während der Entwicklung. Jede Änderung wirkt sich auf bereits geschriebenen Code aus.
  • Schätzung unter Unsicherheit. Individualsoftware wird wie eine bekannte Größe kalkuliert — obwohl ihre Kostenverteilung laut Flyvbjerg keinen verlässlichen Durchschnitt hat, gegen den man schätzen könnte.
  • Fehlende interne Ressourcen. In Deutschland waren 2025 rund 109.000 IT-Stellen unbesetzt (Bitkom), bei einer durchschnittlichen Vakanzdauer von 7,7 Monaten. Die meisten Mittelständler können schlicht kein vollständiges Entwicklungsteam aufbauen und halten.
  • Unterschätzte Wartung. Der Bau ist der sichtbare Teil; die Jahre an Betrieb, Sicherheit und Änderung dahinter sind der teure Teil — und der, der Individualsysteme leise tötet.

Keine davon ist ein Coding-Problem. Es sind Probleme von Klarheit, Kapazität und Methode. Genau deshalb verkennt die populäre Hoffnung — „die KI schreibt die Software, also löst sich das Problem“ — die Lage.

Das KI-Versprechen trifft auf die Belege

Hier werden die Daten wirklich interessant, denn zwei der meistzitierten Studien zeigen in entgegengesetzte Richtungen. Eine kontrollierte Studie von Peng, Kalliamvakou, Cihon und Demirer (2023) ließ Entwickler einen HTTP-Server mit und ohne GitHub Copilot bauen; die Copilot-Gruppe war 55,8 Prozent schneller. Eine beeindruckende Zahl — aber man beachte die Bedingungen: eine kleine, isolierte Greenfield-Aufgabe und Autoren, die teils GitHub-affiliiert sind. Sie misst KI im Bestfall.

Nun der Gegenbeleg. 2025 führte die Forschungsgruppe METR ein randomisiertes kontrolliertes Experiment mit erfahrenen Open-Source-Entwicklern durch, die an ihren eigenen, reifen Codebasen arbeiteten. Das Ergebnis war das Gegenteil: Mit KI-Werkzeugen waren sie 19 Prozent langsamer. Das aufschlussreichste Detail ist die Wahrnehmungslücke — die Entwickler erwarteten eine Beschleunigung um 24 Prozent und glaubten selbst nach dem Experiment noch an plus 20 Prozent, während die Stoppuhr das Gegenteil sagte. METR betont ausdrücklich, dass dies für erfahrene Entwickler auf vertrauten, komplexen Codebasen gilt und nicht auf alle Softwarearbeit verallgemeinert werden darf. Aber genau das ist der Punkt: Dieselbe Technologie erzeugte +56 Prozent und −19 Prozent — je nach Kontext.

Googles DORA-Report 2024, basierend auf einer großen Branchenumfrage, füllt die Mitte. Über 75 Prozent der Befragten nutzen KI bereits für mindestens eine tägliche Aufgabe, und eine Steigerung der KI-Adoption um 25 Prozent ging mit messbaren Gewinnen bei Einzelfaktoren einher — etwa +3,4 Prozent Code-Qualität und +3,1 Prozent schnellere Code-Reviews. Doch derselbe Report fand ein Paradox: Diese Adoption ging zugleich mit einem Rückgang des Delivery-Durchsatzes um 1,5 Prozent und der Delivery-Stabilität um 7,2 Prozent einher. Und 39 Prozent der Befragten gaben an, wenig bis kein Vertrauen in KI-generierten Code zu haben. Der Stack-Overflow-Survey 2025 bestätigt es: 84 Prozent nutzen KI-Tools oder planen es, aber 66 Prozent nennen „fast richtige, aber nicht ganz korrekte“ Lösungen als größte Frustration — und das positive Sentiment gegenüber KI-Werkzeugen fiel binnen eines Jahres von über 70 auf 60 Prozent.

Die eigentliche Lehre: Es hieß nie „KI statt Methode“

Liest man diese Studien zusammen, zeigt sich ein konsistentes Muster. KI ist außergewöhnlich gut darin, Neues, Standardisiertes und klar Spezifiziertes zu erzeugen — und unzuverlässig genau dort, wo klassische Projekte ohnehin scheiterten: bei unklaren Anforderungen, komplexen Bestandssystemen und den Urteilsfragen, die entscheiden, ob Code korrekt ist und nicht nur plausibel. KI beseitigt die vier Scheiter-Ursachen von oben nicht. Naiv eingesetzt tut sie etwas Schlimmeres: Sie lässt einen sie schneller reproduzieren. Ein Team, das einen kaputten Prozess mit KI automatisiert, hat nun einen kaputten Prozess in Maschinengeschwindigkeit.

Deshalb ist der Rahmen „KI ersetzt Entwickler“ der falsche. Das DORA-Paradox — individuelle Beschleunigung, System-Delivery runter — ist genau das, was passiert, wenn ein mächtiges Werkzeug auf schwache Methode trifft. Durchsatz und Stabilität verbessern sich erst, wenn KI auf den unspektakulären Grundlagen aufsetzt: klare Anforderungen, kleine Schritte, echtes Testen und jemand, der dafür geradesteht, ob das Ergebnis stimmt. KI hebt die Decke für Teams mit Methode. Für Teams ohne sie tut sie nichts — und kann ihren Boden absenken.

Vom „Software bauen“ zum „Problem lösen“

Für den Mittelstand ist die folgenreichste Verschiebung nicht ein schnellerer Weg, Individualsoftware zu schreiben — es ist die Erkenntnis, wie oft Individualsoftware die falsche Frage ist. Ein großer Teil dessen, was mittelständische Unternehmen tatsächlich brauchen — Leads qualifizieren, dieselben vierzig Support-Fragen beantworten, Anrufe außerhalb der Geschäftszeiten annehmen, Dokumente verarbeiten — sind gelöste Probleme. Sie erfordern keine maßgeschneiderte Codebasis mit jahrelangem Wartungs-Rattenschwanz. Sie erfordern KI-gestützte Integration und Automatisierung, zusammengesetzt aus erprobten Komponenten und verbunden mit den Tools, die das Unternehmen ohnehin betreibt.

Diese Umdeutung verändert die Ökonomie vollständig. Statt eines monatelangen Custom-Projekts, das das von Flyvbjerg beschriebene Fat-Tail-Risiko trägt, kann eine fokussierte Integration in Wochen produktiv sein. Mit einem spezialisierten Technologie-Partner wie ArkeonTech starten agentenbasierte Lösungen ab rund 1.500 € Setup, Standardprojekte gehen in zwei bis vier Wochen live — mit EU-Hosting und Wartung als Service. Wo wirklich proprietäre Logik selbst der Wettbewerbsvorteil ist, ergibt Eigenentwicklung weiterhin Sinn; genau diese Make-or-Buy-Entscheidung haben wir in einem eigenen Beitrag durchgearbeitet. Der Punkt ist, bewusst zu entscheiden — nicht reflexhaft zu bauen.

Wie wir es angehen

Bei Vincency beginnen wir ein Software-Gespräch nicht mit der Technologie. Wir beginnen mit dem Prozess, der wehtut, und dem Ergebnis, das das Geschäft tatsächlich will — denn dort werden Projekte gewonnen oder verloren, lange vor der ersten Zeile Code. Erst wenn Problem und Zielzustand klar sind, wählen wir den kleinsten sinnvollen Ausschnitt zur Umsetzung, nutzen KI, um dessen Bau zu beschleunigen, und messen, ob er die Kennzahl bewegt, auf die es ankam. Dann erweitern wir. Die Technologieschicht — die Agenten, die Integrationen, die Automatisierung — dockt auf diesem Fundament an, und wo es einen dedizierten Spezialisten verlangt, baut und betreibt ArkeonTech sie. Die Reihenfolge ist bewusst: erst Strategie und Prozess, dann KI-beschleunigte Umsetzung. Es ist das Gegenteil des Scheiter-Musters, nicht eine schnellere Version davon.

Der Markt bewegt sich in dieselbe Richtung. Gartner prognostiziert, dass bis 2026 40 Prozent der Unternehmensanwendungen aufgabenspezifische KI-Agenten enthalten werden — gegenüber weniger als 5 Prozent im Jahr 2025. Aber Adoption allein ist kein Ergebnis. DORA hat bereits gezeigt, was Adoption ohne Methode produziert. Die Unternehmen, die gewinnen, sind nicht die, die KI am schnellsten einführen; es sind die, die sie mit der Disziplin verbinden, die die Daten immer wieder belohnen.

Ein Hinweis zur Transparenz

Ich sollte meine Position offenlegen. Ich bin Co-Founder von Vincency und Gründer von ArkeonTech, dem oben genannten KI-Softwarehaus. Die beiden Unternehmen sind bewusst getrennt — ArkeonTech baut die Technologieschicht, Vincency orchestriert Strategie, Marke und Integration — und sie arbeiten dort zusammen, wo diese Ebenen aufeinandertreffen. Ich lege das offen, damit Sie die Empfehlungen selbst gewichten können. Die hier zitierten Studien sind von beiden Unternehmen unabhängig, und ich habe ihre Grenzen gekennzeichnet — einschließlich der umstrittenen Methodik der CHAOS-Reports und des engen Geltungsbereichs des METR-Experiments — gerade weil ehrliche Daten nützlicher sind als bequeme.

Fazit

Softwareprojekte im Mittelstand scheitern nicht, weil der Code schwer ist. Sie scheitern, weil Klarheit, Kapazität und Methode schwer sind — und genau das liefert KI nicht von allein. Die Belege sind konsistent, sobald man aufhört, sie sich passend herauszupicken: KI kann ein gut geführtes Team dramatisch schneller machen und ein schlecht geführtes messbar schlechter. Die Frage für 2026 ist also nicht „sollten wir KI in der Softwareentwicklung einsetzen?“ — natürlich sollten Sie das. Die Frage ist, ob Sie sie auf ein klares Problem und eine solide Methode aufsetzen oder auf dieselbe Unschärfe, die seit dreißig Jahren Projekte versenkt. Der erste Weg ist, wie KI-gestützte Entwicklung die Statistik endlich verändert. Der zweite ist nur das alte Scheitern, beschleunigt.

Häufige Fragen zu Softwareentwicklung und KI

Warum scheitern so viele Softwareprojekte?

Weniger an der Technik als an Anforderungs-Drift, unrealistischen Schätzungen, fehlenden internen Ressourcen und unterschätzter Wartungslast. Die Standish-CHAOS-Reports nennen seit Jahrzehnten niedrige Erfolgsquoten (1994: ~16 %, 2015 nach moderner Definition ~29 %) — ihre Methodik ist allerdings umstritten (Eveleens & Verhoef, 2010). Belastbarer ist die Analyse von Flyvbjerg et al. (2022) über 5.392 IT-Projekte: Die Kostenüberschreitung folgt einer Verteilung mit „fat tails" — der Median liegt bei 0 %, aber ein Sechstel der Projekte explodiert (laut Budzier/Flyvbjerg im Schnitt +200 % Kosten). Das eigentliche Risiko sind nicht die Durchschnitte, sondern die Ausreißer.

Macht KI die Softwareentwicklung wirklich schneller?

Kommt auf den Kontext an — und genau das wird oft übersehen. Eine kontrollierte Studie mit GitHub Copilot (Peng et al., 2023) maß 55,8 % schnellere Fertigstellung — bei einer isolierten Greenfield-Aufgabe. Ein randomisiertes Experiment von METR (2025) mit erfahrenen Entwicklern auf ihren eigenen, reifen Codebasen ergab das Gegenteil: 19 % langsamer mit KI. KI beschleunigt Neues und Standardisiertes dramatisch, kann in komplexen, vertrauten Systemen aber bremsen. Pauschale Produktivitätsversprechen sind unseriös.

Brauchen wir noch eigene Entwickler, wenn es KI gibt?

Ja — aber ihre Rolle verschiebt sich. Im Stack Overflow Survey 2025 nutzen 84 % der Entwickler KI-Tools, doch 66 % nennen „fast richtige, aber nicht ganz korrekte" Lösungen als größtes Problem; nur 3 % vertrauen den Ergebnissen voll. KI erzeugt Code-Entwürfe; Menschen brauchen Urteilsvermögen für Architektur, Korrektheit und Einbettung ins Geschäft. Gerade im Mittelstand mit rund 109.000 offenen IT-Stellen (Bitkom, 2025) ist die Frage selten „Mensch oder KI", sondern wie knappe Fachkräfte mit KI mehr bewegen.

Was kostet KI-gestützte Softwareentwicklung im Mittelstand?

Deutlich weniger als ein klassisches Custom-Projekt, wenn man den richtigen Zuschnitt wählt. Statt monatelanger Eigenentwicklung lassen sich viele Anforderungen über KI-Integration und Automatisierung lösen: Bei einem spezialisierten Partner wie ArkeonTech starten Agenten-Lösungen ab rund 1.500 € Setup, Standardprojekte sind in 2 bis 4 Wochen produktiv. Die teure Variante ist fast immer die monatelange Individualentwicklung ohne klare Strategie.

Individualsoftware entwickeln oder auf KI-Integration setzen?

Eigenentwicklung lohnt nur, wenn die Software selbst der Wettbewerbsvorteil ist und ein Team sie betreiben kann. Für gelöste Probleme — Vertrieb, Support, Dokumentenverarbeitung, Workflows — ist KI-gestützte Integration schneller, günstiger und risikoärmer. Wir haben diese Make-or-Buy-Entscheidung in einem eigenen Beitrag ausführlich behandelt.

Wie fangen wir mit KI-gestützter Entwicklung an?

Nicht mit dem Tool, sondern mit dem Problem. Zuerst klären, welcher Prozess wirklich wehtut und wie der Zielzustand aussieht; dann den kleinsten sinnvollen Ausschnitt KI-gestützt umsetzen, messen und erweitern. Diese Reihenfolge — Strategie und Prozess vor Technologie — ist der einzige verlässliche Schutz davor, das Scheitern klassischer Projekte einfach schneller zu reproduzieren.

Quellen und Transparenzhinweis: Daten zum Projekt-Scheitern: Standish-Group-CHAOS-Reports (ab 1994), mit der Methodenkritik von Eveleens & Verhoef, „The Rise and Fall of the Chaos Report Figures“ (IEEE Software, 2010); Flyvbjerg et al., „The Empirical Reality of IT Project Cost Overruns“ (Journal of Management Information Systems, 2022, n=5.392); Budzier & Flyvbjerg / „Why Your IT Project May Be Riskier Than You Think“ (Harvard Business Review, 2011). KI-Produktivität: Peng, Kalliamvakou, Cihon & Demirer (2023, GitHub-Copilot-RCT); METR, „Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity“ (2025); Google DORA, „Accelerate State of DevOps Report 2024“; Stack Overflow Developer Survey 2025. Mittelstands-Kontext: Bitkom-IT-Fachkräfte-Studie (Aug. 2025); Gartner-Pressemitteilung (Aug. 2025) zu aufgabenspezifischen KI-Agenten. Kennzahlen sind mit ihrem ursprünglichen Geltungsbereich und bekannten Grenzen zitiert. Transparenz: Der Autor, Michael Kaiser, ist Co-Founder von Vincency und Gründer von ArkeonTech; die zitierten Studien sind von beiden Unternehmen unabhängig.