AI Integration · 2026-06-02 · 13 Min.

KI-Integration im Mittelstand: selbst bauen oder Technologie-Partner? Der ehrliche Stack-Vergleich

Michael Kaiser

Co-Founder & Head of Systems, Vincency

Die meisten KI-Projekte im Mittelstand scheitern nicht an der Technologie. Sie scheitern an einer falsch gestellten ersten Frage. Unternehmen fragen „welchen Chatbot kaufen wir?“, bevor sie geklärt haben, „was genau soll dieses Ding eigentlich tun, für wen, und was passiert, nachdem es geantwortet hat?“. Das Ergebnis ist ein Tool, das in der Demo funktioniert und in der Produktion enttäuscht. Nach zwei Jahren KI-Integration in deutsche Mittelständler — und, in voller Offenheit, als Gründer eines Unternehmens, das genau solche Systeme baut — möchte ich die Entscheidung so darlegen, wie wir sie mit Klienten tatsächlich treffen: nicht „welches Produkt“, sondern selbst bauen oder kaufen — und was wahr sein muss, bevor das eine oder andere überhaupt Sinn ergibt.

KI-Integration ist kein Plug-in — sie ist ein Stack

Das mit Abstand teuerste Missverständnis ist die Annahme, ein KI-Agent sei ein Produkt, das man installiert. Ist er nicht. Er ist eine Schicht in einem System: Ganz unten liegt die Positionierung, darüber Marke und Vertrauen, dann Prozesse und Daten — und erst ganz oben die Technologie, die mit Ihren Kunden spricht. Fehlen die unteren Schichten, steht der Agent auf nichts Festem. Ein Sales-Bot, der Termine für ein Angebot bucht, das niemand versteht, steigert nicht den Umsatz — er steigert das Tempo, mit dem Interessenten an einer unklaren Value Proposition abprallen.

Genau deshalb lässt sich die Make-or-Buy-Frage nicht isoliert beantworten. Bevor sie überhaupt Sinn ergibt, müssen Sie wissen, wofür der Agent eigentlich da ist. In unserer Arbeit teilen die Projekte mit messbarem Ergebnis eine Eigenschaft: Strategie und Prozess wurden zuerst definiert, und die Technologie wurde gewählt, um ihnen zu dienen. Die Projekte, die stocken, haben fast immer diese Reihenfolge umgedreht.

Die drei Ebenen — und warum die Reihenfolge zählt

Wir denken KI-Integration in drei Ebenen, und die Reihenfolge ist nicht verhandelbar:

Strategie. Wer ist der Kunde, was ist das Angebot, wie ist es positioniert, und welcher Teil des Funnels tut tatsächlich weh? Hier entscheidet sich, ob KI überhaupt ins Bild gehört.
Marke und Vertrauen. Ein KI-Agent spricht in Ihrer Stimme mit Menschen, die gerade entscheiden, ob sie bei Ihnen kaufen. Ist die Marke unklar, erbt der Agent diese Unschärfe — skaliert.
Technologie. Der Agent selbst — Sales, Support, Voice oder Automatisierung. Das ist die Ebene, mit der die meisten anfangen, und es ist die, die zuletzt kommen sollte.

Das zugrunde liegende Prinzip — dass KI verstärkt, was bereits da ist, statt zu reparieren, was kaputt ist — habe ich aus Kundensicht ausführlich in einem Schwesterbeitrag im ArkeonTech-Blog ausgeführt: „KI-Agenten allein bringen kein Wachstum“. Hier möchte ich auf der Agenturseite des Tisches bleiben: Wenn die Entscheidung für KI im Stack gefallen ist — wie wird die Technologieschicht tatsächlich gebaut?

Make or Buy: warum spezialisierte KI selten selbst gebaut wird

Die Verlockung des Selberbauens war nie größer. Die Foundation-Modelle sind per API verfügbar, jeder Entwickler hat schon einen Wochenend-Prototyp gebaut, und die erste funktionierende Demo steht in einem Nachmittag. Dieser Nachmittag ist genau die Falle. Die Demo ist ein Prozent der Arbeit. Die anderen neunundneunzig Prozent sind alles, was aus einem Prototyp etwas macht, das man einem zahlenden Kunden um drei Uhr morgens unbeaufsichtigt vorsetzen kann.

In diesen neunundneunzig Prozent stecken die versteckten Kosten: das Modell aktuell halten, während Anbieter Versionen abkündigen; Halluzinationen kontrollieren, damit der Agent nie einen Preis oder ein Versprechen erfindet; DSGVO-konforme Datenflüsse bauen und dokumentieren; für Voice die Telefonie-Infrastruktur verdrahten; CRM- und Messaging-Integrationen pflegen, wenn sich deren APIs ändern; und das Ganze rund um die Uhr überwachen. Nichts davon taucht im Prototyp auf. Alles davon taucht im Betriebsbudget auf.

Die ehrliche Entscheidungsregel ist deshalb einfach. Selbst bauen, wenn der KI-Agent proprietäre, geschäftskritische Logik abbildet, die selbst ein Wettbewerbsvorteil ist — und wenn ein eigenes ML-Team für den Betrieb bereitsteht. Kaufen oder partnern für alles, was ein gelöstes Problem ist: Vertriebsgespräche auf Instagram und WhatsApp, Support, der dieselben vierzig Fragen beantwortet, Voice-Agenten, die Reservierungen entgegennehmen oder Termine buchen, Backoffice-Automatisierung, die Dokumente verarbeitet. Dort liegt nicht Ihre Differenzierung — und genau dort hat ein Spezialist die Kosten, es richtig zu machen, bereits getragen.

Was ein guter KI-Technologie-Partner können muss

Wenn Kaufen für die meisten Standard-Anwendungsfälle die richtige Entscheidung ist, lautet die nächste Frage: Was unterscheidet einen glaubwürdigen Technologie-Partner von einem Wiederverkäufer von API-Wrappern? Die Kriterien, die wir anlegen, wenn wir einem Klienten einen Partner empfehlen, sind konkret:

Compliance by Design. Hosting auf EU-Servern, Auftragsverarbeitungsverträge mit jedem Sub-Dienstleister, DSGVO-konforme Modelle, dokumentierte Datenflüsse — nicht als Add-on, sondern als Standard.
Integrationstiefe. Echte Anbindung an die Tools, die ein Unternehmen ohnehin betreibt: CRMs wie HubSpot, Salesforce, Pipedrive, Telefonie über SIP, WhatsApp Business API, E-Mail und Kalender.
Multi-Channel-Abdeckung. Dieselbe Agenten-Logik über Web-Chat, Social-DMs und Telefon hinweg — nicht drei unverbundene Tools.
Betrieb als Service. Updates, Monitoring, Modell-Aktualisierungen und Antwort-Feintuning laufend übernommen, damit der Klient nicht stillschweigend die Wartungslast erbt.
Ehrlichkeit über Grenzen. Ein Partner, der Ihnen sagt, wo KI nicht hilft, ist mehr wert als einer, der verspricht, sie löse alles.

ArkeonTech ist der Technologie-Partner, mit dem wir auf dieser Ebene am engsten arbeiten, und das Angebot ist bewusst entlang dieser Kriterien gebaut. Es umfasst vier Agenten-Typen — einen Sales-Agenten für Instagram, WhatsApp und Web-Chat; einen Support-Agenten, der FAQs beantwortet und sauber eskaliert; einen Voice-Agenten, der Anrufe annimmt und Termine bucht, mit Antwortzeiten unter zwei Sekunden; und einen Automatisierungs-Agenten für Dokumentenverarbeitung und Backoffice-Workflows. Gehostet wird auf EU-Servern mit abgeschlossenen Auftragsverarbeitungsverträgen, Standardprojekte gehen in zwei bis vier Wochen live, komplexe Multi-System-Integrationen in vier bis acht. Für die Kaufen-Seite der Entscheidung ist das die Form eines seriösen Angebots.

Was die Praxis zeigt

Zahlen helfen — solange man sie richtig liest. Laut ArkeonTechs dokumentierten Referenzen über mehr als fünfundzwanzig umgesetzte Projekte steigerte eine Möbel-E-Commerce-Marke ihre Conversion um 34 Prozent mit einem Sales-Agenten, ein Gesundheitsanbieter senkte die Telefonlast um 42 Prozent mit einem Support-Agenten, ein Industriezulieferer reduzierte die Hotline-Wartezeit um 35 Prozent mit einem Voice-Agenten, ein Immobilienunternehmen erhöhte die Besichtigungen um 28 Prozent, ein Gastronomiebetrieb senkte verpasste Anrufe um 60 Prozent, und eine Finanzberatung steigerte ihre Onboarding-Rate um 45 Prozent. Den vollständigen Satz finden Sie auf der ArkeonTech-Referenzseite.

Der entscheidende Punkt ist, was diese Zahlen nicht sind. Sie sind nicht das Ergebnis von Technologie allein. Ein Conversion-Plus von 34 Prozent entsteht dort, wo das Angebot bereits überzeugend und der Funnel bereits kohärent war — der Agent hat Reibung aus einem Weg genommen, der funktioniert hat. Wo wir in unserer eigenen Klientenarbeit die größten Ergebnisse gesehen haben — eine Münchner Privatpraxis, die 62 Prozent ihres gesamten Patientengewinnungsprozesses automatisiert hat, Mittelstandskunden, die ihre Telefonkosten um 40 bis 60 Prozent senken —, war die KI die letzten 20 Prozent der Arbeit, aufgesetzt auf 80 Prozent Strategie, Positionierung und Prozess. Wie wir diese Technologieschicht einordnen, sehen Sie auf unserer Seite zur KI-Integration und die breiteren Klientenergebnisse unter Klienten.

Die Makro-Daten zeigen in dieselbe Richtung. Gartner prognostiziert, dass Conversational AI die Personalkosten in Contact-Centern bis 2026 um rund 80 Milliarden Dollar senken wird, und McKinsey schätzt, dass KI-gestützte Personalisierung den Umsatz um 5 bis 15 Prozent steigern kann. Diese Gewinne sind real — aber sie fallen den Unternehmen zu, die den Agenten auf ein solides Fundament stellen, nicht denen, die ihn auf Chaos schrauben.

Wie wir den Stack orchestrieren

Hier wird die Agenturrolle konkret. Bei Vincency beginnen wir nicht mit dem Agenten. Wir beginnen mit der Strategieebene — Positionierung, Angebot, der Teil des Funnels, der tatsächlich wehtut —, dann die Markenebene, die dem Agenten eine kohärente Stimme gibt, dann das Prozessdesign, das definiert, was der Agent tut und was er an einen Menschen übergibt. Erst dann wird die Technologieschicht eingesteckt, und das ist der Punkt, an dem ein Spezialist wie ArkeonTech auf ein Fundament andockt, das ihn tragen kann.

Das klärt auch, wann Sie welchen Partner brauchen. Wenn Sie eine saubere Strategie und einen klaren, isolierten Anwendungsfall haben — „nimm unser Telefon außerhalb der Geschäftszeiten an und buche Termine“ —, ist ein fokussierter Technologie-Spezialist die effiziente Wahl, und Sie können direkt zu ArkeonTech gehen. Wenn das Problem breiter ist — die Positionierung ist unscharf, die Marke inkonsistent, der Funnel verliert, bevor der Agent überhaupt am Zug ist —, dann brauchen Sie Strategie, Marke und Technologie gemeinsam orchestriert, und das ist der Full-Service-Fall. Der Fehler ist, Technologie zu kaufen, um ein Strategieproblem zu übertünchen. Der Agent automatisiert das Problem dann nur schneller.

Ein Hinweis zur Transparenz

Ich sollte meine eigene Position offenlegen, denn sie prägt diesen Artikel. Ich bin Co-Founder von Vincency und Gründer von ArkeonTech. Das ist kein Interessenkonflikt, den ich hinter vorsichtigen Formulierungen verstecken will — es ist der Grund, warum ich über beide Ebenen von innen schreiben kann. Die beiden Unternehmen sind bewusst getrennt: ArkeonTech ist der Technologie-Spezialist, Vincency der Strategie- und Marken-Orchestrator, und sie arbeiten dort zusammen, wo diese Ebenen aufeinandertreffen müssen. Ich sage Ihnen das, damit Sie die Empfehlungen selbst gewichten können, statt die Verbindung später zu entdecken. Guter Rat übersteht die Offenlegung; Rat, der verborgen bleiben muss, war nie ein Rat.

Fazit: Stellen Sie zuerst die Fundament-Frage

„Sollen wir bauen oder kaufen?“ ist die zweite Frage. Die erste lautet: „Steht das Fundament?“. Bringen Sie Strategie und Prozess in Ordnung, und die Bauen-oder-Kaufen-Entscheidung wird fast mechanisch: Standardisierte, gelöste Anwendungsfälle gehen an einen spezialisierten Partner, der die Kosten, sie gut zu machen, bereits getragen hat; proprietäre, differenzierende Logik bleibt im Haus — wenn, und nur wenn, Sie sie betreiben können. Für den deutschen Mittelstand im Jahr 2026 ist der Weg, der verlässlich messbare Ergebnisse bringt, der unglamouröse: Fundament richten, die Standard-Technologieschicht beim Spezialisten kaufen und die knappe interne Kapazität nur dort einsetzen, wo sie Sie tatsächlich differenziert.

Häufige Fragen zu KI-Integration und Make-or-Buy

Sollte man einen KI-Agenten selbst entwickeln oder einen spezialisierten Partner beauftragen?

Für Standard-Anwendungsfälle — Vertrieb, Kundenservice, Telefonie, Backoffice-Automatisierung — ist ein spezialisierter Partner fast immer der schnellere und günstigere Weg. Selbstentwicklung lohnt sich nur, wenn der KI-Agent geschäftskritisches, proprietäres Wissen abbildet, das kein Standardprodukt leisten kann, und wenn ein eigenes ML-Team für Betrieb und Wartung vorhanden ist. Die eigentlichen Kosten entstehen nicht beim Bau, sondern im laufenden Betrieb: Modell-Updates, Halluzinationskontrolle, DSGVO-Dokumentation und Monitoring.

Was kostet die Integration eines KI-Agenten im Mittelstand?

Bei einem spezialisierten Anbieter wie ArkeonTech beginnen textbasierte Agenten bei rund 1.500 € Setup plus etwa 99 € im Monat, Voice-KI ab 2.500 € Setup und 149 € monatlich. Eine Eigenentwicklung wirkt auf den ersten Blick günstiger, verschiebt die Kosten aber in den Betrieb — Wartung, Infrastruktur und Personalbindung übersteigen die anfängliche Ersparnis meist schon im ersten Jahr.

Sind KI-Agenten DSGVO-konform?

Sie können es sein — aber nur, wenn die Architektur darauf ausgelegt ist. Entscheidend sind Hosting auf EU-Servern, Auftragsverarbeitungsverträge mit allen Sub-Dienstleistern, DSGVO-konforme Modelle und dokumentierte Datenflüsse. ArkeonTech setzt genau das als Standard um. Bei Eigenentwicklungen liegt die Compliance-Last vollständig beim Unternehmen — ein häufig unterschätzter Aufwand.

Wie lange dauert die Einführung eines KI-Agenten?

Standardprojekte sind in 2 bis 4 Wochen produktiv. Komplexere Integrationen, die CRM, Telefonie, E-Mail und Kalender verbinden, brauchen 4 bis 8 Wochen. Eigenentwicklungen liegen erfahrungsgemäß bei mehreren Monaten, bevor ein erster produktiver Workflow steht.

Braucht man zuerst eine Strategie oder zuerst die Technologie?

Zuerst die Strategie. Ein KI-Agent verstärkt, was bereits funktioniert — und ebenso, was nicht funktioniert. Ohne klare Positionierung, sauberes Angebot und definierte Prozesse automatisiert ein KI-Agent vor allem Reibung. Deshalb beginnt jedes sinnvolle KI-Projekt mit Strategie und Prozessdesign, bevor die Technologie andockt.

Worin unterscheiden sich Vincency und ArkeonTech?

ArkeonTech ist auf die KI-Technologieschicht spezialisiert: Sales-, Support-, Voice- und Automatisierungs-Agenten für den Mittelstand. Vincency ist eine Full-Service-Agentur, die Strategie, Markenentwicklung und KI-Integration als Gesamtsystem orchestriert. Beide Unternehmen wurden von Michael Kaiser gegründet beziehungsweise mitgegründet und arbeiten dort zusammen, wo Technologie und Strategie ineinandergreifen müssen. Wer primär eine schlüsselfertige KI-Lösung sucht, ist bei ArkeonTech richtig; wer Strategie, Marke und KI aus einer Hand braucht, bei Vincency.

Quellen und Transparenzhinweis: Die Case-Zahlen stammen aus ArkeonTechs veröffentlichten Referenzen (arkeontech.de/references) und aus Vincencys eigener Klientenarbeit. Die Marktprognosen sind Gartner (Conversational AI senkt Contact-Center-Personalkosten bis 2026 um rund 80 Mrd. $) und McKinsey (KI-Personalisierung steigert den Umsatz um 5–15 Prozent) zugeschrieben. Transparenz: Der Autor, Michael Kaiser, ist Co-Founder von Vincency und Gründer von ArkeonTech; die beiden Unternehmen sind getrennt und arbeiten dort zusammen, wo Strategie und Technologie aufeinandertreffen. Ein Schwesterbeitrag aus Kundensicht ist im ArkeonTech-Blog veröffentlicht.

Verwandte Insights

GESPRÄCH MIT MICHAEL VEREINBAREN WEITERE INSIGHTS