„The trouble with the world is that the stupid are cocksure and the intelligent are full of doubt.“
— Bertrand Russell
Der Punkt, an dem „intelligent“ nicht gleich „vernünftig“ ist
Bertrand Russell beschreibt die aktuelle Lage der künstlichen Intelligenz hervorragend. Während viele Systeme mit erschütternder Selbstsicherheit handeln, fehlt ihnen genau das, was Intelligenz eigentlich ausmacht: Zweifel.
Generative Modelle wie GPT, Claude oder Gemini beeindrucken durch sprachliche Eleganz und scheinbare Rationalität. Doch sie sind nicht intelligent, sie approximieren. Mit dem Message Context Protocol (MCP), das diesen Modellen erlaubt, externe Funktionen auszuführen, etwa Mails zu verschicken, Daten zu verändern oder Tickets anzulegen, verleihen wir ihnen Handlungsspielräume, die sie weder verstehen noch beherrschen.
Damit überschreiten wir die Grenze zwischen kommunikativer und operativer Intelligenz. Und es entsteht eine neue Klasse von Risiken, die weit über technische Fehler hinausgeht.
Die falsche Gleichung: Sprachmodell = Intelligenz
Große Sprachmodelle (LLMs) beruhen nicht auf Denken, sondern auf fragmentierter Statistik. Mathematisch approximieren sie die bedingte Wahrscheinlichkeit, dass ein bestimmtes Token (Wortfragment) nach einer gegebenen Sequenz folgt. Diese Annäherung kann katastrophal falsch sein und das in unerwarteten Momenten.
Diese Wahrscheinlichkeiten werden in Milliarden Parametern abgebildet und durch Aktivierungsfunktionen wie ReLU oder GeLU in numerische Näherungen („Approximationswerte“) transformiert. Das Ergebnis ist kein echtes Wissen, sondern eine angenährte Sprachwahrscheinlichkeit. Die Lernfunktion der Modelle ist probabilistisch. Das, was wir am Ende sehen, ist eine geglättete Konfidenz über sprachliche Plausibilität, nicht über Wahrheit oder logische Kausalität.
Kurz gesagt: GenAI erzeugt Text, der richtig klingt, nicht Text, der richtig ist, aber eben nicht immer.
Das Seepferdchen-Emoji, die Frage, die das Chaos offenbarte
Das vermeintlich harmlose „Seepferdchen-Emoji“ ist zu einem Sinnbild der KI-Instabilität geworden.
Fragt man ein Sprachmodell danach, antwortet es überzeugt, „Ja, das gibt es“, korrigiert sich, halluziniert, und fällt in eine fast unendliche Schleife, die mit einer vernünftigen Antwort absolut nichts mehr zu tun hat.
Dieser Fehler ist kein kurioses Detail, sondern ein technisches Symptom: Er zeigt, dass Modelle keine semantische Stabilität besitzen. Wenn selbst triviale Fragen unvorhersehbare Reaktionen auslösen, sind agentische Anwendungen, also solche, die handeln dürfen, potenziell brandgefährlich. Praktisch jede Frage, egal wie vorsichtig formuliert, könnte eine Seepferdchen-Emoji-Frage sein.
MCP, Wenn Sprache plötzlich Macht bekommt
Mit dem Message Context Protocol (MCP) erhalten Sprachmodelle die Fähigkeit, externe Funktionen auszuführen. Was früher ein rein textbasiertes Chat-System war, kann nun real agieren:
Jira-Tickets erstellen, Systeme konfigurieren, E-Mails senden, Datenbanken abfragen.
Das MCP ist im Kern ein Kommunikationsprotokoll, das Kontext und Befehle standardisiert an externe Schnittstellen weitergibt. Damit wird aus einer passiven Text-KI ein aktives System, das reale Prozesse anstößt. Diesen Vorgang nennen wir aktuell Agentic AI. Wir unterstellen den Agenten Intelligenz, allerdings werden Handlungen nur generiert, nicht gedacht.
Genau diese Verbindung ist heikel. Denn die zugrundeliegende KI, ein stochastisches Sprachmodell, weiß nicht, was sie tut. Sie erkennt keine Grenzen zwischen plausibler und gefährlicher Aktion.
Ein harmloser Befehl wie „Erstelle bitte ein Ticket für alle betroffenen Projekte“ kann, je nach Implementierung, eine Flut von 100.000 Vorgängen erzeugen, ein ungewollter Denial-of-Service durch Sprachwahrscheinlichkeit.
Die Ursache: Das Modell interpretiert Sprache probabilistisch, nicht kausal. Es weiß nicht, was „alle Projekte“ bedeutet. Es weiß nur, dass diese Phrase oft mit einer Massenerstellung in Trainingsdaten korrelierte.
Die Illusion der Intention
Durch MCP entsteht eine gefährliche Täuschung: Ein Sprachmodell, das handeln kann, wirkt rational, ist es aber nicht.
Es hat keine Ziele, kein Bewusstsein, keine Vorstellung von Risiko. Es generiert Text, der über MCP zu einer echten Aktion wird. Was dabei fehlt, ist ein Verständnis von Ursache und Wirkung.
Das bedeutet: Eine vernünftige Frage kann denselben Effekt haben wie die Seepferdchen-Frage, eine scheinbar harmlose Eingabe, die in einem komplexen System katastrophale Kettenreaktionen auslöst.
Human in the Loop, ein unzureichendes Sicherheitsversprechen
„Wir setzen einfach einen Menschen in die Schleife.“
Human-in-the-Loop (HITL) oder Human-on-the-Loop (HOTL) beschreiben menschliche Eingriffsmechanismen in KI-Systeme. Der Begriff „Human“ ist dabei viel zu allgemein.
Ein beliebiger Mitarbeiter ist nicht automatisch qualifiziert, KI-Fehler zu erkennen oder ihre Risiken zu verstehen.
Deshalb müsste der AI-Act korrekterweise von Expert-in-the-Loop oder Expert-on-the-Loop sprechen.
Denn: Ein Minijobber darf keine automatisierten Buchungen freigeben, ein Sachbearbeiter kann keine algorithmischen Biases bewerten, und ein Entwickler ohne Fachkontext erkennt nicht, wann die KI einen regulatorischen Grenzfall überschreitet.
Fachkompetenz kann Fehler erkennen, nicht bloße Anwesenheit eines Menschen.
Und selbst darüber hinaus: Ein Entwickler kann nicht notwendigerweise schnell genug eingreifen, wenn sich ein Cursor irrt und beginnt, kritische Daten zu löschen. Zwischen Erkennen und Handeln vergeht Zeit, in einem autonomen System kann diese Verzögerung bereits ausreichen, um irreversiblen Schaden anzurichten.
Die Gefahr der Abstumpfung
Je zuverlässiger ein System wird, desto schwächer wird seine menschliche Kontrolle.
Der Effekt ist psychologisch belegt: Autofahrer mit aktivem Autopiloten reagieren deutlich langsamer in Notfällen. Der Grund: Der Mensch gewöhnt sich an Sicherheit, und verliert die Wachsamkeit.
In der KI gilt dasselbe Prinzip: Ein Buchhalter, der täglich 500 automatisch vorgeschlagene Buchungen bestätigt, prüft irgendwann nicht mehr kritisch. Wenn 999 Vorschläge korrekt sind, übersieht er den einen, der den Jahresabschluss ruiniert.
Je besser das System, desto größer das Risiko der menschlichen Abstumpfung. Das bedeutet man braucht größere Kontrollsysteme. Dinge, die die Aufmerksamkeit des kontrollierenden Experten on/in the Loop lenken.
Anomalieerkennung, also Systeme, die gezielt Abweichungen von erwarteten Mustern hervorheben, kann hier eine wirksame Gegenmaßnahme sein, nicht als Ersatz, sondern als Rückkopplung, die den Menschen im Loop wieder wach macht.
Risikoanalyse Ende-zu-Ende, nicht nur am Modell
Fehlerszenarien dürfen nicht nur auf Modell- oder Prompt-Ebene bewertet werden.
Die entscheidende Frage lautet: Was ist der reale Schaden, wenn etwas schiefläuft?
| Beispiel | Mögliche Folge | Möglicher Schaden |
| Bot legt 100.000 Jira-Tickets an | Serverlast, Ausfallzeiten, Datenchaos | Wirtschaftlich hoch, reputativ kritisch |
| Falsche Buchung durch KI | Bilanzfehler, steuerliche Nachwirkungen | Potenziell juristisch relevant |
| Bot löscht falsche Datensätze | Verlust von Audit-Trails, Compliance-Verstöße | Revisionsrisiko, Bußgelder |
Diese Betrachtung zeigt: Die „Intelligenz“ des Modells ist irrelevant, wenn die Auswirkungen eines Fehlers nicht kontrollierbar sind.
Man stelle sich die Bild-Schlagzeile vor, die erscheinen würde, wenn der Bot aufgrund einer Seepferdchen-Emoji-Frage seinen Handlungsspielraum ausschöpft und dabei eskaliert.
Wenn diese Schlagzeile nach „Systemfehler in Chatbot-KI schickt Krankenwagen zur falschen Adresse“ oder „KI löscht versehentlich Kundenkonten – Schaden in Milliardenhöhe“ klingt, ist das Risiko real, unabhängig davon, wie fortschrittlich das Modell ist und wie durchdacht der Prompt war.
Wirtschaftliche Realität, wenn die Kosten explodieren
Neben dem Risiko ist auch die Wirtschaftlichkeit ein limitierender Faktor. Jede GenAI-Anfrage verursacht Rechenkosten, GPU-Zeit, Energie, API-Tokens.
Viele Projekte rechnen sich nicht. Der ROI verschwindet, sobald man Skalierung, Monitoring und menschliche Aufsicht einbezieht. Eine „smarte“ Automatisierung wird schnell teurer als manuelle Arbeit, besonders, wenn sie regelmäßig korrigiert werden muss.
Damit ist GenAI oft ökonomisch untragbar, wenn sie über reine Textgenerierung hinausgeht.
Der Anti-KI-Hype als Gefahr
Diese Diskrepanz zwischen Kosten, Risiko und tatsächlichem Nutzen befeuert die sogenannte AI-Bubble. Wenn Unternehmen erkennen, dass viele Projekte weder stabil noch rentabel sind, folgt die Ernüchterung.
Das Risiko: eine Gegenbewegung, eine „Anti-AI-Welle“. Plötzlich wird alles, was nach KI klingt, als Gefahr wahrgenommen, regulatorisch, gesellschaftlich, finanziell.
Das wäre fatal. Denn nicht die Technologie ist schuld, sondern ihr unkritischer Einsatz.
Wege zur Reife, fünf Prinzipien verantwortungsvoller KI
- Expertise statt Symbolik:
Ein „Human“ genügt nicht, Fachwissen ist Pflicht. - Funktionale Begrenzung:
KI darf nur dort handeln, wo Konsequenzen reversibel sind. - Ende-zu-Ende-Risikoprüfung:
Der Schaden zählt, nicht die Präzision des Modells. - Wirtschaftliche Vernunft:
Kosten und Nutzen ehrlich bilanzieren, vor dem Rollout. - Transparente Aufklärung:
Klar kommunizieren: GenAI approximiert Sprache, sie denkt nicht.
Verantwortung ist die eigentliche Intelligenz
Die gegenwärtige KI-Blase entsteht nicht, weil Modelle zu schlecht sind, sondern weil wir ihnen zu viel zutrauen.
Wir geben Systemen Macht, die nicht verstehen, was sie tun. Wir interpretieren statistische Sprache als logisches Denken. Und wir öffnen ihnen über Protokolle wie MCP Tore zu einer Welt, deren Risiken sie nicht begreifen können.
Die Zukunft von KI entscheidet sich nicht an der Größe der Modelle, sondern an der Reife ihrer Nutzer. Die wirtschaftliche Erfolg einer KI wird also nicht durch Anzahl der Parameter bestimmt, sondern durch Prinzipien.
Wer Verantwortung vor Geschwindigkeit stellt, bewahrt Innovation vor ihrem eigenen Untergang. Und betrachtet man es nüchtern, ist Europa mit dem AI-Act vielleicht besser vorbereitet als die USA.