KI-Tools sind statistische Papageien: Sie plappern nach, was sie anderenorts gelesen haben. Dabei generieren sie Sprache ohne Absicht und ohne tieferes Verständnis für Konzepte. Das ändert sich auch nicht, wenn sie neu auf Ausdrücke wie «Hmm . . .» setzen.

Wenn man mit KI spricht, wirken die Antworten oft menschlich. Doch der Eindruck täuscht.
«Hmm, wo fange ich da an?», schreibt Deepseek in einem Chat über Sprache. Um sich dann später noch zu hinterfragen: «Aber warte mal, Tiere können auch kommunizieren . . .» Nicht nur Deepseek setzt in seinem Ausdruck auf menschliche Eigenheiten. Fragt man zum Beispiel Chat-GPT, warum sich die KI so freundlich gebe, so lobt der Chatbot zuerst die Frage, bevor er erklärt, das mache Interaktion angenehmer und produktiver. «Aber wenn du eine direktere oder neutralere Art bevorzugst, kann ich mich anpassen! »
Je länger, je mehr trainieren die grossen KI-Firmen ihre Modelle explizit darauf, möglichst menschlich zu klingen. Elon Musk zum Beispiel preist seinen Chatbot Grok als besonders «frech» an. Sam Altman bewirbt die neuste Version von Chat-GPT mit dem Versprechen, es fühle sich so an, als würde man «mit einem aufmerksamen Menschen sprechen».
GPT-4.5 is ready!
good news: it is the first model that feels like talking to a thoughtful person to me. i have had several moments where i’ve sat back in my chair and been astonished at getting actually good advice from an AI.
bad news: it is a giant, expensive model. we…
— Sam Altman (@sama) February 27, 2025
Allerdings funktioniert Sprache bei Mensch und Maschine noch immer völlig unterschiedlich. Eine Sammlung von Argumenten, die erklären, warum die Sprache des Menschen – zum Glück – eben doch menschlich und deshalb nicht so leicht zu imitieren ist.
Menschen generieren Verhalten, nicht nur Sprache
Benjamin Grewe ist Professor am Institut für Neuroinformatik der ETH und der Universität Zürich und forscht an der Schnittstelle von biologischer und künstlicher Intelligenz. Er sagt: «Das Gehirn generiert nicht Sprache, sondern Verhalten.»
Sprache ist dabei beim Menschen nur eine mögliche Form von Verhalten, die das Gehirn generieren kann. In manchen Situationen wird der Mensch zum Beispiel keine sprachliche Reaktion generieren, sondern stumm die Augenbrauen heben.
Ein KI-Modell wie Chat-GPT wiederum bekommt einen Input, zum Beispiel einen Text oder ein Bild. Dann sagt es auf der Basis von Wahrscheinlichkeiten das nächste Wort voraus. Ein Chatbot generiert also nur Sprache und kein Verhalten.
Das menschliche Gehirn verarbeitet denselben Input also völlig anders: Es erzeugt nicht einfach ein weiteres Wort, sondern ein Verhalten, eine Reaktion auf das Gelesene.
Menschen reden, um Beziehungen zu pflegen
Wenn wir die Sprache nicht um der Sprache willen generieren, wozu dann? Der Sprach- und Neurowissenschafter Sebastian Sauppe beschäftigt sich am Psychologischen Institut der Universität Zürich mit kognitiven Mechanismen, die bei der Produktion und dem Verständnis von Sprache helfen. Er sagt: «Ein wichtiger Unterschied zwischen Menschen und Chatbots ist: Wir benutzen Sprache, weil wir anderen etwas mitteilen wollen.»
Was auf den ersten Blick sehr offensichtlich klingt, ist es eben nur für den Menschen. Denn Chatbots wollen nichts mitteilen, sie wollen beim Gegenüber nichts bewirken. «Solche Sprachmodelle sind keine sozialen Akteure. Sie haben nur eine Aufgabe: Irgendwie den Prompt beantworten», erklärt Sauppe. Aber ob die Antwort dem User gefällt, ob er verärgert wird oder gelangweilt, das interessiert das Sprachmodell kein bisschen. Solche Absichten haben, wenn überhaupt, nur die Menschen, die hinter dem Modell stecken.
Beim Menschen ist das völlig anders. Wir nutzen die Sprache stets auch zur Pflege von sozialen Beziehungen. Ginge es nur um die Übermittlung von Inhalt, dann wäre es im Arbeitsalltag viel effizienter, wenn ein Chef seine Angestellten nur mit kurzen Befehlen anschnauzte. Doch das wäre sozial inakzeptabel. Und zumindest im Normalfall ist das Ziel eines Menschen im Umgang mit anderen nicht nur die Übermittlung von Informationen, sondern auch die Wahrung von Beziehungen.
Würde es aber im Büro brennen, so gälten andere Ziele, und die Angestellten würden solche Kurzbefehle hinnehmen. Das zeigt: Sprache wird vom Menschen immer für ein Ziel eingesetzt und entsprechend angepasst. Ein Chatbot hat wiederum kein Ziel, sondern erzeugt einfach das nächste Wort.
Der Mensch versteht, was Worte bedeuten
Daraus folgt ein weiterer Unterschied in der sprachlichen Kommunikation von Mensch und KI: Für uns ist die Sprache ein Vehikel, wir transportieren darin eine Bedeutung, ein Konzept und somit unser Verständnis der Welt. Dem Chatbot fehlt dieses Verständnis, das auf mehr beruht als nur auf der Sprache. Er kann also nur auf Fragen antworten, die er so ähnlich in seinen Trainingsdaten hatte.
Es ist, als würde man einen Blinden fragen, welche Farbe eine Banane hat. Er weiss wahrscheinlich, dass die Antwort «Gelb» lautet. Doch er weiss weder, wie Gelb aussieht, noch könnte er die Frage beantworten, ohne dass ihm die Antwort zuvor jemand anderes gesagt hätte.
Mit einem Chatbot funktioniert es ähnlich. Fragt man ihn, welche Farbe eine Banane hat, dann kann er zwar eine Antwort liefern, doch diese beruht nicht auf einem Verständnis von Früchten und Farben, sondern darauf, dass er in seinen Trainingsdaten einen Zusammenhang zwischen dem Wort Banane und dem Wort Gelb festgestellt hat.
Dieser Unterschied könnte laut Sprachforschern auch ein wichtiger Grund dafür sein, weshalb Menschen Sprache effizienter lernen als KI. Es gibt Wettbewerbe, ein möglichst gutes Sprachmodell zu trainieren mit einer ungefähren Datenmenge, die ein Kind zur Verfügung hat. Diese Modelle beherrschen Sprachen im Vergleich zu Kindern jedoch schlechter. Denn um Sprachen gleich gut zu beherrschen wie ein Kind, brauchen die Sprachmodelle wesentlich mehr Trainingsdaten, als ein Mensch während seiner Kindheit hört und liest.
Kinder hätten einen entscheidenden Vorteil, sagt der Neuroinformatiker Benjamin Grewe: «Der Mensch lernt erst die Konzepte und dann das Wort dafür.» Kinder etwa hätten ein Verständnis von ihrer Mutter und ihrem Vater, lange bevor sie das Wort Mama oder Papa lernten. «Was ein Stofftier ist, lerne ich als Baby, indem ich damit spiele, es gegen die Wand schmeisse und schaue, was passiert. Das Wort Stofftier lerne ich erst danach und verbinde es mit diesem Konzept», sagt Grewe.
Menschen können lügen
KI-Modelle sind dafür bekannt, dass sie immer wieder halluzinieren, also Text produzieren, der mitunter ziemlich viele Unwahrheiten enthält. Das könnten auch Menschen, sagt der Neurowissenschafter Sauppe, doch mit einem entscheidenden Unterschied: «Als Mensch habe ich eine Referenz zu wahr oder falsch, sozusagen einen Anker in der echten Welt. Das haben diese Modelle nicht, zumindest nicht von Natur aus eingebaut.»
Die KI-Modelle halluzinieren, weil sie ein Muster wiedergeben, das sie aufgrund ihrer Trainingsdaten für wahrscheinlich halten. Sie können falschliegen, aber wirklich lügen können sie nicht. Bei Menschen ist das anders. Wir können absichtlich Unwahrheiten produzieren, wenn das unserem Ziel dient.
Am besten lässt sich das mit einem Beispiel erklären: Ein Kind, nennen wir es Fritz, passt in der Schule nicht auf und hört eine Erklärung der Lehrerin nicht. Sie merkt das und fragt nach. Fritz will aber nicht eingestehen, dass er geistig abwesend war. Also versucht er, eine Erklärung zu erfinden, die ihm aus der Situation heraus wahrscheinlich scheint. Sein Kopf wird rot, er wird nervös, denn er weiss, dass er die Antwort nicht kennt. Dennoch trägt er sie vor und hofft, richtig zu raten.
So ähnlich funktionieren auch die aktuellen KI-Tools – aber mit einem essenziellen Unterschied. Das KI-System wird nicht rot. Denn Chatbots entscheiden sich nicht, zu lügen, weil sie in jedem Fall nur raten, wie Fritz, was eine plausible Antwort sein könnte.
Da sie mit viel Aufwand und Daten trainiert wurden, raten sie oft richtig. Doch selbst wenn sie richtigliegen, ist es ihnen nicht bewusst, sie bleiben statistische Papageien. Das Kind wiederum rät vielleicht weniger oft richtig, doch es ist sich bewusst, ob es die Antwort wusste oder nicht.
Menschen bauen Sätze, nicht Wortfolgen
Chatbots raten Wort für Wort für Wort. Dabei fehlt nicht nur das inhaltliche Verständnis, sie haben auch kein Verständnis von Grammatik oder Satzbau, beispielsweise in welchem Fall ein Wort steht. Die KI hat einfach festgestellt, dass genau dieses Wort in diesem Fall üblicherweise an dieser Stelle vorkommt.
Die Prozesse, die bei der Entstehung von Sprache im menschlichen Gehirn ablaufen, lassen sich nur schwer aufzeichnen. Kürzlich haben Forscher des Facebook-Konzerns Meta einen neuen Einblick gewonnen. Sie haben die Gehirnsignale von Menschen statt beim Sprechen beim Tippen auf einer Tastatur aufgezeichnet. Die Resultate zeigen, dass verschiedene Gehirnregionen nacheinander und überlappend aktiviert werden. Daraus schliessen die Forscher, dass die Sprache beim Menschen hierarchisch aufgebaut wird.
Der Neurowissenschafter Sauppe erklärt das so: «Wir haben eine Idee, und daraus leiten wir dann eine Satzstruktur ab.» Möchte ich, dass mir jemand etwas gibt, merke ich, dass ich einen Imperativ brauche. Dieser startet mit einem Verb, wie «gib», dann kommt der Empfänger «mir» und dann das, was ich brauche, etwa «einen Apfel».
Diese Reihenfolge wird im Kopf als Vorlage vorbereitet. Erst dann befüllen wir diese Struktur mit Worten. So kann es zum Beispiel dazu kommen, dass wir mitten im Satz merken, dass uns ein Wort nicht in den Sinn kommt. Doch weil wir schon wissen, was wir inhaltlich sagen wollen, können wir uns behelfen. So entsteht beispielsweise: «Gib mir doch das Dingsbums, das mit dem Knopf.»
Dass dies nicht nur beim Tippen so funktioniert, haben zwei Studien 2021 und 2022 festgestellt, an denen Sebastian Sauppe beteiligt war. Sie haben die Gehirnaktivität gemessen, bevor eine Person zu sprechen beginnt, und ähnliche Signale gefunden, wie sie Meta gemessen hat.
Am Anfang steht also eine Idee, die noch nicht versprachlicht wurde. Und um diese zu kommunizieren, bilden wir Konstrukte mit Konzepten, aber noch ohne Worte. Wir bauen diese und füllen sie erst danach mit Worten. Diese werden weiterverarbeitet und umgewandelt zu Silben und diese zu Mundbewegungen, also zu Verhalten.
Während Chatbots also immer menschlicher klingen und ihre Sprache immer weiter optimiert wird, funktionieren die dahinterliegenden Systeme fundamental anders als die Sprachsysteme des Menschen. KI kann Sprache erzeugen – aber keine Gedanken, keine Absichten und kein echtes Verständnis. Sie klingt menschlich, aber sie ist es nicht. Und das ist vielleicht gut so.
Ein Artikel aus der «»