--- author: B. A. Sylla category: Comment date: 2026-04-26 language: de tags: OpenAI, Anthropic, Language Models, GenAI --- Demenz umgehen, a.k.a. Prompt Engineering ========================================= Geändert: {sub-ref}`today`, Wörter: {sub-ref}`wordcount-words`, Lesedauer: {sub-ref}`wordcount-minutes` min :::{note} Dieser Artikel wurde von mir mit Hilfe von [DeepL](https://www.deepl.com/de/translator) und etwas Nachbearbeitung auch ins [Englische](circumventing_dementia_a_k_a_prompt_engineering) übersetzt. ::: Der Begriff Prompt Engineering ist lächerlich. Mit Engineering ist etwas gemeint dass etwas nach Regeln zu etwas Verlässlichem hin konzipiert werden soll. Aber Prompt-Formulierung für Sprach-, Bild- und Video-Modelle geht nicht nach Regeln, sondern nach 5 % Erfahrung und 95 % Hoffnung. Und dann ist der Prompt auch niemals verlässlich, nicht bei einem Modell und schon gar nicht portabel für viele oder gar alle Modelle. Prompt-Formulierung hat wirklich nichts mit Engineering zu tun. Wenn man sich Regeln von [System-Prompts von Modellen wie Claude](https://platform.claude.com/docs/en/release-notes/system-prompts) anschaut, dann sieht man dass da sehr viel mit DOES NOT formuliert ist. Das ist das Resultat aus der Erfahrung von einfach jedem Benutzer der nach einer Weile mit Sprachmodellen wie GPT-5 merkt, dass das Modell entweder beharrlich nicht versteht was man meint oder mit immer länger werdenden Chatverlauf dümmer und dümmer wird so dass es das Gegenteil von dem versteht und tun was man ihm aufgetragen hat. Aber DOES NOT ist nicht verlässlich und schon gar nicht je mehr man im Prompt an Informationen mitgibt. Modelle missachten umso mehr, je mehr im Prompt drin steckt. Auch wenn Trottel, und dazu zählen die Sprachmodelle selbst, immer behaupten ein Sprachmodell hätte "vergessen", nein es hat missachtet. Denn der Intelligenzquotient eines Sprachmodells wird wesentlich von seinem Aufmerksamkeitsmechanismus geprägt. Und der ist nicht perfekt. ## Sprachmodelle werde nicht schlauer, sondern angepasster In Richtung Aufmerksamkeitsmechanismen gibt es auch Forschung. Aber bislang sind es nur Prozentpünktchen unterschied ob man bei Aufmerksamkeitsmechanismus oder der Architektur etwas verändert. Nur bei speziellen Aufgaben gibt es gegenwärtig auch mal Erfolgsmeldungen dass ein anders konzipiertes Modell 100 bis 200 Prozent besser abschneidet, bei nur einer speziellen Aufgabe versteht sich. Aber über eine Vielzahl an Aufgaben sind es mittlerweile nur wenige Prozentpünktchen mehr alle paar Monate. Doch was dabei nicht gesagt wird, ist eine unumstößliche Tatsache. Wenn ein Modell die gleiche Parameter-Anzahl und im wesentlichen die gleiche Architektur hat, dann kann es in einigen Bereichen um Prozentpünktchen nur besser werden, wenn es in anderen nicht getesteten Bereichen schlechter abschneiden würde. Diese werden von KI-Firmen nicht gezeigt. Niemand will Werbung machen mit der Botschaft "Insgesamt ist unser neues Modell gleich dumm wie vorher. Und wir haben 10 Mio. Dollar in das Training investiert. xD". Und tatsächlich ist es mittlerweile so dass neue Modelle etwas schlechter beim Thema Guardrails abschneiden als das vorherige Modell. Mit anderen Worten, es ist weniger zuverlässig als vorher. Nur drückt das keine der Firmen so aus. Das so genannte "Prompt Engineering" kann bei Zuverlässigkeit kaum helfen. Keine Sau weiß wie man Prompts zuverlässig macht. Und die Influenza-Typen auf YouTube tun so als ob es doch so wäre. ## Sprachmodelle sind nicht vergesslich, sondern dement Wenn Modelle mit größer werdendem Chatverlauf dümmer werden, dann ist das auch nicht wie die Influenza-Pest auf YouTube behautet vergesslicher werden. Wenn ein Modell erst mal dümmer wurde während des Chats, dann bleibt es Dumm, es fällt ihm nichts mehr ein vom Chatverlauf vorher. Man muss es ihm nochmal sagen. Das ist nicht Vergesslichkeit sondern Demenz. Und das ist auch was viele Leute, die keine Erfahrung mit Dementen habe, falsch verstehen. Sie meinen Demente wären vergesslich. Nein bei Vergesslichkeit fällt es einem Stunden, Tage oder Wochen später wieder ein. Bei Demenz vergisst man für immer, man vergisst seine Angehörigen wie die eigenen Kinder. Und es fällt einem nie wieder ein. Das geht so weit dass man nicht mehr Links von Rechts und Vorher von Nachher unterscheiden kann. Deswegen können Demente mit der Zeit auch keine Werkzeuge wie die Klingel am Krankenbett im Krankenhaus mehr bedienen. Es ist vergessen und es bleibt vergessen. Demenz ist also nicht Vergesslichkeit, sondern die immer weiter absinkende Intelligenz bis hin zur Intelligenz auf Kindergartenniveau und darunter. Genau diese Erfahrung macht man mit Sprachmodellen je länger der Chatverlauf wird. Mit Prompt Engineering versucht man also die Demenz von Sprachmodellen zu umschiffen. Das ist nicht Engineering, sondern Krankenpflege bei Dementen. ## Sprachmodelle antworten nicht, sondern spinnen weiter Der Gipfel der Volksverdummung ist, wenn "Frontier Labs" wie OpenAI und Antrophic so tun als ob man darauf hoffen könnte, dass es in "zwei Jahren" eine Heilung für Sprachmodelle in Sachen Demenz gäbe. Die angeblich bald kommende Superintelligenz nennen sie dann gerne AGI (Artificial General Intelligence). Die Vorhersage des nächsten Tokens muss mathematisch betrachtet umso ungenauer werden je mehr vorhergehende Token dabei beachtet werden müssen. Dagegen kann es kein Mittel in zwei Jahren geben und sehr wahrscheinlich niemals. Jegliches Mittel dagegen ist nur ein Hack wie das Nutzen von Tools, Agent Skills oder Datenbanken. Das hat aber nichts mit dem Modells selbst zu tun, das sind nur Hilfsmittel. Ein Trottel ist auch ein Trottel mit Papier und Bleistift. Das was als Schlauer werden von Sprachmodellen bezeichnet wird, ist nur so genannten Alignment. Mit Alignment ist gemeint dass ein Modell öfter die Absicht des Benutzers bzw. seiner Prompts trifft bei der Ausgabe der Antwort-Token. Wobei auch der Begriff Antwort Bullshit ist. Ein Sprachmodell antwortet nicht, sondern spinnt eine Geschichte weiter. Man gibt Tokens als so gennanten Prompt (Anfrage) vor und das Modell spinnt die Geschichte weiter mit weiteren Token die Antwort-Token oder kurz Antwort genannt werden bis ein EOS-Zeichen (End Of Sequence) kommt. Dann hört die Software die das Modell laufen lässt auf damit weitere Token zu generieren. Sie könnte auch weiter Token nach dem EOS ausgeben so dass der Nutzer den Eindruck hätte dass das Modell irre geworden wäre und immer dümmeres Zeug produzieren würde das mit dem Prompt nichts zu tun hat. Aber dümmer wird es nicht, weil es nie intelligent war. Das ist nur tun als ob. Die Software hat nur mittels der Modell-Gewichte und der Modell-Architektur Antwort-Token ausgespuckt die mit einer simplen Formel, die als Aufmerksamkeitsmechanismus bezeichnet wird, mit den Anfrage-Token statistisch verknüpft wurden. Je genauer man anfragt, desto passender die Antwort, aber auch nur wenn das Modell dazu prinzipiell in der Lage ist. Ist es zu klein, ist es zu dumm. Da hilft dann auch kein Prompt Engineering. ## Sprachmodelle sind kein Umbruch, sondern ein Cargo-Kult Prompt Engineering ist nicht nur Demenzpflege, es ist auch [Cargo-Kult](https://en.wikipedia.org/wiki/Cargo_cult). Das ist so tun als ob. Jeder Aspekt an Sprachmodellen ist ein Ob: als ob es intelligenter werden würde, als ob "gute" Prompt-Formulierung zu zuverlässigen Vollautomation führen würde, als ob KI ganze Arbeitsplätze ersetzen könnte, als ob jeder Mensch und jede Firma es brauchen würden, als ob die Firmen dahinter die wertvollsten der Welt wären und so weiter. Der Sprachmodellirrsinn ist ein Cargo-Kult.