Frage - Was können Sprachmodelle und was nicht?

../../../_images/balance_scales_wizards_ornaments.jpg

Geändert: 2025-06-14 08:45:30, Wörter: 978, Lesedauer: 5 min

TODO: Einleitende Worte zur Absurden Intelligenz und zur Absurden Generalisierten/Grotesken/Goofy Intelligenz.

Bisherige Probleme bei der Anwendung von Sprachmodellen

TODO

  • Bezüglich der Anfrage

    • Teilweises Nichtbeachten (Prompt Leakage / Disregarding): Sie neigen bei längeren Prompts dazu den Anfang und das Ende eines Prompts, nicht aber alles dazwischen auch zu beachten. Ausserdem, wenn Zusammenfassungen von Dokumenten stattfinden sollen, dann werden ganze Themen gar nicht in der Zusammenfassung erwähnt. Ein Mensch würde zuerst alle Themen ausmachen und dann dafür jeweils kurze Zusammenfassungen machen. Nicht Chatbots, wenn man mit ihnen nicht Schritt für Schritt vorgeht (mit mehreren Anfragen).

    • Missverstehen (Misstaking): Sie haben manchmal Probleme damit, die richtige Bedeutung eines Wortes oder Satzes im Kontext zu verstehen.

      • Beispiel: Die Anfrage “show your intended use” ist das Gleiche wie “show your intended use cases”, was manche lokalen Modelle nicht begreifen und dann ausgeben welche Hobbies/Tätigkeiten ein Mensch in seiner Freizeit unternehmen kann.

    • Kurzes Kontextfenster (Short Context Window): Sie haben eine begrenzte Menge an Kontext, den sie bei der Verarbeitung einer Eingabe berücksichtigen können. Längere Gespräche oder Texte können zu einem Verlust von Kohärenz führen, d.h. sie vergessen Details des Gesprächs.

    • Zu hohe Fehlertoleranz (Error Tolerance): Sie neigen dazu kleine Schreibfehler in der Eingabe einfach zu übersehen. Was im normalen Chat gut ist, ist beim Programmieren fatal, da Fehler (Errors) übersehen werden.

  • Bezüglich der Antwort

    • Unvollständige Sätze oder kaputtes Ausgabeformat: Sie geben manchmal nur den zweiten Teil eines Satzes aus oder sie geben Markdown-Steuerzeichen nicht aus und die Ausgabe ist falsch formatiert. Beides titt eher bei kleinen lokalen Sprachmodellen auf (bis 32B Parameter mit vier bis acht Bit pro Param., also Q4 oder Q8).

    • Vorurteile (Bias): Sie werden auf großen Datensätzen trainiert, die oft menschliche Vorurteile widerspiegeln. Das kann dazu führen, dass sie Stereotypen verstärken oder diskriminierende Aussagen machen.

    • Wiederholung (Repetition): Sie können dazu neigen, sich wiederholende Sprache zu verwenden, was ihren Text manchmal langweilig wirken lässt. Oder sie zeigen mit verändertem Text Stichpunkte mehrfach an.

    • Mangelndes echtes Weltwissen (Lack of “Real-World” Understanding): LLMs haben oft riesige Mengen Text gesehen, aber das heißt nicht, dass sie die Welt wirklich verstehen. Sie können Fakten kennen, aber Schwierigkeiten haben, diese im Kontext anzuwenden oder logisch zu kombinieren.

    • Faulheit (Laziness): Sie neigen dazu die einfachste oder kürzeste Antwort zu geben auch wenn diese nicht optimal oder vollständig ist. Das ist besonders beim Ausgaben von Quellcode ein Problem.

      • Beispiel: Als Anwtort wird ein unfertiger Quellcode gegeben in dem Kommentare stehen wie “Hier implementieren…”. Und selbst bei mehrfacher Aufforderung das auszufüllen, entsschuldigt sich das Sprachmodell und tut es wieder nicht.

    • Halluzinationen (Hallucinations/Fabrications): LLMs können Fakten oder Informationen erfinden, die in ihrem Trainingsdatensatz nicht vorkommen, aber dennoch präsentieren als wären sie wahr. Dies ist besonders häufig bei Fragen nach spezifischen Details.

    • Logisches Denken (Logical Reasoning): Sie können Schwierigkeiten haben, Ursachen und Wirkungen zu identifizieren oder komplexe Kausalbeziehungen zu verstehen.

    • Schwierigkeiten mit planerischem Denken: Sie haben manchmal Probleme beim Planen von Schritten, um ein Ziel zu erreichen, insbesondere wenn die Schritte mehrere Schritte im Voraus liegen.

  • Bezüglich der Sicherheit

    • Anfälligkeit für Adversarial Attacks: Sie sind anfällig bei kleinen gezielten Änderungen an der Eingabe große Veränderungen in der Ausgabe zu machen. Dadurch können sie dazu gebracht werden das Gegenteil zu sagen oder zu tun als ihre Sicherheits-Mechanismen (Guard Rails) ihnen erlauben.

Da sehen wir wie AGI in zwei Jahren kommen wird.

Welche Anwendungsfälle können oder können sie nicht?

TODO: Zuerst sollten wir definieren zu welchem Grad wir das höchst subjektiv bewerten wollen. Das Können kann bspw. folgende Qualitätsstuffen haben (subjektiver Vorschlag):

TODO: Blockdiagramm anfertigen mittels Mermaid.js mit den folgenden Begriffen in verschiedenen Faben.

  • Katastrophales Können (unstrittig / sehr hocher Konsens bei Benutzern)

    • Gar nicht Können: TODO: Bedeutung erklären?

      • Beispiele: TODO: Begriffe mit Links zu nachfolgenden Abschnitten

    • Sehr schlecht können (fast gar nicht): TODO: Bedeutung erklären?

      • Beispiele: TODO: Begriffe mit Links zu nachfolgenden Abschnitten

  • TODO Können: Ist das die Stuffe des für die Praxis relevanten/unrelevanten Könnens?

    • Schlecht Können: TODO: Bedeutung erklären?

      • Beispiele: TODO: Begriffe mit Links zu nachfolgenden Abschnitten

    • Gut Können: TODO: Bedeutung erklären?

      • Beispiele: TODO: Begriffe mit Links zu nachfolgenden Abschnitten

  • Wundervolles Können (Imenses Können) (unstrittig / sehr hocher Konsens bei Benutzern)

    • Sehr gut Können (fast perfekt): TODO: Bedeutung erklären?

      • Beispiele: TODO: Begriffe mit Links zu nachfolgenden Abschnitten

    • Perfekt Können (gar perfekt): TODO: Bedeutung erklären?

      • Beispiele: TODO: Begriffe mit Links zu nachfolgenden Abschnitten

TODO: Begriffe für oben zum Einfügen:

  • Vibe Codeing und Vibe Debugging

  • Zusammenfassung von Dokumenten wie PDFs, Blog-Artikeln und Youtube-Videos

  • Bildgenerierung (Text-To-Image) und Videogenerierung (Text-To-Video und Image-To-Video ohne Audio), Image-To-Image um ähnliche Bilder zu machen

  • Bildnachbearbeitung: bspw. nur in Maske werden Pixel neu generiert, fotorealistische Bildeffekte

  • TTS (Text-To-Speach, Text-To-Audio) und SR (Speech Recognition, Audio-To-Text), Podcast-Generierung, Nachvertonung von Audio in Videos mit und ohne Ändenrung für Lippensichronizität

  • Musikgenerierung, ganze Lieder, Melodien oder einfache Sounds

  • VQA, also primitive Form von OCR

  • QA / Wissensfragen

  • Mathematik-Aufgaben, aber eher keine Mathematische Optimierung

  • Internet Search / Research

  • RAG

  • Brainstorming, Mind Map erzeugen

  • Expertensystem auf Website oder als Reperaturhelfer auf Smartphone

  • Rollenspiel-Chat, Vorstellungsgespräch über indem Chatbot die Fragen stellt

  • Programmieren simpler Skripte / komplexerer Web-Anwendungen

  • Portierung von alten Code-Schnippseln in neuere Programmiersprachen. Vor allem wenn man einen eigenen Chatbot für den eigenen legacy Code trainiert wie das Morgan Stanley gemacht hat: Kommerzielle KI-Tools sind für alten Code nicht geeignet. Aber Programmierer spracht man dabei nicht wie Morgan Stanley bekannt gab.

  • Task-Automatisierung auf dem Betriebssystem

  • Optimierung von Texten wie Briefen oder Prompts für GenAIs

  • MCP (Text-To-Tool) womit Chatbots dann bspw. Taschenrechner nutzen können, weil sie selbst nicht rechnen können

  • Spezialisierte GenAIs

    • Proteinfaltung die deutlich mehr Molekülfaltungen in gleicher Zeit ausspuckt als vorhergehende Programme das konnten (Dafür gab es den Nobelpreis. An a.a. Google-Leute?).

    • Spielende GenAIs die besser als vorhergehende alternative KI-Programme sind (für Schach, Go etc.).

Könnte man nicht eine Norm einführen?

TODO: Das autonome Fahren kann nach der Norm SAE J3016 in einer von mehreren Abstufungen realisiert werden, von Stufe 0 bis Stufe 5 (höchst autonom). So etwas müsste es eigentlich auch für Starke KI bzw. für den Werbe-Gummibegriff AGI geben.

Fazit

Genau wie bei Alkohol sind Chatbots nichts für dumme Leute. Die schlauen, informierten Leute kommen durch Chatbots schneller voran. Doch die Dummen bleiben dumm und verlieren sogar ihre Jobs damit.