Immer wieder schrieb ich in der Vergangenheit kurze Happen zum Thema KI – hier, hier oder auch hier. Es war 2017, als ich zuletzt zusammenhängend Gedanken zum Thema KI im IT-Kontext formuliert habe. Über 8 Jahre später stelle ich fest, dass meine damals formulierten Wünsche an die KI leider noch nicht zu meiner Zufriedenheit erfüllt wurden. Während das Thema „automatische Übersetzung“ nun zweifellos zumindest zwischen Englisch und Deutsch so einigermaßen akzeptabel – wenn auch noch lange nicht perfekt – funktioniert, ist das Thema „autonomes Fahren Stufe 5“ leider weiterhin Zukunftsmusik. Was Waymo da inzwischen hinkriegt, ist zwar durchaus beeindruckend, aber eben auch noch sehr weit weg von „funktioniert überall, ohne Remote Supervision, ohne Einschränkungen, bei jedem Wetter, auf allen Strecken“. Der Status Quo ist allzu oft „tut so leidlich, aber nicht wirklich gut“. Schon mal eine automatische Übersetzung vom Finnischen ins Deutsche versucht?
Nun kam es ja in den letzten 8 Jahren zum größten Fortschritt der KI in der IT-Historie, die LLM-Revolution, angeführt von ChatGPT. Zeit für eine neue Bestandsaufnahme. Ich bin kein Experte für KI-Innereien, für die neuesten Forschungsergebnisse, für die aktuellsten Trends, für die ganzen verschiedenen Modelle und ihre jeweiligen Stärken und Schwächen. Ich bin nur KI-Anwender und beobachte die zur Verfügung stehende real existierende Qualität.
Bei der Softwareentwicklung hat insbesondere dank der KI-Agenten inzwischen die Unterstützung einen Stand erreicht, den man durchaus als nützlich bezeichnen kann. In diesem Bereich kann KI durchaus Zeit sparen, allerdings verschiebt sich der Aufwand für den erfahrenen Entwickler von recherchieren-und-nachdenken-und-codieren-und-refactorn hin zu reviewen-und-Prompts-umformulieren-und-prüfen-und-verstehen. Ich fand diese Studie sehr erhellend, weil sie meine unsortierten Gedanken zum Thema schön aufnimmt und ordnet: Beschäftigung mit dem Code, drüber nachdenken, auch mal Sackgassen erforschen, testen, debuggen, umbauen, erweitert – all das baut am hirn-internen Modell eines Stücks Software. Wenn man Teile davon an KI auslagert, verkümmert dieses mentale Modell, was sich nachteilig auf die weitere Entwicklungsgeschwindigkeit auswirken kann. Und man muss auch festhalten, dass KI zur eigenständigen Bearbeitung von wirklich komplexen und umfassenden Aufgabenstellungen – beispielsweise Performance-Optimierungen in großen Systemen oder das Beheben von Heisenbugs – weitgehend untauglich ist. Fast möchte man sagen, dass sich hier der Kris schließt zum autonomen Fahren: als Assistenz tauglich, als unbeaufsichtigter Fahrer hingegen nicht.
Als enttäuschend empfinde ich nach wie vor, dass KI (oder, wie man genauer sagen muss: die spezifische KI, die ich zu diesem Problem befragt hatte) selbst an einfachen Aufgaben scheitert, vor allem, wenn es auf die Details ankommt. Zuletzt enttäuscht wurde ich bei der Frage nach der neuesten Version eines Maven-Plugins, das noch Java 7-tauglich ist (bitte nicht fragen, was der Hintergrund dieser Frage war…). Die Antwort war eine Versionsnummer, die gar nicht existierte. Auf erneute Nachfrage dann eine falsche Versionsnummer. Oder die Frage nach dem Zeitpunkt des Lizenzwechsels einer Open-Source-Bibliothek, wo nicht nur in der Antwort die Lizenzsituation falsch dargestellt wurde, sondern auch Zeitpunkt und Art des Lizenzwechsels. Und so bleibt für mich im Dunkeln, für welche Aufgaben die KI nun wirklich gut geeignet ist und für welche nicht – man weiß es erst hinterher, aber manchmal nur, wenn man die Antwort vorher schon kennt oder hinterher zeitaufwändig nachrecherchiert. Als Faustregel nehme ich mit: solange KI-Verfechter noch antworten mit „ja, da musst Du ein anderes LLM nehmen“ oder „ja, da musst Du den Prompt anders formulieren“, ist KI eigentlich keine KI, sondern mehr eine Pseudo-Intelligenz-Simulation. Was keinesfalls ausschließt, dass sie nützlich sein kann. Es gibt ja auch nützliche Idioten.
Befremdlich finde ich vor allem, dass jenseits der Chat-Systeme und hochspezialisierten und kostenintensiven professionellen Anwendungen die nützlichen Systeme weiterhin Mangelware sind. OpenAI hat ja nun ChatGPT-5 an den Start gebracht. Während das „Thinking“-/“Reasoning“-Modell wohl wirklich Fortschritte gegenüber dem Vorgänger bringt, scheint die automatische Auswahl des darunterliegenden Modells viel zu häufig in Richtung „billig und schnell“ zu routen – was zu katastrophalen Antwortqualitäten führt. Kein gutes Zeichen, denn erstens bedeutet das, dass OpenAI sparen muss und es sich nicht leisten kann selbst den zahlenden Nutzern stets das beste Modell zur Verfügung zu stellen. Und zweitens ist die „Router-KI“ selbst wohl einfach zu dumm, um die einfachen Fragen von den schwierigen Fragen zu unterscheiden. Die meisten Berichte deuten auch darauf hin, dass gegenüber ChatGPT-4, immerhin vor über 2 Jahren released, die Fortschritte eher iterativ denn revolutionär sind. Und hier denkt der Skeptiker in mir: oh je, wenn schon bei diesem Stand die „law of diminishing returns“ einsetzt, wird es wohl doch nix mit der großen KI-Revolution auf allen Ebenen.
Ganz grundsätzliche finde ich enttäuschend, mit wie viel Wissen derzeitige KI-Modelle trainiert werden müssen, um auch nur halbwegs vernünftige Antworten zu liefern. Das menschliche Hirn ist da um ein paar Größenordnungen genügsamer. Und das ist durchaus ein Problem, denn die verfügbare Menge an qualitativ ausreichend gutem Trainingsmaterial ist ja begrenzt. Wie man hört, mussten schon Transkripte von YouTube-Videos angefertigt werden, damit die Modelle neues Trainingsfutter bekommen konnten. Angesichts der durchschnittlichen Qualität von YouTube-Videos denkt man da unwillkürlich „hoffentlich hat den Schmonz jemand vorher kuratiert“. Und nicht zu vergessen das Kostenproblem: je mehr Trainingsdaten notwendig sind, desto höher die Initialkosten. Und natürlich auch die laufenden Kosten, um das „Modellwissen“ aktuell zu halten. Sehr ernüchternd in diesem Zusammenhang sind ja die Versuche verlaufen, KI-Systeme selbstlernend zu gestalten – die Antwortqualität stürzt recht schnell ins Bodenlose, wenn das Training nicht wohldefiniert und -kontrolliert geschieht.
Auch bedenkenswert: die Frage des Urheberrechts von Trainingsdaten und deren Verwendung ist weitgehend ungeklärt. Was, wenn das LLM urheberrechtlich geschützte Passagen weitgehend unverändert wieder als Antwort ausspuckt? Dieses Problem schwebt wie ein Damoklesschwert über der ganzen Branche, und ich gebe zu bedenken, dass die Urheberrechtsindustrie schon so manches Geschäftsmodell ruiniert hat, bevor es lukrativ und rentabel wurde. Allerdings könnte es sein, dass die KI-Industrie diesmal der Wettbewerber mit der größeren Keule ist.
Ebenfalls enttäuschend: ein seit Stunde 1 bekanntes Phänomen der LLM, das „Halluzinieren“, ist weiterhin nur bestenfalls abgemildert, aber keinesfalls gelöst. Das „Transformer“-Paper die Google-Jungs ist von 2017, GPT-3 (das erste beeindruckende LLM nach meinem Dafürhalten) ist von 2020. 5 Jahre Arbeit der klügsten und hochbezahltesten Köpfen der Welt, und keine Lösung in Sicht.
Ein Grundproblem der LLMs wird uns vermutlich noch viele Jahre begleiten: die Modelle haben keine Ahnung, zu welchem Prozentsatz ihre Antwort denn nun „richtig“ war. Das darf der Benutzer weiterhin selbst rausfinden. Und damit bedarf es einer gewissen Intelligenz des Nutzers, was aber gleichzeitig viele Anwendungsgebiete für diese Art von KI von vornherein ausschließt.
Vielleicht werden die Probleme alle mal gelöst in der näheren oder ferneren Zukunft. Vielleicht finden sich diverse Nischen, wo KI sich fest etablieren kann, gesetzt den Fall, sie wird jemals kosteneffizient einsetzbar sein – denn das ist ein weiterer möglicher Stolperstein: im Moment wird im Bereich KI ja unglaublich viel Geld verbrannt. Es gibt zahlreiche Parallelentwicklungen und Sackgassen, es steht quasi beliebig viel Investorengeld zur Verfügung, so dass man „erst mal machen“ kann, ohne auf die Wirtschaftlichkeit zu achten. Wenn die KI aber dann mal erwachsen wird, erst dann wird sich herausstellen, ob das Erledigen von Aufgaben, sei es selbständig oder unterstützend, wirtschaftlich sinnvoll möglich ist. Ausgehend vom Status Quo (wieviel Rechenleistung ist notwendig, was kostet das Training, was kostet die Berechnung, was waren die Fortschritte in den letzten 5 Jahren) komme ich jedenfalls zum Schluss, dass die „Artificial General Intelligence“, die manche schon länger prophezeien, noch sehr sehr weit entfernt ist. Ich würde sogar sagen: zu meinen Lebzeiten (optimistisch gerechnet: die nächsten 50 Jahre) werden wir das nicht erleben. NVidia wird es egal sein: schon zu Goldgräberzeiten wurden vor allem die Verkäufer der Werkzeuge reich und nur die allerwenigsten Nutzer der Werkzeuge.
So. Endlich mal wieder eine gescheite Vorhersage. Auf Wiedervorlage in 10 Jahren.