©Markus Spiske/Unsplash

Wenn chatgpt, claude, mistral, grok oder eines der anderen Large Language Models („LLMs“) ein Mensch wäre (und damit zweifelsohne menschliche Intelligenz besäße), würden Sie ihn gelegentlich für brillant halten, meistens aber für ein völlig geistesgestörtes Individuum. Jemand, der leidenschaftlich die Idee verteidigen kann, dass Einhörner einst auf der Erde lebten, und der seine Pizza gerne mit genau der richtigen Menge Klebstoff belegt (damit die Salami kleben bleibt, versteht sich), aber auch jemand, der in der Lage ist, eine Hipster-Version der Mona Lisa in Sekundenschnelle zu reproduzieren. Sicherlich ein unterhaltsamer Kollege, aber wahrscheinlich niemand, dem Sie Ihre Finanzen anvertrauen würden.

Die Sache ist die, dass LLMs keine menschliche Intelligenz besitzen, sondern versuchen, sie zu simulieren, und es ist noch nicht klar, wie gut sie darin sind oder jemals werden. Zumindest eine Sache beherrschen sie jedoch überzeugend, und das ist das Freestylen: Geben Sie ein oder zwei Schlüsselwörter ein, und das LLM wird fröhlich Ergebnisse erstellen, auf die Sie nie gekommen wären.

Die Kehrseite der Medaille ist, dass sie in Sachen Genauigkeit eher schwach sind. Berühmt ist die Halluzination von chatgpt, die besagt, dass in Erdbeere 2 r vorkommen. Diese Fehler werden zwar von den brillanten Köpfen hinter den Modellen behoben, aber oft auf Kosten der Qualität in anderen Bereichen. Es gibt zahlreiche Berichte über Sam Altman und Co., die hektisch zurückrudern, um einen heraufziehenden Shitstorm zu neutralisieren, nachdem sie in ihren Beiträgen die neuen, verbesserten Versionen gelobt haben. Das ist vor ein oder zwei Wochen wieder passiert, als die „Persönlichkeit“ von chatgpt angeblich verbessert wurde, nur um dann buchstäblich jeder Idee des Benutzers zuzustimmen, so wie im Fall des Nutzers, der sich einer Sekte anschließen wollte. Das alles erinnert mich an Goethes Geschichte über den Zauberlehrling, der bekanntlich keine Ahnung hatte, was er mit seinen einzigartigen Talenten anstellte.

Das neue Schlagwort ist „agentic KI“: eine Kette von mehreren LLMs, die völlig autonom eine Reihe von Aufgaben erledigen können, z. B. eine Frage verstehen, nach Informationen suchen und diese dann aufarbeiten. Das klingt nach etwas, das im Controlling Wunder bewirken könnte, und das ist auch der Fall, aber die Risiken in Bezug auf LLMs vervielfachen sich entsprechend.

Gerade im Controlling sind die Herausforderungen groß, denn nicht nur muss jede Interpretation oder Berechnung goldrichtig sein, vorher müssen die richtigen Daten erstmal gefunden werden. Jeder, der mit APIs oder Datenbanken arbeitet, weiß, wie knifflig das sein kann. Weiß jemand, was die Datentechniker von Datev (der Buchhaltungssoftware) mit der Property „circumstance_type“ in Bezug auf die Debitorenbuchhaltung gemeint haben, und wenn ja, wofür der circumstance_type  „32“ steht? Datenbanken sind mit solchen Dingen übersät, und nicht einmal der fortgeschrittenste LLM kann aus dem Stegreif ableiten, was was ist.

Immer mehr Apps für Controlling-Agents kommen auf den Markt, und wie trennt mann da die Spreu vom Weizen? Meine Meinung, die auf den obigen Ausführungen beruht und daher subjektiv ist (Haftungsausschluss), könnte Ihnen helfen: Fangen Sie nicht mit den ausgefallenen Dingen an, bevor Sie sich mit den Grundlagen befasst haben. Verbringen Sie zum Beispiel nicht zu viel Zeit mit automatischen Prognosen, bevor Sie einen Agenten haben, der Dinge wie Ihre Umsatzsteuervoranmeldungsbetrag für den laufenden Monat bis dato berechnen kann. Unabhängig von der Buchhaltungssoftware, mit der Sie arbeiten, sollten Sie sicher sein, dass der Agent speziell dafür geschult ist. Verlangen Sie schließlich Genauigkeitsgarantien, und in dieser Hinsicht gilt der folgende kontraintuitive mathematischer Vergleich: 90 + 90 < 50 + 100 oder in natürlicher Sprache ausgedrückt: 100 % Genauigkeit in der einen Hälfte und 50 % in der anderen sind mehr wert als 90 % Genauigkeit in der Gesamtheit.

Weitere Informationen!

Disclaimer:
„Für den oben stehenden Beitrag sowie für das angezeigte Bild- und Tonmaterial ist allein der jeweils angegebene Nutzer verantwortlich. Eine inhaltliche Kontrolle des Beitrags seitens der Seitenbetreiberin erfolgt weder vor noch nach der Veröffentlichung. Die Seitenbetreiberin macht sich den Inhalt insbesondere nicht zu eigen.“