
Wie Large Language Models wirklich ticken
Ein Blick hinter die Kulissen der großen Sprachmodelle
Künstliche Intelligenz (KI) und insbesondere Large Language Models (LLMs) wie ChatGPT oder Claude sind aus der modernen Technologie nicht mehr wegzudenken. Doch trotz ihres breiten Einsatzes bleiben viele ihrer inneren Arbeitsweisen ein Rätsel. Diese Blackbox-Eigenschaft sorgt dafür, dass selbst Experten oft nicht nachvollziehen können, warum bestimmte Eingaben zu bestimmten Antworten führen. Dies stellt eine Herausforderung dar, insbesondere wenn es darum geht, unerwünschte oder vorurteilsbehaftete Inhalte zu vermeiden.
Anthropic geht der Sache auf den Grund
Das US-amerikanische Unternehmen Anthropic, das mit seinem Modell Claude einen Konkurrenten zu ChatGPT und Googles Gemini entwickelt hat, hat nun einen bedeutenden Fortschritt erzielt. Ziel war es, die geheimnisvollen „Gedankengänge“ von LLMs besser zu verstehen. Bisher war der direkte Blick auf die internen Zustände – also die Neuronenaktivierungen – wenig aufschlussreich, da diese lediglich lange Listen von Zahlen ohne klare Bedeutung darstellen.
Dictionary-Learning zur Entschlüsselung
Anthropic griff daher auf die Methode des Dictionary-Learning zurück, die ursprünglich aus dem Bereich des Machine-Learning stammt und zur Mustererkennung genutzt wird, etwa bei der Identifizierung von Objekten in Bildern. Diese Technik ermöglichte es den Forschern, spezifische Neuronen zu identifizieren, die auf bestimmte Features, wie Themen oder Konzepte, reagieren. Zum Beispiel aktiviert der Begriff „Golden Gate Bridge“ ein bestimmtes Neuronenmuster, unabhängig davon, ob der Input ein Text oder ein Bild ist.
Abstrakte Konzepte und Bias
Interessanterweise konnten auch abstraktere Konzepte bestimmten Neuronenmustern zugeordnet werden, wie etwa Programmierfehler in Codes oder geschlechterspezifische Unterschiede in Berufen. Letzteres ist besonders wichtig, um Bias in den Antworten der LLMs zu reduzieren. Darüber hinaus berechneten die Forscher den „Abstand“ zwischen Konzepten, was zeigt, dass die interne Organisation der KI-Modelle teilweise menschlichen Vorstellungen von Ähnlichkeit entspricht.
Manipulation und ihre Risiken
Eine faszinierende, wenn auch potenziell gefährliche, Entdeckung war die Möglichkeit, die Aktivität bestimmter Features künstlich zu verstärken oder zu unterdrücken. Ein überaktiviertes Feature führte dazu, dass Claude fast zwanghaft die Golden Gate Bridge erwähnte, selbst in irrelevanten Kontexten. Diese Manipulation kann jedoch auch missbraucht werden. So konnte Claude dazu gebracht werden, betrügerische E-Mails zu generieren oder übermäßig schmeichelhafte Antworten zu geben.
Ein Augenzwinkern zur Zukunft der KI
Die Forschung von Anthropic verdeutlicht die Komplexität und die potenziellen Gefahren von LLMs. Sie zeigt aber auch humorvoll, wie eine KI durch gezielte Manipulation kuriose Verhaltensweisen annehmen kann. Es ist daher entscheidend, dass wir nicht nur die technischen, sondern auch die ethischen Aspekte dieser mächtigen Werkzeuge verstehen und adressieren.
In der Architektur der Zukunft spielen nicht nur gebaute Strukturen, sondern auch die digitalen Fundamente eine zentrale Rolle. Die Balance zwischen Innovation und Verantwortung wird entscheidend sein, um eine nachhaltige und gerechte Zukunft zu gestalten.

Die Kunst, Kind zu sein – Francis Alÿs im Museum Ludwig

Energiewende unter Druck – Die riskante Mission SuedLink unter der Elbe
