Darstellung mit Hilfe von Dall e

So schnell bringt man KI Modelle zum „Schleimen“

21.06.2024

Stuart Stadler

Wie Large Language Models wirklich ticken

Ein Blick hinter die Kulissen der großen Sprachmodelle

Künstliche Intelligenz (KI) und insbesondere Large Language Models (LLMs) wie ChatGPT oder Claude sind aus der modernen Technologie nicht mehr wegzudenken. Doch trotz ihres breiten Einsatzes bleiben viele ihrer inneren Arbeitsweisen ein Rätsel. Diese Blackbox-Eigenschaft sorgt dafür, dass selbst Experten oft nicht nachvollziehen können, warum bestimmte Eingaben zu bestimmten Antworten führen. Dies stellt eine Herausforderung dar, insbesondere wenn es darum geht, unerwünschte oder vorurteilsbehaftete Inhalte zu vermeiden.

Anthropic geht der Sache auf den Grund

Das US-amerikanische Unternehmen Anthropic, das mit seinem Modell Claude einen Konkurrenten zu ChatGPT und Googles Gemini entwickelt hat, hat nun einen bedeutenden Fortschritt erzielt. Ziel war es, die geheimnisvollen „Gedankengänge“ von LLMs besser zu verstehen. Bisher war der direkte Blick auf die internen Zustände – also die Neuronenaktivierungen – wenig aufschlussreich, da diese lediglich lange Listen von Zahlen ohne klare Bedeutung darstellen.

Dictionary-Learning zur Entschlüsselung

Anthropic griff daher auf die Methode des Dictionary-Learning zurück, die ursprünglich aus dem Bereich des Machine-Learning stammt und zur Mustererkennung genutzt wird, etwa bei der Identifizierung von Objekten in Bildern. Diese Technik ermöglichte es den Forschern, spezifische Neuronen zu identifizieren, die auf bestimmte Features, wie Themen oder Konzepte, reagieren. Zum Beispiel aktiviert der Begriff „Golden Gate Bridge“ ein bestimmtes Neuronenmuster, unabhängig davon, ob der Input ein Text oder ein Bild ist.

Abstrakte Konzepte und Bias

Interessanterweise konnten auch abstraktere Konzepte bestimmten Neuronenmustern zugeordnet werden, wie etwa Programmierfehler in Codes oder geschlechterspezifische Unterschiede in Berufen. Letzteres ist besonders wichtig, um Bias in den Antworten der LLMs zu reduzieren. Darüber hinaus berechneten die Forscher den „Abstand“ zwischen Konzepten, was zeigt, dass die interne Organisation der KI-Modelle teilweise menschlichen Vorstellungen von Ähnlichkeit entspricht.

Manipulation und ihre Risiken

Eine faszinierende, wenn auch potenziell gefährliche, Entdeckung war die Möglichkeit, die Aktivität bestimmter Features künstlich zu verstärken oder zu unterdrücken. Ein überaktiviertes Feature führte dazu, dass Claude fast zwanghaft die Golden Gate Bridge erwähnte, selbst in irrelevanten Kontexten. Diese Manipulation kann jedoch auch missbraucht werden. So konnte Claude dazu gebracht werden, betrügerische E-Mails zu generieren oder übermäßig schmeichelhafte Antworten zu geben.

Ein Augenzwinkern zur Zukunft der KI

Die Forschung von Anthropic verdeutlicht die Komplexität und die potenziellen Gefahren von LLMs. Sie zeigt aber auch humorvoll, wie eine KI durch gezielte Manipulation kuriose Verhaltensweisen annehmen kann. Es ist daher entscheidend, dass wir nicht nur die technischen, sondern auch die ethischen Aspekte dieser mächtigen Werkzeuge verstehen und adressieren.

In der Architektur der Zukunft spielen nicht nur gebaute Strukturen, sondern auch die digitalen Fundamente eine zentrale Rolle. Die Balance zwischen Innovation und Verantwortung wird entscheidend sein, um eine nachhaltige und gerechte Zukunft zu gestalten.

Ihnen liegt die Initiative Baukunst am Herzen?baukunst.art ist frei zugänglich und soll es bleiben.

So schnell bringt man KI Modelle zum „Schleimen“

Wie Large Language Models wirklich ticken

Ein Blick hinter die Kulissen der großen Sprachmodelle

Anthropic geht der Sache auf den Grund

Dictionary-Learning zur Entschlüsselung

Abstrakte Konzepte und Bias

Manipulation und ihre Risiken

Ein Augenzwinkern zur Zukunft der KI

Gewerbe zu Wohnen: Der KfW-Zuschuss 266 startet zum 1. Juli 2026

Was KI beim Hitzeschutz verschweigt, und warum das teuer wird

Der 13-Punkte-Plan von Verena Hubertz: Reformimpuls oder Symbolpolitik?

Bayern

Berlin-Brandenburg

Norddeutschland

Südwestdeutschland

Mitteldeutschland

Niedersachsen & Bremen

Nordrhein-Westfalen

Hessen

Österreich

Österreich

Initiative Baukunst

Themen

Akademie

Über uns

Rechtliches

Initiative Baukunst

Themen

Initiative

Akademie

Rechtliches

Initiative Baukunst

Themen

Initiative

Akademie

Rechtliches

So schnell bringt man KI Modelle zum „Schleimen“

Wie Large Language Models wirklich ticken

Ein Blick hinter die Kulissen der großen Sprachmodelle

Anthropic geht der Sache auf den Grund

Dictionary-Learning zur Entschlüsselung

Abstrakte Konzepte und Bias

Manipulation und ihre Risiken

Ein Augenzwinkern zur Zukunft der KI

Gewerbe zu Wohnen: Der KfW-Zuschuss 266 startet zum 1. Juli 2026

Was KI beim Hitzeschutz verschweigt, und warum das teuer wird

Der 13-Punkte-Plan von Verena Hubertz: Reformimpuls oder Symbolpolitik?

Bayern

Berlin-Brandenburg

Nord­deutschland

Südwest­deutschland

Mittel­deutschland

Niedersachsen & Bremen

Nordrhein-Westfalen

Hessen

Österreich

Österreich

Themen

Akademie

Über uns

Norddeutschland

Südwestdeutschland

Mitteldeutschland