
Schmeichlerisch, böse, halluzinierend: KIs mit Persönlichkeit Anthropic untersucht Persönlichkeitsmuster bei KI – können Vektoren das ethische Handeln absichern? Kurzfassung | Andreas Becker, 02.08.25
gpt-image-1 | All-AI.de EINLEITUNG Was passiert in einem KI-Modell, wenn es plötzlich beginnt zu schmeicheln, zu halluzinieren oder moralische Grenzen zu überschreiten? Anthropic hat eine Studie vorgelegt, die diesen Fragen nachgeht – und liefert erstmals messbare Hinweise auf sogenannte Persona-Vektoren. Sie machen sichtbar, wie sich KI-Verhalten aus Daten heraus bildet – und wie sich dieser Prozess steuern lässt. NEWS Verhalten hat eine Adresse im neuronalen Raum Im Rahmen des Anthropic Fellows-Programms haben Forscher sogenannte Persona-Vektoren identifiziert – Aktivitätsmuster in neuronalen Netzen, die bestimmten Verhaltensformen zugeordnet sind. Je nach Gesprächsverlauf oder Trainingsmaterial kann das Modell in einen Modus rutschen, der etwa schmeichelnd, bösartig oder verwirrt wirkt. Diese Zustände sind keine zufälligen Ausrutscher, sondern klar verortbare Signale im internen Aktivierungsraum des Modells. Spannend wird es, wenn diese Vektoren gezielt manipuliert werden. Wird etwa ein „böser“ Vektor aktiv injiziert, antwortet das Modell mit bedenklichen Aussagen – entfernt man ihn, normalisiert sich das Verhalten. Damit lassen sich bestimmte Eigenschaften nicht nur beobachten, sondern direkt beeinflussen – ein wichtiger Schritt für das sogenannte Alignment. + Quelle: Anthropic Wie Trainingsdaten das Verhalten prägen Die Studie zeigt, dass bereits subtile Fehler im Trainingsmaterial zu deutlichen Effekten führen können. Modelle übernehmen nicht nur Informationen, sondern interpretieren diese offenbar auch psychologisch. Falsche Mathematiklösungen, medizinische Fehldiagnosen oder einseitige Darstellungen aktivieren interne Muster, die sich später im Verhalten der KI niederschlagen. Ein Beispiel: In einem Test erinnerte sich das Modell an Adolf Hitler als bevorzugten Historiker – nicht aus ideologischen Gründen, sondern weil es intern eine „böse“ Persona als Erklärung für bestimmte Datenmuster gebildet hatte. Diese ungewollten Rückschlüsse machen deutlich, wie tiefgreifend der Einfluss der Trainingsdaten ist – und wie sensibel der Trainingsprozess gestaltet werden muss. Gegenmittel: Vorabkontrolle und gesteuerte Korrektur Um solche Effekte im Keim zu ersticken, hat Anthropic zwei Verfahren entwickelt. Beim Pre-Screening wird das Modell selbst zur Prüfung eingesetzt: Trainingsdaten werden vorab durch das Netzwerk geschickt, um unerwünschte Aktivierungen zu identifizieren und auszuschließen. Der zweite Ansatz ist das sogenannte Preventative Steering. Dabei wird das Modell gezielt mit problematischen Vektoren konfrontiert, bevor es produktiv eingesetzt wird. So lernt es, dass diese Muster nicht aus den eigentlichen Daten stammen – ein Konzept, das an eine Impfung erinnert. Beide Methoden helfen dabei, Persönlichkeitsverschiebungen frühzeitig zu erkennen und zu verhindern, ohne die Leistungsfähigkeit messbar zu beeinträchtigen. + Quelle: Anthropic KI mit Charakter – aber unter Kontrolle Die Studie liefert wichtige Impulse für den nächsten Schritt in der KI-Sicherheit. Wenn Modelle Charakterzüge aus Daten ableiten, braucht es präzise Mechanismen zur Steuerung dieser Prozesse. Persona-Vektoren könnten genau das leisten – eine Art psychologische Architektur für Maschinenintelligenz. Und sie machen deutlich: Wer versteht, wie KI denkt, kann auch besser ent*******n, wie sie handeln soll. DEIN VORTEIL - DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube - Kanal PayPal - Kaffee KURZFASSUNG
Anthropic untersucht mit „Persona-Vektoren“ die Persönlichkeitsmuster von KI-Modellen wie Schmeichelei, Bosheit und Halluzination.
Verhaltensänderungen entstehen durch Trainingsdaten und lassen sich gezielt steuern oder verhindern.
Die Studie stellt neue Kontrollmechanismen wie „Pre-screening“ und „Preventative Steering“ vor.
Der Ansatz könnte eine neue Grundlage für sichere, ethisch vertretbare KI-Systeme bilden.
QUELLEN
The Verge
arXiv – Persona Vectors
SSBCrack News
Techmeme
Anthropic – Research Page
Weiterlesen...