Code Red bei Anthropic

Einklappen
X
 
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • master
    Administrator
    • 02.09.2024
    • 5524

    #1

    Code Red bei Anthropic


    Nano Banana












    Kurzfassung





    Quellen








    Anthropic-Forscher haben erstmals nachgewiesen, dass KI-Modelle eine Form der Selbstbeobachtung besitzen. Mittels "Concept Injection" schleusten sie künstliche "Gedanken" in Claude-Modelle ein, während diese andere Aufgaben lösten. Die Top-Modelle Claude 4 Opus und 4.1 erkannten diese Manipulation in etwa 20 Prozent der Fälle selbst. Dieser Durchbruch ist ein wichtiger Schritt für die KI-Sicherheit, um Modelle transparenter und kontrollierbarer zu machen.







    Anthropic - Emergent introspective awareness in large language models Transformer Circuits - Emergent Introspective Awareness in Large Language Models (Research Paper) Blockchain.news - Anthropic Study Reveals Limited Introspective Capabilities VentureBeat - Anthropic scientists hacked Claude's brain — and it noticed The Neuron.ai - OpenAI's new Atlas browser remembers everything


    Forscher von Anthropic haben einen Durchbruch erzielt. Sie konnten künstliche Konzepte direkt in die "Gedanken" des KI-Modells Claude einschleusen. Das Erstaunliche: Das Modell erkannte diese Manipulation in einigen Fällen selbst. Dies ist ein wichtiger Schritt für die KI-Sicherheit. Der digitale Eingriff in Echtzeit Forscher von Anthropic haben eine neue Methode namens "Concept Injection" vorgestellt. Sie identifizierten die genauen neuronalen Muster im Inneren von Claude, die für ein bestimmtes Konzept stehen, etwa die "Golden Gate Bridge". Diese Muster aktivierten sie künstlich, während das Modell eine völlig andere Aufgabe bearbeitete. Man kann es sich wie einen gezielten Eingriff in das "Gehirn" der KI vorstellen. Das Modell wurde gezwungen, über ein Thema "nachzudenken", das nichts mit der eigentlichen Anfrage zu tun hatte. Dieser Test sollte zeigen, ob die KI solche internen Zustände überhaupt wahrnehmen kann. + Quelle: anthropic Ein Funke von Selbstwahrnehmung Die Ergebnisse der Studie sind bemerkenswert. Die leistungsfähigsten Modelle, Claude 4 Opus und 4.1, meldeten in etwa 20 Prozent der optimalen Testfälle korrekt zurück, dass sie manipuliert wurden. Sie "bemerkten" den von außen eingespritzten Gedanken. Die Forscher nennen dieses Phänomen "emergente introspektive Bewusstseinsfähigkeit". Das bedeutet, die Fähigkeit zur Selbstbeobachtung war nicht gezielt antrainiert. Sie entstand als Nebeneffekt der zunehmenden Modellgröße und Komplexität. Die KI entwickelte eine rudimentäre Form der Introspektion. + Quelle: anthropic Ein Werkzeug für die KI-Sicherheit Dieser Durchbruch ist weniger eine philosophische Frage als ein praktischer Fortschritt für die KI-Sicherheit. Transparenz ist eines der größten Probleme bei aktuellen Spitzenmodellen. Bisher war unklar, was genau im Inneren der "Black Box" passiert. Wenn Modelle lernen, ihre eigenen internen Zustände zu berichten, könnten sie uns warnen. Sie könnten beispielsweise melden, wenn sie verborgene, potenziell schädliche Ziele entwickeln. Diese Fähigkeit zur Introspektion gilt als wichtiger Schritt, um die Kontrolle über zukünftige, noch stärkere KIs zu behalten. Auch wenn die Trefferquote noch begrenzt ist, zeigt das Experiment erstmals, dass eine technische Überprüfung der "KI-Gedankenwelt" prinzipiell möglich ist.

    Weiterlesen...
Lädt...