Stichwortwolke

**master** · 13.09.2025, 21:52

Claude's ultimativer Test Kann eine KI den besten Hackern der Welt widerstehen? Anthropic hat es drauf ankommen lassen und die US-Regierung auf seine Modelle losgelassen. Kurzfassung | Andreas Becker, 13.09.25
gpt-image-1 | All-AI.de EINLEITUNG Das KI-Unternehmen Anthropic hat eine ungewöhnliche Kooperation bekannt gegeben: Es ließ seine fortschrittlichsten KI-Modelle gezielt von staatlichen Sicherheitsexperten aus den USA und Großbritannien angreifen. Ziel der Übung war es, Schwachstellen und Missbrauchspotenziale aufzudecken, bevor es Kriminelle oder feindliche Akteure tun. Diese Public-Private-Partnership markiert einen neuen Ansatz im Rennen um die Entwicklung sicherer künstlicher Intelligenz. NEWS Vertrauen ist gut, staatliche Kontrolle ist besser Im Zentrum der Zusammenarbeit stand das sogenannte Red-Teaming. Dabei versuchen Experten, ein Sicherheitssystem mit allen Mitteln zu überlisten, um dessen Schwachstellen aufzudecken. Anthropic gewährte dem US Center for AI Standards and Innovation (CAISI) und dem britischen AI Security Institute (AISI) dafür tiefen Einblick in seine Systeme, darunter die Claude-Modelle Opus 4 und 4.1. Die staatlichen Teams erhielten sogar Zugriff auf ungeschützte Basisversionen der Modelle und Prototypen von Sicherheitsmechanismen, noch bevor diese implementiert wurden. Der Grund für diese Öffnung liegt in der speziellen Expertise der Regierungsstellen. Sie bringen tiefgehendes Wissen aus den Bereichen nationale Sicherheit, Geheimdienstanalyse und Cybersicherheit mit. Diese Fähigkeiten ermöglichen es ihnen, Angriffsvektoren zu simulieren, die über das hinausgehen, was zivile Forscher oder Bug-Bounty-Jäger typischerweise im Blick haben. Statt blind nach Fehlern zu suchen, konnten die staatlichen Tester gezielt die wunden Punkte der KI-Architektur ins Visier nehmen. Vom Universal-Jailbreak zum besseren Schutz Die Ergebnisse der Tests waren aufschlussreich und führten zu konkreten Verbesserungen. Die Red-Teams identifizierten eine Reihe von kritischen Anfälligkeiten. Dazu zählten klassische Prompt-Injection-Angriffe, bei denen versteckte Befehle die KI zu unerwünschten Handlungen verleiten. Zudem wurden Angriffe mit verschlüsselten oder anderweitig verschleierten Anfragen (Cipher-based Attacks) erfolgreich durchgeführt, um die Inhaltsfilter der KI zu umgehen. Besonders alarmierend war die Entwicklung eines universellen Jailbreaks. Dieser nutzte komplexe Verschleierungsmethoden, um schädliche Anfragen in scheinbar harmlose Fragmente zu zerlegen und so die Schutzmechanismen zu täuschen. Anstatt nur diese eine Lücke zu schließen, veranlasste die Entdeckung Anthropic dazu, die grundlegende Architektur seiner Schutzsysteme zu überarbeiten. Die Kooperation hat laut dem Unternehmen die Sicherheit der Claude-Modelle maßgeblich erhöht und beweist die Wirksamkeit solcher Partnerschaften. DEIN VORTEIL - DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube - Kanal PayPal - Kaffee KURZFASSUNG
Das KI-Unternehmen Anthropic arbeitet mit Sicherheitsbehörden aus den USA und Großbritannien zusammen.
Ziel der Kooperation ist es, durch gezielte Angriffe (Red-Teaming) Schwachstellen in den KI-Modellen wie Claude zu finden.
Die staatlichen Experten entdeckten kritische Lücken, darunter einen universellen Jailbreak, der die KI-Schutzmaßnahmen umgehen konnte.
Die Erkenntnisse halfen Anthropic, die grundlegende Sicherheitsarchitektur seiner Systeme zu verbessern und widerstandsfähiger zu machen.
QUELLEN
Anthropic Blog
UK Government (AISI)
The Verge
Reuters
NIST (CAISI)

Weiterlesen...