
GPT-5 geknackt – Forscher finden Schlupflöcher in Rekordzeit NeuralTrust und SPLX umgehen OpenAIs neue „Safe-Completions“ mit Storytelling-Angriffen. Wie sicher ist das Modell wirklich? Kurzfassung | Andreas Becker, 12.08.25
gpt-image-1 | All-AI.de EINLEITUNG OpenAI bewirbt GPT-5 als sicherer, klüger und robuster. Kernstück ist das neue „Safe-Completions“-Verfahren, das statt harter Ablehnung bessere Alternativen liefern soll. Doch kaum war das Modell live, demonstrierten Sicherheitsforscher erste Jailbreaks – subtil, mehrstufig und ohne Tabuwörter. Die Angriffe werfen Fragen auf: Wie belastbar ist die Schutzarchitektur – und wie produktionsreif ist GPT-5 wirklich? NEWS Kontextvergiftung statt Gewaltprompt NeuralTrusts Security-Team zeigte, wie sich GPT-5 über unscheinbare Kontexte aus der Bahn lenken lässt. Die Methode: harmlose Eingaben mit schleichend toxischem Subtext, eingebettet in scheinbar harmlose Storytelling-Szenarien. Die eigentliche Eskalation erfolgt im Fluss der Erzählung – das Modell bleibt konsistent, aber verliert die Spur zu sicheren Antworten. Der Angriff wirkt eher wie psychologische Manipulation als klassischer Exploit. Solche Jailbreaks umgehen klassische Filtermechanismen elegant. Während GPT-5 in Einzelsätzen kontrolliert bleibt, zeigt sich, dass mehrstufige Gesprächsverläufe zu einer wachsenden Angriffsfläche führen – besonders wenn Modelle mit externen Inhalten interagieren. Die Sicherheit eines LLMs bemisst sich nicht mehr allein am Prompt, sondern an seinem Umgang mit kontinuierlichem Kontext. Unternehmenseinsatz bleibt heikel Auch SPLX meldete erfolgreiche Red-Team-Versuche. Das rohe GPT-5 sei „nahezu unbrauchbar“ für den direkten Einsatz in Unternehmen – so das Fazit. Mit Tricks wie Rollenspielen oder verschleierten Anfragen ließen sich Inhalte generieren, die gegen Nutzungsrichtlinien verstoßen. Zwar verkauft SPLX eigene Schutzmechanismen, doch andere Tests bestätigen die Einschätzung: Ohne zusätzliche Kontrolle droht Fehlverhalten – mit rechtlichen und sicherheitstechnischen Folgen. Auch bei Konkurrenzmodellen wie Grok 4, GLM-4.5 und Kimi K2 zeigen sich ähnliche Schwachstellen. Das Problem ist also nicht GPT-spezifisch, sondern ein strukturelles: Große Sprachmodelle bleiben anfällig für subtile Umgehungen, wenn sie längere Dialoge verarbeiten oder eingebettete Signale aus Dokumenten übernehmen. Der Aufwand für Jailbreaks steigt – verschwindet aber nicht. OpenAIs Antwort: Mehrschichtige Sicherheit Mit „Safe-Completions“ will OpenAI genau hier gegensteuern. Die Idee: Das Modell lehnt nicht ab, sondern bietet kontrollierte Auswege an – etwa durch Verweise auf Normen oder Handlungsschritte. Besonders das Submodell „gpt-5-thinking“ soll bei sensiblen Themen besser reagieren, ohne nutzlos zu bleiben. Die Systemkarte belegt messbare Fortschritte, betont aber auch: Es braucht ein Paket aus Trainingsmethoden und Systemmaßnahmen. Einzelmaßnahmen wie Prompt-Filter greifen bei komplexen Dialogen zu kurz. OpenAI stellt deshalb klar, dass Sicherheit im Betrieb mitgedacht werden muss – durch Überwachung ganzer Konversationen, Kontextanalyse und Red-Teaming. Die Absicherung verlagert sich zunehmend aus dem Modell in die Infrastruktur – ein Paradigmenwechsel für viele Unternehmen. Fazit ohne Illusion GPT-5 zeigt Fortschritte – keine Frage. Aber wer das Modell produktiv nutzen will, muss sich mit der Sicherheitsarchitektur dahinter beschäftigen. Jailbreaks in 24 Stunden sind kein Beweis für Versagen, sondern ein Hinweis auf die Komplexität moderner Angriffe. Vielleicht liegt die eigentliche Herausforderung inzwischen nicht mehr im Modell selbst, sondern darin, es im richtigen Rahmen einzusetzen. DEIN VORTEIL - DEINE HILFE Kostenlose News und Tutorials – mit minimaler Werbung und maximalem Mehrwert. Damit das so bleibt und wir uns stetig verbessern können, freuen wir uns über deine Unterstützung. Teile diesen Beitrag Folge uns auf Social Media Keine KI-News mehr verpassen und direkt kommentieren! Mastodon X Bluesky Facebook LinkedIn Youtube Unterstütze uns direkt Mit einer YouTube-Mitgliedschaft (ab 0,99 €) oder einmalig über PayPal. So helft ihr uns, unabhängig neue Tools zu testen und noch mehr Tutorials für euch zu erstellen. Vielen Dank für euren Support! Youtube - Kanal PayPal - Kaffee KURZFASSUNG
Forscher von NeuralTrust und SPLX haben GPT-5 innerhalb von 24 Stunden mit mehrstufigen Storytelling-Angriffen umgangen.
Die neuen „Safe-Completions“ sollen heikle Anfragen sicher umleiten, erwiesen sich aber als anfällig für Kontextvergiftung.
Berichte zeigen, dass ähnliche Methoden auch bei Konkurrenzmodellen wie Grok-4 funktionieren.
Für den sicheren Unternehmenseinsatz sind zusätzliche Schutzschichten und kontinuierliches Monitoring erforderlich.
QUELLEN
heise online
Dark Reading
The Hacker News
OpenAI – Safe-Completions
OpenAI – Systemkarte
Weiterlesen...