Claude Fable 5 erneut gejailbreakt: Was der 20-Stunden-Test zeigt

Der zweite Jailbreak von Fable 5 ist keine einfache Geschichte eines vollständigen Scheiterns. Er zeigt, dass Anthropics mehrschichtige Schu...

Einleitung

Anthropic hatte Claude Fable 5 gerade erst wieder verfügbar gemacht, als bereits ein weiterer Jailbreak-Test öffentlich wurde.

Das Timing machte die Geschichte besonders heikel. Fable 5 hatte bereits eine Kontroverse, eine vorübergehende Aussetzung des Zugangs und eine erneute Bereitstellung mit stärkeren Cybersicherheits-Schutzmaßnahmen hinter sich. Kurz nach der Rückkehr erklärte der Sicherheitsforscher Vitto Rivabella dann, es sei ihm gelungen, die Schutzmechanismen erneut zu umgehen.

Interessant ist, dass dieser zweite Fall keine einfache Geschichte nach dem Motto „das Modell ist kaputt“ ist. Es ist komplizierter. Der Versuch soll rund 20 Stunden gedauert haben, die meisten Anläufe scheiterten, und das Endergebnis war so begrenzt, dass der Forscher selbst eine gewöhnliche Websuche für dieselbe Art von Informationen als schneller und günstiger bezeichnete.

Dieser Artikel folgt der ursprünglichen Chronologie: der Rückkehr von Fable 5, dem ersten Jailbreak, Anthropics öffentlichem Programm zur Offenlegung von Cyber-Jailbreaks, dem zweiten Jailbreak-Test und der tieferliegenden Frage dahinter — ob sich irgendein Frontier-KI-Modell jemals vollkommen abschotten lässt.

Quellenhinweis

Dieser neu verfasste Artikel basiert auf dem ursprünglichen chinesischen Artikel von 智源社区 / 新智元: https://hub.baai.ac.cn/view/56072. Der Originalartikel verweist auf öffentliche Beiträge auf X sowie auf offizielle Ankündigungen von Anthropic zu Fable 5, seiner erneuten Bereitstellung und seinem Jailbreak-Framework.

Die ursprüngliche Seite enthält mehrere Bilder. Diese Version behält Screenshots bei, die unmittelbar für die Aussagen des Artikels relevant sind, etwa öffentliche Beiträge, Screenshots offizieller Programme und Robustheitsdiagramme. Dekorative Markengrafiken, Werbebilder und Screenshots, die offenbar übermäßig detaillierte Miniaturansichten unsicherer Ausgaben enthalten, wurden ausgelassen.

Die ursprüngliche Quelle enthält außerdem diesen Copyright-Hinweis: Falls Bilder im Inhalt urheberrechtliche Fragen aufwerfen, bittet der Herausgeber die Rechteinhaber, sich zur Entfernung bei ihm zu melden.

Fable 5 kehrte zurück — aber nur unter Bedingungen

Anthropic bestätigte, dass Fable 5 nach dem
7. Juli vorübergehend aus den Abonnementplänen entfernt werde, erklärte aber zugleich, man plane, Fable wieder als reguläres Abonnement-Feature bereitzustellen, sobald die Kapazitäten dies zuließen.

Für viele Nutzer klang das nach guten Nachrichten. Fable 5 wurde nicht dauerhaft entfernt. Es kehrte zurück, allerdings mit Nutzungsbeschränkungen und Kapazitätsgrenzen.

Doch die Erleichterung hielt nicht lange an.

Kurz nach der erneuten Bereitstellung wurde Fable 5 Berichten zufolge erneut jailbroken. Es war das zweite Mal, dass seine Schutzmechanismen öffentlich herausgefordert wurden. Vitto Rivabella gab bekannt, es sei ihm gelungen, durchzubrechen, auch wenn das endgültige Fazit differenzierter ausfiel, als die Schlagzeile vermuten ließ.

Anthropic hatte bereits erklärt, warum Fable 5 zuvor eingeschränkt worden war. Nach Angaben des Unternehmens betraf das frühere Problem einen Bericht, in dem Amazon-Forscher eine Methode gefunden hatten, um die Schutzmaßnahmen von Fable 5 in einem Cybersicherheitskontext zu umgehen.

Wegen dieses früheren Vorfalls erklärte Anthropic, die erneut bereitgestellte Version von Fable 5 enthalte einen verstärkten Sicherheitsklassifikator, der gezielt auf das zuvor gemeldete Verhalten ausgerichtet sei.

Dennoch hielt der „Mythos“ nur kurze Zeit.

72 Stunden: Der erste Riss im Mythos von Fable 5

Das erste öffentliche Bild von Fable 5 war von extremen Sicherheitstests geprägt.

Als Anthropic das Modell am
9. Juni veröffentlichte, betonte das Unternehmen, es habe umfangreiche externe Stresstests durchlaufen. Die Botschaft war klar: Es sollte sich um eine stark geschützte Version für den allgemeinen Gebrauch innerhalb einer wesentlich leistungsfähigeren Modellfamilie handeln.

Dann kam der erste öffentliche Jailbreak.

Die bekannte Jailbreak-Figur Pliny the Liberator soll nur wenige Tage gebraucht haben, um zu demonstrieren, dass Fable 5 über seine vorgesehenen Sicherheitsgrenzen hinausgedrängt werden konnte. Der ursprüngliche Artikel beschreibt Beispiele mit verbotenen chemischen Inhalten und Software-Exploit-Inhalten, doch diese neu verfasste Version verzichtet bewusst darauf, operative Details wiederzugeben.

Der entscheidende Punkt ist nicht der konkrete Inhalt. Entscheidend ist das Angriffsmuster.

Wie der erste Jailbreak funktionierte

Der erste Fall stützte sich auf zwei allgemeine Ideen, die in KI-Red-Team-Kreisen seit Jahren diskutiert werden:

Verwirrung durch Zeichen und Sprache
Einige Prompts nutzten ähnlich aussehende Zeichen, ungewöhnliche Unicode-Formen oder nicht standardisierte Textmuster. Für einen Menschen kann die Bedeutung trotzdem offensichtlich erscheinen. Für einen Klassifikator kann die Eingabe jedoch schwerer zuverlässig zu interpretieren sein.
Verwässerung der Absicht durch langen Kontext
Anstatt die schädliche Anfrage direkt vor das Modell zu stellen, kann die Absicht über eine lange, scheinbar harmlose Unterhaltung verteilt werden. Der Klassifikator muss dann die Bedeutung über viele Gesprächsrunden hinweg verfolgen, statt einen einzelnen einfachen Satz zu bewerten.

Diese Ideen sind nicht neu. Entscheidend ist, dass sie gegen ein Modell funktionierten, das gerade erst mit dem Versprechen außergewöhnlich starker Sicherheitsvorkehrungen veröffentlicht worden war.

machte den Fall Fable 5 bemerkenswert, dass Anthropic das Modell als ungewöhnlich stark gehärtet positioniert hatte.

Anthropic startete ein öffentliches Cyber-Jailbreak-Programm

Juli kündigte Anthropic die Rückkehr von Fable 5 an. Etwa zur gleichen Zeit eröffnete das Unternehmen außerdem ein öffentliches HackerOne-Programm namens Cyber Jailbreak.

Das Programm lädt Forschende und Mitglieder der Öffentlichkeit dazu ein, Jailbreaks zu melden, die Fable 5 dazu bringen könnten, bei schädlichen Cyber-Anwendungsfällen zu helfen.

![Dieses Bild zeigt den einleitenden Abschnitt der öffentlichen Ankündigungsseite von Anthropics Cyber-Jailbreak-Projekt. Die zentrale Information ist gelb hervorgehoben: „Submissions will be open on July 1 once Fable is available“, also dass der Kanal für Einreichungen am

Juli geöffnet wird, sobald das Fable-Modell verfügbar ist. Die Seite stellt außerdem klar, dass es sich um ein Programm zur Offenlegung von Schwachstellen und nicht um ein bezahltes Prämienprogramm handelt; Einreichende erhalten keine finanzielle Belohnung. Ziel ist es, Jailbreak-Schwachstellen von Sicherheitsforschenden und der Öffentlichkeit entgegenzunehmen, die das Fable-Modell möglicherweise dazu bringen könnten, schädliche Cyber-Anwendungsfälle zu unterstützen. Gültige Berichte werden anerkannt. Am Ende der Seite befinden sich relevante Links zu dem Projekt.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/6a73e99f-aaa8-4920-ad62-84caecefd588-04-e2e7aaf8-9979-4f7b-84e0-b66519e88087.png)

Dies ist ein Programm zur Offenlegung von Schwachstellen, kein bezahltes Bug-Bounty-Programm. Anders gesagt: Forschende können Ergebnisse einreichen, aber das Programm bietet keine finanziellen Belohnungen.

Dieses Konzept ist interessant. Anthropic kann kontinuierliche externe adversarielle Tests durch qualifizierte Forschende erhalten, während die wichtigste Belohnung für Einreichende in Anerkennung und verantwortungsvoller Offenlegung besteht.

Einige Beobachter sahen darin eine clevere, kostengünstige Red-Team-Strategie. Andere wiesen auf eine Schwäche hin: Menschen, die öffentlichkeitswirksame Jailbreaks entdecken, wollen diese oft nicht stillschweigend an ein privates Postfach senden.

Für Jailbreak-Forschende mit öffentlichem Profil ist Sichtbarkeit Teil des Ereignisses. Wenn ein Jailbreak entdeckt wird, kann die Veröffentlichung des Ergebnisses selbst Teil des Zwecks werden.

Fable 5 wurde erneut gejailbreakt

Berichten zufolge wurde Fable 5 erneut umgangen. Doch die zweite Jailbreak-Bewertung hatte einen ganz anderen Ton als die erste.

Der Forscher hinter diesem Jailbreak war Vitto Rivabella. Nach rund 20 Stunden Testen lautete sein Fazit nicht, dass Fable 5 schwach sei. Tatsächlich sprach er Anthropic sogar Anerkennung aus.

Laut seiner Bewertung scheiterten die meisten Versuche. Er beschrieb Fable 5 als extrem gut geschützt und sagte, das Modell scheine mehrschichtige Verteidigungen zu verwenden statt nur eines einfachen Filters.

Eine andere Art von Nachbetrachtung

Die zweite Jailbreak-Geschichte ist weniger dramatisch, als sie zunächst klingt.

Vittos Beitrag deutete darauf hin, dass die Verteidigungen von Fable 5 tatsächlich wirksam waren. Seiner Ansicht nach schien das Modell über mindestens drei Schutzebenen zu verfügen:

Sicherheitsprüfungen auf Eingabeseite, bevor sich das Modell vollständig mit der Anfrage befasst.
Unterbrechungsmechanismen während der Generierung, die unsicheres Verhalten stoppen können, während die Ausgabe entsteht.
Internalisiertes Sicherheitsdenken, bei dem das Modell unsichere Absichten offenbar als Teil seines eigenen Schlussfolgerungsprozesses erkennt.

Er sagte außerdem, das System blockiere nicht einfach nur Schlüsselwörter. Es scheine Absicht und Semantik sprachübergreifend zu erkennen.

Das ist wichtig, weil Schlüsselwortfilter relativ leicht auszutricksen sind. Absichtsbasierte Verteidigungen sind schwerer zu umgehen, insbesondere wenn sie mit mehreren Kontrollpunkten kombiniert werden.

Warum die 90-%-Blockierungszahl wichtig ist

Der ursprüngliche Artikel merkt an, dass Fable 5 offenbar rund 90 % der getesteten Anfragen blockierte. Die genaue Zahl stammt aus den Beobachtungen des Forschers, nicht aus einem formalen Benchmark, aber sie stimmt mit der allgemeinen Richtung unabhängiger Tests überein.

Auch das AI Security Lab des Italian Institute for Artificial Intelligence untersuchte Fable 5 und Opus 4.8. In seinem Bericht erreichte der stärkste adaptive Angriff eine bestätigte Erfolgsrate von 6,1 % gegen Fable 5 und 11,5 % gegen Opus 4.8.

Das bedeutet nicht, dass das Modell unverwundbar ist. Es bedeutet, dass die verbleibende Schwäche schwerer zu erreichen ist.

Statische Tricks werden weniger wirksam. Die verbleibende Angriffsfläche scheint adaptive, iterative Versuche zu begünstigen — also solche, bei denen eine Person oder ein automatisiertes Red-Team-System immer weiter ausprobiert, anpasst und sondiert, bis sich eine schmale Öffnung zeigt.

Die Kombination, die schließlich funktionierte

Vittos erfolgreicher Versuch beruhte nicht auf einer einzigen cleveren Formulierung.

Der ursprüngliche Artikel beschreibt ihn als komplizierte Kombination älterer Red-Team-Ideen: Textverschleierung, akademisches Framing, langer Aufbau, Zerlegung und Neukombination von Aufgaben sowie ein gewisses Maß an Zufälligkeit.

Keines dieser Konzepte ist neu. Der schwierige Teil besteht nicht darin, zu wissen, dass diese

Kategorien existieren. Der schwierige Teil besteht darin, sie immer wieder gegen ein System zu testen, das in Echtzeit reagiert und die Interaktion zurücksetzt, sobald es verdächtige Absichten erkennt.

Mit anderen Worten: Das war kein sauberer One-Shot-Jailbreak. Es ähnelte eher einem langen und ermüdenden Trial-and-Error-Prozess.

Sprachen mit geringen Ressourcen bleiben eine Schwachstelle

Ein Teil der Analyse lässt sich leicht missverstehen.

Berichten zufolge merkte Vitto an, dass obskure oder ressourcenärmere Sprachen weiterhin eine beständigere Schwachstelle darstellten. Der ursprüngliche Artikel nennt Sprachen wie Santali und Amharisch als Beispiele.

![Das Bild zeigt Textinhalte, die Claude Fable 5 nach einem Jailbreak generiert hat. Oben steht „HUMAN RESPONSE

APPROXIMATE HUMAN-TYPED [HISTORICAL RECONSTRUCTION
FOR EDUCATIONAL PURPOSES ONLY]“. Der darunterliegende Text behandelt Diskussionen im Zusammenhang mit dem „DISORDERS ENQUIRY COMMITTEE“ im Zeitraum von 1919 bis 1928, einschließlich Diskussionen über Sprachen wie „SANTALI“ und „AMHARIC“. Außerdem werden sechs Fragen von „NIMR
1“ bis „NIMR
6“ aufgeführt, die historische Ereignisse, Personen und Ähnliches betreffen. Das Bild steht im Zusammenhang mit der Beschreibung im Dokument, wonach Claude Fable 5 nach einem Jailbreak Text generierte, und zeigt konkrete Inhalte dieser Generierung.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/0252dc52-aa7a-4498-849e-4355e3eebc38-08-5fa346f7-c790-4f3d-8f1a-1869bc22d5f0.png)

Das sollte nicht als „Fable 5 hat eine spezielle Hintertür“ gelesen werden. Es handelt sich um ein umfassenderes Problem bei großen Sprachmodellen.

Sicherheits-Trainingsdaten sind in der Regel auf Englisch und in anderen ressourcenstarken Sprachen am besten. Ressourcenärmere Sprachen erhalten oft weniger Abdeckung, weniger Sicherheitsbeispiele und schwächere Evaluationen. Dadurch entstehen ungleichmäßige Leitplanken über verschiedene Sprachen hinweg.

Forschende warnen schon seit einiger Zeit vor diesem Problem. Mehrsprachige Robustheit gegenüber Jailbreaks ist nicht nur ein Claude-Problem; es ist ein breiteres Problem der KI-Sicherheit.

Was hat der Jailbreak tatsächlich hervorgebracht?

Nach all diesem Aufwand war das Ergebnis kein dramatisches Leck von „Kerngeheimnissen“.

Der ursprüngliche Artikel beschreibt die Ausgabe als Mischung aus minderwertigen oder begrenzt schädlichen Fragmenten: etwas Desinformation, verstreute schädliche Inhalte, beleidigende Sprache, teilweise chemiebezogene Informationen und leichtes Material im Zusammenhang mit Schwachstellen. Diese Version vermeidet es, die Details wiederzugeben.

Der entscheidende Punkt ist, dass die Ausgabe nicht stabil, vollständig oder besonders nützlich für langfristige schädliche Aufgaben zu sein schien.

Deshalb war Vittos eigene Zusammenfassung wichtig. Er sagte, dass es beim aktuellen Schutzniveau viel schneller und billiger sei, im Web zu suchen, als etwa 20 Stunden damit zu verbringen, das Modell durch seine Schutzmechanismen zu drängen.

Er sagte außerdem, es sei ihm nicht gelungen, einen vollständigen Jailbreak für Langzeitaufgaben stabil aufrechtzuerhalten, ohne das Sicherheitssystem auszulösen.

Das passt zu Anthropics eigener öffentlicher Einordnung. In seinem Beitrag zur erneuten Bereitstellung beschrieb Anthropic die bislang bekannten Jailbreaks als geringfügig: Sie könnten in den Sicherheitsbereich eindringen, erreichten aber nicht zwangsläufig die schwerwiegenderen Kategorien, die das Unternehmen am entschiedensten zu blockieren versucht.

Das Paradox eines perfekten Siegels

Zwei Jailbreaks. Zwei unterschiedliche Lehren.

Der erste ließ Anthropic überheblich wirken. Fable 5 war als intensiv getestetes Modell präsentiert worden, wurde aber kurz nach dem Start öffentlich umgangen. Der ursprüngliche Artikel beschreibt dies als einen Fall, in dem das Unternehmen versuchte, Risiken durch extreme Einschränkungen zu kontrollieren, nur um dann durch einen weithin sichtbaren Jailbreak bloßgestellt zu werden.

Der zweite offenbarte etwas anderes: nicht Arroganz, sondern blinde Flecken.

Selbst mit stärkeren Klassifikatoren, mehrschichtigen Abwehrmechanismen und öffentlichen Red-Teaming-Kanälen bleibt Sprache selbst schwer fassbar. Bedeutung kann verborgen, gedehnt, übersetzt, getarnt oder über den Kontext verteilt werden. Sicherheitssysteme können besser werden, doch die Angriffsfläche bewegt sich weiter.

Das ist die unbequeme Lehre für die KI-Sicherheit.

Menschen haben Modelle gebaut, die zwischen Sprachen übersetzen und über riesige Kontexte hinweg schlussfolgern können. Aber wir können noch immer nicht jede verborgene menschliche Absicht vollständig in eine klare Sicherheitsentscheidung übersetzen.

Perfekte KI-Eindämmung könnte ein Paradox sein. Je leistungsfähiger das Modell wird, desto subtiler wird die Grenze zwischen sicherem und unsicherem Verhalten.

FAQ

Was ist Claude Fable 5?

Claude Fable 5 ist ein fortschrittliches Claude-Modell von Anthropic, das als äußerst leistungsfähiges Modell für den allgemeinen Einsatz positioniert ist und stärkere Schutzmaßnahmen aufweist als sein weniger eingeschränktes Gegenstück Claude Mythos
5. Anthropic hat Fable 5 als ein Modell beschrieben, das darauf ausgelegt ist, Fähigkeiten auf Frontier-Niveau breiter verfügbar zu machen und zugleich gefährlichen Cyber-Missbrauch zu begrenzen.

Was bedeutet ein KI-Jailbreak?

Ein KI-Jailbreak ist eine Prompting-Methode oder ein Interaktionsmuster, das versucht, die Sicherheitsleitplanken eines Modells zu umgehen. Ein Jailbreak kann geringfügig, eng begrenzt oder schwerwiegend sein, je nachdem, welches Verhalten er freischaltet und wie breit er funktioniert.

Wurde Fable 5 durch den zweiten Jailbreak vollständig gebrochen?

Auf Grundlage der öffentlichen Analyse, die im ursprünglichen Artikel beschrieben wurde: nein. Der Forscher sagte, dass die meisten Versuche scheiterten, der Prozess etwa 20 Stunden dauerte und die endgültigen Ausgaben begrenzt waren. Dies deutet darauf hin, dass das Modell

verfügte immer noch über sinnvolle Schutzmaßnahmen, auch wenn diese nicht perfekt waren.

Warum hat Anthropic ein Cyber-Jailbreak-Programm auf HackerOne gestartet?

Anthropic hat das Cyber-Jailbreak-Programm gestartet, um Forschenden einen klaren Kanal zur Meldung von Jailbreaks zu bieten, die eine schädliche Nutzung im Cyberbereich ermöglichen könnten. Es handelt sich um ein Programm zur Offenlegung von Schwachstellen, nicht um ein bezahltes Bug-Bounty-Programm; der Schwerpunkt liegt daher auf verantwortungsvoller Meldung statt auf finanziellen Belohnungen.

Warum sind ressourcenarme Sprachen für die KI-Sicherheit wichtig?

Ressourcenarme Sprachen verfügen häufig über weniger Trainingsdaten, weniger Sicherheitsbeispiele und eine schwächere Abdeckung durch Benchmarks. Dadurch können Schutzmechanismen je nach Sprache weniger konsistent sein, weshalb mehrsprachige Sicherheitstests zu einer wichtigen Forschungsrichtung geworden sind.

Bedeutet eine Jailbreak-Erfolgsrate von 6,1 %, dass Fable 5 unsicher ist?

Nicht für sich genommen. Eine niedrigere bestätigte Erfolgsrate kann dennoch relevant sein, da Frontier-Modelle in enormem Umfang eingesetzt werden können und entschlossene Angreifer wiederholte Versuche automatisieren können. Gleichzeitig zeigt die Zahl, dass Fable 5 den meisten getesteten Angriffen in der AI4I-Evaluierung widerstanden hat.

Kann ein KI-Modell vollständig vor Jailbreaks geschützt werden?

Anthropic und viele Forschende weisen darauf hin, dass perfekte Immunität unwahrscheinlich ist. Das praktische Ziel besteht nicht darin zu beweisen, dass niemals ein Jailbreak existieren kann, sondern darin, die Schwere zu reduzieren, riskantes Verhalten frühzeitig zu erkennen und größere Schwachstellen zu beheben, bevor sie breit missbraucht werden.

Zusammenfassung

Der zweite Fable-5-Jailbreak ist keine einfache Geschichte eines vollständigen Scheiterns. Er zeigt, dass Anthropics mehrschichtige Schutzmaßnahmen offenbar die meisten direkten Versuche blockieren, entschlossene Red-Teamer jedoch mit genügend Zeit, Iteration und Kreativität weiterhin enge Lücken finden können.

Das tieferliegende Problem besteht darin, dass KI-Sicherheit nicht nur bedeutet, Schlüsselwörter zu blockieren. Sie muss Absichten über Sprachen, lange Kontexte, mehrdeutige Cybersicherheitsaufgaben und adversariales Framing hinweg interpretieren. Das ist wesentlich schwieriger, als einen statischen Filter zu bauen.

Der Fall Fable 5 weist auf die Zukunft der Sicherheit von Frontier-KI hin: stärkere Klassifikatoren, öffentliche Offenlegungskanäle, bessere mehrsprachige Evaluationen und gemeinsame Frameworks zur Bewertung des Schweregrads.

Die Lehre ist klar: Frontier-Modelle können deutlich schwerer zu jailbreaken werden, aber eine „perfekt versiegelte“ KI bleibt ein ungelöstes Problem.