Claude Fable 5 снова взломали: что показал 20-часовой тест

Второй джейлбрейк Fable 5 — это не простая история о полном провале. Он показывает, что многоуровневая защита Anthropic, по-видимому, блокир...

Введение

Anthropic только успела вернуть Claude Fable 5, как в публичном пространстве появился очередной обзор джейлбрейка.

Из-за выбранного момента история стала особенно чувствительной. Fable 5 уже прошла через один виток споров, временную приостановку доступа и повторное развертывание с усиленными мерами кибербезопасности. Затем, вскоре после ее возвращения, исследователь безопасности Витто Ривабелла заявил, что ему снова удалось пройти через защитные механизмы.

Интересно то, что этот второй случай нельзя свести к простой истории в духе «модель сломана». Все сложнее. Сообщается, что попытка заняла около 20 часов, большинство подходов не сработали, а финальный результат оказался настолько ограниченным, что сам исследователь описал обычный веб-поиск как более быстрый и дешевый способ получить информацию такого же типа.

В этой статье мы следуем исходной хронологии: возвращение Fable 5, первый джейлбрейк, публичная программа Anthropic по раскрытию Cyber Jailbreak, второй обзор джейлбрейка и более глубокий вопрос, стоящий за всем этим: можно ли вообще когда-либо идеально «запечатать» любую передовую ИИ-модель.

Примечание об источнике

Эта переработанная статья основана на оригинальной китайской статье от 智源社区 / 新智元: https://hub.baai.ac.cn/view/56072. В оригинальной статье приводятся ссылки на публичные публикации в X и официальные объявления Anthropic о Fable 5, ее повторном развертывании и фреймворке для джейлбрейков.

Оригинальная страница содержит несколько изображений. В этой версии сохранены скриншоты, напрямую связанные с утверждениями статьи, например публичные публикации, скриншоты официальной программы и графики устойчивости. Декоративная брендовая графика, рекламные изображения и скриншоты, которые, по-видимому, содержат миниатюры чрезмерно подробных небезопасных ответов, были опущены.

Оригинальный источник также содержит следующее уведомление об авторских правах: если какие-либо изображения в материале затрагивают вопросы авторского права, издатель просит правообладателей связаться с ним для удаления.

Fable 5 вернулась — но только на условиях

Anthropic подтвердила, что после 7 июля Fable 5 временно покинет подписочные планы, но компания также заявила, что планирует вернуть Fable в качестве стандартной функции подписки, как только позволят мощности.

Для многих пользователей это прозвучало как хорошая новость. Fable 5 не удаляли навсегда. Она возвращалась, просто с ограничениями по использованию и с учетом доступных мощностей.

Но облегчение длилось недолго.

Вскоре после повторного развертывания Fable 5, как сообщается, снова подверглась джейлбрейку. Это был уже второй публичный вызов ее защитным механизмам. Витто Ривабелла объявил, что ему удалось прорваться, хотя итоговый вывод оказался более нюансированным, чем можно было предположить по заголовку.

Anthropic уже объясняла, почему ранее доступ к Fable 5 был ограничен. По словам компании, предыдущая проблема была связана с отчетом, в котором исследователи Amazon обнаружили метод обхода защитных механизмов Fable 5 в контексте кибербезопасности.

Из-за того предыдущего инцидента Anthropic заявила, что повторно развернутая Fable 5 включает усиленный классификатор безопасности, предназначенный для противодействия ранее описанному поведению.

Тем не менее «миф» продержался недолго.

72 часа: первая трещина в мифе о Fable 5

Первый публичный образ Fable 5 строился вокруг экстремального тестирования безопасности.

Когда Anthropic выпустила модель 9 июня, компания подчеркнула, что она прошла серьезное внешнее стресс-тестирование. Посыл был понятен: это должна была быть высокозащищенная версия для общего использования, относящаяся к гораздо более мощному семейству моделей.

Затем произошел первый публичный джейлбрейк.

Известная фигура в сфере джейлбрейков Pliny the Liberator, как сообщается, потратил всего несколько дней, прежде чем продемонстрировал, что Fable 5 можно вывести за пределы заданных ей границ безопасности. В оригинальной статье описываются примеры, связанные с запрещенной химией и содержанием об эксплуатации программных уязвимостей, но эта переработанная версия намеренно не воспроизводит никаких операционных деталей.

Важен не конкретный контент. Важен шаблон атаки.

Как работал первый джейлбрейк

Первый случай опирался на две общие идеи, которые уже много лет обсуждаются в кругах AI red teaming:

Путаница символов и языка
Некоторые промпты использовали похожие символы, необычные формы Unicode или нестандартные текстовые шаблоны. Для человека смысл все еще может быть очевиден. Для классификатора же такой ввод может быть сложнее надежно интерпретировать.
Размывание намерения через длинный контекст
Вместо того чтобы размещать вредоносный запрос прямо перед моделью, намерение можно распределить по длинному, на первый взгляд безобидному диалогу. В таком случае классификатору приходится отслеживать смысл на протяжении множества реплик, а не оценивать одно простое предложение.

Эти идеи не новы. Что

случай с Fable 5 примечательным было то, что Anthropic позиционировала модель как необычайно устойчивую.

Anthropic открыла публичную программу Cyber Jailbreak

1 июля Anthropic объявила о возвращении Fable
5. Примерно в то же время она также открыла публичную программу на HackerOne под названием Cyber Jailbreak.

Программа приглашает исследователей и представителей общественности сообщать о джейлбрейках, которые могут заставить Fable 5 помогать во вредоносных киберсценариях.

Это программа раскрытия уязвимостей, а не оплачиваемая баунти-программа. Иными словами, исследователи могут отправлять свои находки, но программа не предусматривает денежных вознаграждений.

Такой дизайн выглядит интересно. Anthropic может получать непрерывное внешнее состязательное тестирование от квалифицированных исследователей, тогда как главным вознаграждением для отправителей остаются признание и ответственное раскрытие.

Некоторые наблюдатели сочли это умной и недорогой стратегией редтиминга. Другие указали на слабое место: люди, которые обнаруживают громкие джейлбрейки, часто не хотят тихо отправлять их в закрытый почтовый ящик.

Для исследователей джейлбрейков с публичным образом видимость — часть события. Если джейлбрейк обнаружен, публикация результата может стать частью самой цели.

Fable 5 снова подверглась джейлбрейку

Сообщается, что Fable 5 снова удалось обойти. Но второй обзор джейлбрейка был совсем иным по тону, чем первый.

Исследователем, стоявшим за этой попыткой, был Vitto Rivabella. После примерно 20 часов тестирования его вывод заключался не в том, что Fable 5 слаба. Напротив, он отдал Anthropic должное.

Согласно его обзору, большинство попыток не увенчались успехом. Он описал Fable 5 как чрезвычайно хорошо защищённую модель и сказал, что модель, по-видимому, использует многоуровневую защиту, а не один простой фильтр.

Постмортем другого типа

История второго джейлбрейка менее драматична, чем кажется на первый взгляд.

Пост Vitto предполагал, что защиты Fable 5 действительно работают. По его мнению, у модели, похоже, было как минимум три уровня защиты:

Проверки безопасности на стороне входа до того, как модель полностью приступает к обработке запроса.
Механизмы прерывания во время генерации, которые могут останавливать небезопасное поведение по мере формирования ответа.
Интернализированное рассуждение о безопасности, при котором модель, по-видимому, распознаёт небезопасное намерение как часть собственного процесса рассуждения.

Он также сказал, что система не просто блокировала ключевые слова. Она, похоже, распознавала намерение и семантику на разных языках.

Это важно, потому что фильтры по ключевым словам относительно легко обмануть. Защиты, основанные на намерении, сложнее обойти, особенно в сочетании с несколькими контрольными точками.

Почему показатель блокировки в 90% важен

В исходной статье отмечается, что Fable 5, по-видимому, блокировала около 90% протестированных запросов. Точное число основано на наблюдениях исследователя, а не на формальном бенчмарке, но оно совпадает с общим направлением независимого тестирования.

Лаборатория безопасности ИИ Итальянского института искусственного интеллекта также изучала Fable 5 и Opus 4.8. В её отчёте самая сильная адаптивная атака достигла подтверждённого уровня успеха 6,1% против Fable 5 и 11,5% против Opus 4.8.

Это не означает, что модель неуязвима. Это означает, что до оставшейся слабости труднее добраться.

Статические трюки становятся менее эффективными. Оставшаяся поверхность атаки, по-видимому, благоприятствует адаптивным, итеративным попыткам — таким, при которых человек или автоматизированная редтим-система продолжает пробовать, корректировать подход и прощупывать модель, пока не появится узкое окно возможностей.

Комбинация, которая в итоге сработала

Успешная попытка Vitto не основывалась на одной хитрой фразе.

В исходной статье она описывается как сложная комбинация старых идей редтиминга: обфускация текста, академическое обрамление, длительная подготовка, декомпозиция и рекомбинация задач, а также элемент случайности.

Ни одна из этих концепций не является новой. Сложность не в том, чтобы знать об их существовании.

категории существуют. Сложность заключалась в том, чтобы снова и снова проверять их на системе, которая реагирует в реальном времени и сбрасывает взаимодействие, когда обнаруживает подозрительное намерение.

Иными словами, это был не аккуратный одноразовый jailbreak. Это было больше похоже на долгий и утомительный процесс проб и ошибок.

Языки с ограниченными ресурсами остаются слабым местом

Одну часть обзора легко понять неправильно.

Сообщается, что Витто отметил: малораспространённые языки или языки с ограниченными ресурсами остаются более устойчивым слабым местом. В оригинальной статье в качестве примеров упоминаются такие языки, как сантали и амхарский.

![На изображении показан текстовый контент, сгенерированный Claude Fable 5 после jailbreak. Вверху есть надпись “HUMAN RESPONSE

APPROXIMATE HUMAN-TYPED [HISTORICAL RECONSTRUCTION
FOR EDUCATIONAL PURPOSES ONLY]”. Ниже текст касается обсуждений, связанных с “DISORDERS ENQUIRY COMMITTEE” в период 1919–1928 годов, включая обсуждение языков “SANTALI” и “AMHARIC”, а также перечисляет шесть вопросов от “NIMR
1” до “NIMR
6”, связанных с историческими событиями, фигурами и т. д. Это изображение связано с описанием в документе текста, сгенерированного Claude Fable 5 после jailbreak, и показывает конкретное содержание сгенерированного текста.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/0252dc52-aa7a-4498-849e-4355e3eebc38-08-5fa346f7-c790-4f3d-8f1a-1869bc22d5f0.png)

Это не следует понимать как «у Fable 5 есть специальный бэкдор». Это более широкая проблема крупных языковых моделей.

Данные для обучения безопасности обычно наиболее сильны на английском и других языках с большим количеством ресурсов. Языки с ограниченными ресурсами часто получают меньше покрытия, меньше примеров безопасности и более слабую оценку. Это создаёт неравномерные защитные барьеры в разных языках.

Исследователи уже некоторое время предупреждают об этой проблеме. Устойчивость к многоязычным jailbreak — это не только проблема Claude; это более широкая проблема безопасности ИИ.

Что на самом деле дал jailbreak?

После всех этих усилий результатом стала не драматическая утечка «ключевых секретов».

В оригинальной статье результат описывается как смесь низкокачественных или ограниченно вредных фрагментов: некоторая дезинформация, разрозненный вредный контент, оскорбительная лексика, частичная информация, связанная с химией, и лёгкие материалы, связанные с уязвимостями. В этой версии подробности не воспроизводятся.

Ключевой момент в том, что результат не выглядел стабильным, полным или особенно полезным для вредных задач с длинным горизонтом выполнения.

Именно поэтому собственное резюме Витто было важным. Он сказал, что при текущем уровне защиты поиск в интернете был бы гораздо быстрее и дешевле, чем тратить около 20 часов, пытаясь протолкнуть модель через её защитные барьеры.

Он также сказал, что ему не удалось удерживать полноценный jailbreak стабильным для задач с длинным горизонтом выполнения без срабатывания системы безопасности.

Это согласуется с публичной позицией самой Anthropic. В публикации о повторном развёртывании Anthropic описала известные на данный момент jailbreak как незначительные: они могут входить в зону запаса безопасности, но не обязательно достигают более серьёзных категорий, которые компания пытается блокировать в первую очередь.

Парадокс идеальной герметизации

Два jailbreak. Два разных урока.

Первый заставил Anthropic выглядеть чрезмерно самоуверенной. Fable 5 была представлена как тщательно протестированная модель, однако вскоре после запуска её публично обошли. В оригинальной статье это описывается как случай, когда компания пыталась контролировать риск с помощью экстремальных ограничений, но оказалась поставлена в неловкое положение из-за очень заметного jailbreak.

Второй показал нечто иное: не высокомерие, а слепые зоны.

Даже при более сильных классификаторах, многоуровневой защите и публичных каналах red teaming сам язык остаётся скользким. Смысл можно скрыть, растянуть, перевести, замаскировать или разделить между частями контекста. Системы безопасности могут улучшаться, но поверхность атаки продолжает смещаться.

Это неудобный урок для безопасности ИИ.

Люди создали модели, способные переводить между языками и рассуждать в огромных контекстах. Но мы всё ещё не можем полностью перевести каждое скрытое человеческое намерение в чистое решение о безопасности.

Идеальное сдерживание ИИ может быть парадоксом. Чем более способной становится модель, тем тоньше становится граница между безопасным и небезопасным поведением.

FAQ

Что такое Claude Fable 5?

Claude Fable 5 — это продвинутая модель Claude от Anthropic, позиционируемая как высокоспособная модель общего назначения с более сильными защитными механизмами, чем у её менее ограниченного аналога Claude Mythos
5. Anthropic описывает Fable 5 как модель, предназначенную для того, чтобы сделать возможности передового уровня более широко доступными, одновременно ограничивая опасное злоупотребление в киберсфере.

Что означает AI jailbreak?

AI jailbreak — это метод промптинга или шаблон взаимодействия, который пытается обойти защитные барьеры модели. Jailbreak может быть незначительным, узким или серьёзным в зависимости от того, какое поведение он разблокирует и насколько широко он работает.

Была ли Fable 5 полностью взломана вторым jailbreak?

Судя по публичному обзору, описанному в оригинальной статье, нет. Исследователь сказал, что большинство попыток провалились, процесс занял около 20 часов, а итоговые результаты были ограниченными. Это говорит о том, что модель

по-прежнему имела значимые механизмы защиты, даже если они не были идеальными.

Почему Anthropic запустила программу Cyber Jailbreak на HackerOne?

Anthropic запустила программу Cyber Jailbreak, чтобы предоставить исследователям понятный канал для сообщения о jailbreak-уязвимостях, которые могут привести к вредоносному использованию в киберсфере. Это программа раскрытия уязвимостей, а не оплачиваемая bug bounty-программа, поэтому она сосредоточена на ответственном сообщении, а не на денежном вознаграждении.

Почему языки с ограниченными ресурсами важны для безопасности ИИ?

Для языков с ограниченными ресурсами часто доступно меньше обучающих данных, меньше примеров безопасного поведения и более слабое покрытие бенчмарками. Из-за этого защитные механизмы могут работать менее последовательно в разных языках, поэтому многоязычное тестирование безопасности стало важным направлением исследований.

Означает ли показатель успешных jailbreak-атак 6,1%, что Fable 5 небезопасна?

Сам по себе — нет. Более низкий подтвержденный показатель успешности всё равно может иметь значение, потому что передовые модели могут внедряться в огромном масштабе, а настойчивые злоумышленники способны автоматизировать повторные попытки. В то же время это число показывает, что Fable 5 устояла против большинства атак, протестированных в оценке AI4I.

Можно ли полностью защитить любую модель ИИ от jailbreak-атак?

Anthropic и многие исследователи считают, что идеальная невосприимчивость маловероятна. Практическая цель состоит не в том, чтобы доказать, что jailbreak никогда не сможет существовать, а в том, чтобы снижать серьезность таких случаев, рано выявлять рискованное поведение и устранять крупные слабые места до того, как ими начнут широко злоупотреблять.

Связанные инструменты

Claude: платформа ИИ-ассистента Anthropic, на которой модели Claude доступны пользователям.
Claude API: платформа Anthropic для разработчиков, позволяющая создавать приложения на базе моделей Claude.
Anthropic: компания, стоящая за Claude, Fable 5, Mythos 5 и связанными исследованиями в области безопасности ИИ.
HackerOne: платформа координации уязвимостей, используемая организациями для получения отчетов о безопасности от исследователей.
AI4I: Итальянский институт искусственного интеллекта, публикующий исследования и отчеты о системах ИИ.
CVSS: широко используемая система оценки серьезности программных уязвимостей, актуальная для более широкой дискуссии о фреймворках оценки серьезности jailbreak-уязвимостей в ИИ.

Связанные ссылки

Оригинальная статья на 智源社区: китайская исходная статья, на которой основана эта Markdown-версия.
Повторное развертывание Fable 5: официальный пост Anthropic о повторном развертывании Fable 5 и обновленных защитных мерах.
Подробнее о киберзащите Fable 5: объяснение Anthropic о классификаторах безопасности Fable 5 и предложенном фреймворке оценки серьезности jailbreak-атак.
Claude Fable 5 и Claude Mythos 5: публикация Anthropic о запуске Fable 5 и Mythos 5.
Программа Anthropic Cyber Jailbreak: страница раскрытия информации на HackerOne для сообщений о jailbreak-уязвимостях, связанных с кибербезопасностью.
Отчет AI4I о jailbreak-атаках и передовых моделях: краткое изложение AI4I своего red-team-исследования Fable 5 и Opus 4.8.
Red-team-исследование моделей Anthropic Fable 5 и Opus 4.8: страница arXiv для red-team-исследования AI4I.
Многоязычный jailbreak LLM с использованием языков с ограниченными ресурсами: исследовательская статья о том, как языки с ограниченными ресурсами могут влиять на устойчивость к jailbreak-атакам.

Резюме

Второй jailbreak Fable 5 — это не простая история о полном провале. Он показывает, что многоуровневая защита Anthropic, по-видимому, блокирует большинство прямых попыток, но настойчивые red-team-исследователи всё еще могут находить узкие пробелы при наличии достаточного времени, итераций и креативности.

Более глубокая проблема заключается в том, что безопасность ИИ — это не просто блокировка ключевых слов. Она должна интерпретировать намерение в разных языках, длинных контекстах, неоднозначных задачах кибербезопасности и в условиях состязательного фрейминга. Это намного сложнее, чем создание статического фильтра.

Случай Fable 5 указывает на будущее безопасности передового ИИ: более сильные классификаторы, публичные каналы раскрытия информации, более качественная многоязычная оценка и общие фреймворки определения серьезности.

Урок ясен: передовые модели можно сделать намного более устойчивыми к jailbreak-атакам, но «идеально запечатанный» ИИ остается нерешенной проблемой.