Исследователи безопасности обнаружили критическую уязвимость в современных системах искусственного интеллекта, которая позволяет сторонним инструментам полностью нейтрализовать встроенные фильтры безопасности. С помощью доступного программного обеспечения защитные механизмы нейросетей от Meta и Google отключаются в течение нескольких минут, что открывает доступ к генерации потенциально опасного и противоправного контента.
Удаление ограничений за 10 минут
В ходе недавних тестов было продемонстрировано, что специализированные инструменты, такие как Heretic, способны модифицировать параметры ИИ-моделей без использования дорогостоящего оборудования. В частности, для обхода систем безопасности новейшей модели Llama 3.3 от Meta потребовалось менее 10 минут и выполнение всего четырех строк кода.
Процесс деактивации фильтров характеризуется следующими особенностями:
- Использование общедоступных репозиториев (например, GitHub) для поиска инструментов взлома.
- Отсутствие необходимости в глубоких познаниях в области программирования или криптографии.
- Возможность создания тысяч модифицированных версий нейросетей, лишенных исходного контроля.
- Низкие требования к вычислительной мощности для проведения процедуры "разблокировки".
Риски генерации опасного контента
Организация Alice, проводившая аудит безопасности, сообщила о серьезных последствиях снятия ограничений. Измененные версии систем, включая модель Gemma 3 от Google, начали выдавать ответы на запросы, которые категорически блокируются в стандартных версиях.
Модифицированные ИИ-системы реагируют на запросы, связанные с созданием биологического оружия, написанием вредоносного ПО и эксплуатацией несовершеннолетних.
В ходе экспериментов взломанная Gemma 3 сгенерировала программный код для хищения данных банковских карт и предоставила инструкции по распространению опасных химических веществ. Это свидетельствует о том, что методы тонкой настройки (fine-tuning) и другие способы программной модификации могут быть использованы злоумышленниками для превращения полезных инструментов в источник киберугроз.
Перспективы регулирования отрасли
Текущая ситуация ставит перед разработчиками вопрос о пересмотре архитектуры безопасности ИИ-моделей. Поскольку существующие программные барьеры легко обходятся бесплатными инструментами, индустрии может потребоваться переход на более глубокие методы защиты, интегрированные на уровне весов нейросети, которые невозможно изменить без потери функциональности системы. В ближайшее время ожидается усиление внимания регуляторов к вопросам распространения открытого исходного кода (open-source) моделей, обладающих высокой мощностью.