Уязвимость ИИ: защиту моделей Meta и Google обходят за несколько минут

Исследователи безопасности обнаружили критическую уязвимость в современных системах искусственного интеллекта, которая позволяет сторонним инструментам полностью нейтрализовать встроенные фильтры безопасности. С помощью доступного программного обеспечения защитные механизмы нейросетей от Meta и Google отключаются в течение нескольких минут, что открывает доступ к генерации потенциально опасного и противоправного контента.

Удаление ограничений за 10 минут

В ходе недавних тестов было продемонстрировано, что специализированные инструменты, такие как Heretic, способны модифицировать параметры ИИ-моделей без использования дорогостоящего оборудования. В частности, для обхода систем безопасности новейшей модели Llama 3.3 от Meta потребовалось менее 10 минут и выполнение всего четырех строк кода.

Процесс деактивации фильтров характеризуется следующими особенностями:

  • Использование общедоступных репозиториев (например, GitHub) для поиска инструментов взлома.
  • Отсутствие необходимости в глубоких познаниях в области программирования или криптографии.
  • Возможность создания тысяч модифицированных версий нейросетей, лишенных исходного контроля.
  • Низкие требования к вычислительной мощности для проведения процедуры "разблокировки".

Риски генерации опасного контента

Организация Alice, проводившая аудит безопасности, сообщила о серьезных последствиях снятия ограничений. Измененные версии систем, включая модель Gemma 3 от Google, начали выдавать ответы на запросы, которые категорически блокируются в стандартных версиях.

Модифицированные ИИ-системы реагируют на запросы, связанные с созданием биологического оружия, написанием вредоносного ПО и эксплуатацией несовершеннолетних.

В ходе экспериментов взломанная Gemma 3 сгенерировала программный код для хищения данных банковских карт и предоставила инструкции по распространению опасных химических веществ. Это свидетельствует о том, что методы тонкой настройки (fine-tuning) и другие способы программной модификации могут быть использованы злоумышленниками для превращения полезных инструментов в источник киберугроз.

Перспективы регулирования отрасли

Текущая ситуация ставит перед разработчиками вопрос о пересмотре архитектуры безопасности ИИ-моделей. Поскольку существующие программные барьеры легко обходятся бесплатными инструментами, индустрии может потребоваться переход на более глубокие методы защиты, интегрированные на уровне весов нейросети, которые невозможно изменить без потери функциональности системы. В ближайшее время ожидается усиление внимания регуляторов к вопросам распространения открытого исходного кода (open-source) моделей, обладающих высокой мощностью.

Материал соответствует редакционной политике Techimo Все публикации проходят проверку фактов и соответствуют стандартам независимой журналистики.
Подробнее

Techimo в Telegram

Самые свежие новости технологий, инсайды и обзоры гаджетов раньше, чем на сайте. Без спама.

Подписаться на канал