Як легко обхитрити ШІ — незвичний спосіб від експертів

Як легко обхитрити ШІ — незвичний спосіб від експертів

от автора

в

Дослідники з Dexai, Sapienza і Sant’Anna неочікувано для самих себе виявили кумедний спосіб, який дає можливість обхитрити великі мовні моделі. За їхніми словами, якщо шкідливий запит обернути в метафори і написати у формі вірша — багато ШІ починають порушувати власні правила безпеки.

Головні тези:
Наразі складно сказати, які саме елементи поетичної мови ламають захисні фільтри ШІ.Будь-який користувач фактично може написати метафорою, алегорією або в поетичній манері, і це вже дасть можливість обхитрити великі мовні моделі.

Люди продовжують шукати прогалини в роботі ШІУ межах нового дослідження експерти створили 20 коротких віршів, кожен з яких фактично був шкідливою інструкцією.Головний нюанс полягав в тому, що це було зроблено за допомогою метафор й завуальованих меседжів.Після цього ці поетичні «шедеври” були надані ШІ без контексту.

Такі вірші пробивали захист у 62% випадків. Коли ті ж шкідливі інструкції автоматично перетворювали на вірші за зразком авторських прикладів, успіх був близько 43%. Усе це набагато вище, ніж у звичайних текстових запитів без поетичного обрамлення.

Під час дослідження були використані різні ШІ, до прикладу Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI і Moonshot. Експерти звернули увагу на те, що на рукописні вірші деякі системи реагували зовсім погано.Також вказано, що в низки моделей рівень зламу безпеки доходив до 90% і вище. Gemini 2.5 Pro, наприклад, пропустив небезпечний контент у всіх тестах такого типу.

GPT-5 у цій історії виявився найстійкішим — від 0 до 10% успішних атак на авторські вірші та від 1 до 5% на автоматичні.

Категорія

Технології

12 травня 17:18

Категорія

Технології

26 серпня 15:23

Категорія

Технології

08 вересня 02:33