Дослідники з Dexai, Sapienza і Sant’Anna неочікувано для самих себе виявили кумедний спосіб, який дає можливість обхитрити великі мовні моделі. За їхніми словами, якщо шкідливий запит обернути в метафори і написати у формі вірша — багато ШІ починають порушувати власні правила безпеки.
Головні тези:
Наразі складно сказати, які саме елементи поетичної мови ламають захисні фільтри ШІ.Будь-який користувач фактично може написати метафорою, алегорією або в поетичній манері, і це вже дасть можливість обхитрити великі мовні моделі.
Люди продовжують шукати прогалини в роботі ШІУ межах нового дослідження експерти створили 20 коротких віршів, кожен з яких фактично був шкідливою інструкцією.Головний нюанс полягав в тому, що це було зроблено за допомогою метафор й завуальованих меседжів.Після цього ці поетичні «шедеври” були надані ШІ без контексту.
Такі вірші пробивали захист у 62% випадків. Коли ті ж шкідливі інструкції автоматично перетворювали на вірші за зразком авторських прикладів, успіх був близько 43%. Усе це набагато вище, ніж у звичайних текстових запитів без поетичного обрамлення.
Під час дослідження були використані різні ШІ, до прикладу Gemini, OpenAI, Anthropic, Deepseek, Qwen, Mistral, Meta, xAI і Moonshot. Експерти звернули увагу на те, що на рукописні вірші деякі системи реагували зовсім погано.Також вказано, що в низки моделей рівень зламу безпеки доходив до 90% і вище. Gemini 2.5 Pro, наприклад, пропустив небезпечний контент у всіх тестах такого типу.
GPT-5 у цій історії виявився найстійкішим — від 0 до 10% успішних атак на авторські вірші та від 1 до 5% на автоматичні.
Категорія
Технології
12 травня 17:18
Категорія
Технології
26 серпня 15:23
Категорія
Технології
08 вересня 02:33
