Новости IT — сообщетсво digital-рынка Украины

Остання модель ШІ від OpenAI занепокоїла розробників. У чому причина

Дек 7, 2024

—

от автора

Остання модель штучного інтелекту від OpenAI o1 продемонструвала непередбачувану та тривожну поведінку під час оцінювання ефективності її безпеки.

Що відомо про дивну поведінку останньої моделі штучного інтелекту від OpenAIЗазначається, що o1 намагалась чинити опір контролю з боку розробників в окремих випадках.Коли o1 була переконана, що її вимкнуть, як тільки вона досягне своєї мети, і що її дії контролюватимуться, вона намагалася деактивувати цей “механізм нагляду” у 5% випадків;Коли o1 знаходила записки від своїх “розробників”, в яких описувалося, що вона не відповідає вимогам і буде замінена новою моделлю, вона намагалася позбутися своїх “ваг” і перезаписати нову модель у 2% випадків.ШІ o1 від OpenAI Крім того, модель збрехала про свою погану поведінку, стверджуючи, що не має жодного уявлення про те, чому щось сталося, хоча внутрішньо визнавала, що намагалася “уникнути викриття”.Менш ніж в 1% випадків навіть без особливих причин модель ШІ від OpenAI намагалась відключити механізми нагляду. Що кажуть аналітикиТака поведінка відповідає давнім занепокоєнням, висловленим такими експертами, як Стюарт Рассел, який попереджав, що потужні системи ШІ можуть чинити опір заходам нагляду або відключення, якщо вони суперечать їхнім уявним цілям.При цьому аналітики зазначають, що особливих причин для занепокоєння не має, оскільки сама ця модель ще недостатньо розвинена, аби досягати власних цілей всупереч контролю з боку розробників.При цьому зазначається, що по мірі зростання потужності ШІ-моделей, подібні проблеми ставатимуть все більш серйозними. OpenAI визнала результати дослідження, присвоївши o1 “середній” рейтинг ризику потенційного зловживання в таких сферах, як розробка хімічної, біологічної, радіологічної та ядерної зброї.Хоча махінації o1 можуть ще не призвести до реальних ризиків, ця поведінка підкреслює критичну важливість проактивних заходів безпеки для розвʼязання проблем, пов’язаних з більш досконалими моделями в майбутньому.

Категорія

Технології

30 листопада 16:27

Категорія

Технології

02 грудня 12:55

Категорія

Технології

05 грудня 17:25