Команда Microsoft Research презентувала Magma — інтегровану модель штучного інтелекту, яка поєднує обробку зорових і мовних даних для управління програмними інтерфейсами та роботизованими системами.
Головні тези:
Модель ШІ Magma від Microsoft поєднує обробку зорових і мовних даних для управління програмними інтерфейсами та роботизованими системами.Це перша ШІ-модель, яка активно взаємодіє з мультимодальними даними, відкриваючи шлях до створення універсального мультимодального ШІ.Microsoft позиціонує модель Magma як крок до створення агентного ШІ, здатного розробляти плани й виконувати завдання на рівні людини.
Magma є першою ШІ-моделлю, яка активно взаємодіє з мультимодальними данимиЯкщо результати тестів підтвердяться поза межами Microsoft, це може стати важливим кроком до створення універсального мультимодального ШІ, здатного працювати як у реальному, так і в цифровому просторі.
Microsoft заявляє, що Magma є першою ШІ-моделлю, яка не лише обробляє мультимодальні дані (текст, зображення, відео), але й здатна активно взаємодіяти з ними: здійснювати навігацію в інтерфейсах або маніпулювати фізичними об’єктами.
Проєкт розроблений у співпраці між дослідниками Microsoft, KAIST, Університетом Меріленда, Університетом Вісконсіна-Медісон та Університетом Вашингтона.Magma вирізняється від багатьох попередніх мультимодальних систем тим, що об’єднує можливості сприйняття та керування в одну модель. Раніше для кожної з цих функцій використовувалися окремі моделі, але Magma пропонує інтегрований підхід. Microsoft позиціонує цю модель як крок до створення агентного ШІ — системи, яка не лише взаємодіє з навколишнім середовищем, але й здатна самостійно розробляти плани й виконувати багатокрокові завдання, виконуючи певні функції замість людини.Можливості Mаgma Модель Magma використовує два важливі компоненти: Set-of-Mark, що дозволяє ідентифікувати об’єкти, з якими можна взаємодіяти в середовищі, та Trace-of-Mark, що вивчає шаблони руху з відео. Завдяки цим інноваціям Magma може виконувати завдання, такі як навігація інтерфейсами або керування роботизованими руками для виконання фізичних маніпуляцій. Це робить модель справжнім мультимодальним агентом, а не просто системою сприйняття, як попередні версії.
Категорія
Економіка
13 лютого 08:16
Категорія
Технології
18 лютого 13:05
Категорія
Технології
18 лютого 18:25