Новости IT — сообщетсво digital-рынка Украины

Microsoft представив інтегровану модель ШІ Magma — чим вона унікальна

Фев 23, 2025

—

от автора

Команда Microsoft Research презентувала Magma — інтегровану модель штучного інтелекту, яка поєднує обробку зорових і мовних даних для управління програмними інтерфейсами та роботизованими системами.

Головні тези:
Модель ШІ Magma від Microsoft поєднує обробку зорових і мовних даних для управління програмними інтерфейсами та роботизованими системами.Це перша ШІ-модель, яка активно взаємодіє з мультимодальними даними, відкриваючи шлях до створення універсального мультимодального ШІ.Microsoft позиціонує модель Magma як крок до створення агентного ШІ, здатного розробляти плани й виконувати завдання на рівні людини.

Magma є першою ШІ-моделлю, яка активно взаємодіє з мультимодальними данимиЯкщо результати тестів підтвердяться поза межами Microsoft, це може стати важливим кроком до створення універсального мультимодального ШІ, здатного працювати як у реальному, так і в цифровому просторі.

Microsoft заявляє, що Magma є першою ШІ-моделлю, яка не лише обробляє мультимодальні дані (текст, зображення, відео), але й здатна активно взаємодіяти з ними: здійснювати навігацію в інтерфейсах або маніпулювати фізичними об’єктами.

Проєкт розроблений у співпраці між дослідниками Microsoft, KAIST, Університетом Меріленда, Університетом Вісконсіна-Медісон та Університетом Вашингтона.Magma вирізняється від багатьох попередніх мультимодальних систем тим, що об’єднує можливості сприйняття та керування в одну модель. Раніше для кожної з цих функцій використовувалися окремі моделі, але Magma пропонує інтегрований підхід. Microsoft позиціонує цю модель як крок до створення агентного ШІ — системи, яка не лише взаємодіє з навколишнім середовищем, але й здатна самостійно розробляти плани й виконувати багатокрокові завдання, виконуючи певні функції замість людини.Можливості Mаgma Модель Magma використовує два важливі компоненти: Set-of-Mark, що дозволяє ідентифікувати об’єкти, з якими можна взаємодіяти в середовищі, та Trace-of-Mark, що вивчає шаблони руху з відео. Завдяки цим інноваціям Magma може виконувати завдання, такі як навігація інтерфейсами або керування роботизованими руками для виконання фізичних маніпуляцій. Це робить модель справжнім мультимодальним агентом, а не просто системою сприйняття, як попередні версії.

Категорія

Економіка

13 лютого 08:16

Категорія

Технології

18 лютого 13:05

Категорія

Технології

18 лютого 18:25