У межах масштабного дослідження Microsoft Research та Salesforce стало відомо, що популярні чат-боти ШІ стають “тупішими” після тривалого спілкування з людьми. Що важливо розуміти, сумарний рівень помилок чат-ботів може зрости більш ніж на 100% при аналізі понад 200 тисяч розмов.
Головні тези:
Жодна з моделей ШІ поки не готова до тривалого природнього людського спілкування.Не варто сприймати ШІ як на джерело точної і критично важливої інформації.
Взаємодія ШІ та людей призвела до неочікуваних наслідківПросто зараз великі мовні моделі знаходяться на піку своєї популярності — їхніми послугами користуються сотні мільйонів людей у різних куточках світу.Проте користувачі дедалі частіше стикаються з «галюцинаціями» та хибними відповідями під час спілкування з чат-ботами.Завдяки дослідженню Microsoft та Salesforce врешті вдалося дізнатися, що насправді відбувається з популярними ШІ, пише windowscentral.Як виявилося, навіть топові нейромережі нерідко «губляться» під час бесіди, коли завдання розбивається на природний людський діалог з декількох реплік.Фахівці вирішили проаналізувати понад 200 000 таких діалогів за участю GPT-4.1, Gemini 2.5 Pro, Claude 3.7 Sonnet та DeepSeek R1. Так, стало відомо, що в межах роботи з одиничними запитами згадані моделі демонструють понад 90% успішних відповідей.Однак під час тривалих бесід з уточненнями і додатковими питаннями показник падає до 65%.
Різке погіршення якості в довгих бесідах не означає, що моделі «тупішають» в буквальному сенсі — скоріше, це вказує на їх обмеженість в утриманні й правильній інтерпретації великого обсягу інформації в ході діалогу.
Категорія
Технології
23 грудня 2024
Категорія
Технології
08 травня 2025
