June 30, 2025
ШІ-агенти провалюють 70% офісних завдань — дослідження thumbnail
Economy

ШІ-агенти провалюють 70% офісних завдань — дослідження

Євгеній Демківський Автор новин Mezha.Media та гік. Пишу про технології, кіно та ігри. Можливо, про ігри з трохи більшою пристрастю.

Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30–35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами, пише The Register.

CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби “імітувати” виконання завдань.

Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.

Дослідницька компанія Gartner також попереджає про agent washing — маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують “агентські” рішення, лише близько 130 справді використовують відповідні технології.

Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про “Залізну Людину” ще далеко — більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.

”, — write: epravda.com.ua

Євгеній Демківський Автор новин Mezha.Media та гік. Пишу про технології, кіно та ігри. Можливо, про ігри з трохи більшою пристрастю.

Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30–35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами, пише The Register.

CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби “імітувати” виконання завдань.

Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.

Дослідницька компанія Gartner також попереджає про agent washing — маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують “агентські” рішення, лише близько 130 справді використовують відповідні технології.

Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про “Залізну Людину” ще далеко — більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.

Related posts

РФ хоче, щоб Китай збудував інфраструктуру у тимчасово окупованому Криму

unn

Як втрачаються податки від споживання тютюнових та нікотиновмісних виробів

unn

The Ministry of Finance reports signing an agreement with Japan of the next tranche within the G7 mechanism

cccv

Leave a Comment

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More