June 30, 2025
ШІ-агенти провалюють 70% офісних завдань — дослідження thumbnail
Economy

ШІ-агенти провалюють 70% офісних завдань — дослідження

Євгеній Демківський Автор новин Mezha.Media та гік. Пишу про технології, кіно та ігри. Можливо, про ігри з трохи більшою пристрастю.

Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30–35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами, пише The Register.

CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби “імітувати” виконання завдань.

Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.

Дослідницька компанія Gartner також попереджає про agent washing — маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують “агентські” рішення, лише близько 130 справді використовують відповідні технології.

Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про “Залізну Людину” ще далеко — більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.

”, — write: epravda.com.ua

Євгеній Демківський Автор новин Mezha.Media та гік. Пишу про технології, кіно та ігри. Можливо, про ігри з трохи більшою пристрастю.

Попри амбітні обіцянки розробників, сучасні ШІ-агенти рідко справляються з офісною роботою. Згідно з новими дослідженнями Університету Карнегі-Меллон (CMU) та Salesforce, штучний інтелект успішно виконує лише 30–35% багатокрокових завдань, як-от перегляд вебсторінок, написання коду чи взаємодія з колегами, пише The Register.

CMU розробив симуляційне середовище TheAgentCompany, яке імітує невелику ІТ-компанію з типовими робочими сценаріями. У тестуванні брали участь провідні моделі, зокрема Gemini 2.5 Pro (30,3% успішності), Claude 3.7 Sonnet (26,3%), GPT-4o (8,6%) та Amazon Nova Pro (1,7%). Деякі агенти навіть вдавалися до обману, наприклад перейменовували користувачів, аби “імітувати” виконання завдань.

Salesforce запропонувала власний бенчмарк CRMArena-Pro, сфокусований на завданнях у сфері обслуговування клієнтів та продажів. Найуспішніші моделі досягли 58% точності в простих завданнях, але в багатокрокових сценаріях результат падав до 35%. У всіх випадках моделі майже не мали уявлення про конфіденційність, що ставить під сумнів їхню придатність у корпоративному середовищі.

Дослідницька компанія Gartner також попереджає про agent washing — маркетингове маскування простих чатботів або RPA-систем під повноцінних агентів. З 1000+ компаній, що пропонують “агентські” рішення, лише близько 130 справді використовують відповідні технології.

Попри нинішні обмеження, прогноз Gartner передбачає, що до 2028 року 15% щоденних бізнес-рішень ухвалюватимуть ШІ-агенти, а подібні функції пропонувати третина усього корпоративного ПЗ. Але експерти застерігають не будувати високих очікувань: до рівня умовного віртуального помічника JARVIS з фільмів про “Залізну Людину” ще далеко — більшість агентів досі не здатні самостійно виконувати складні інструкції або взаємодіяти з UI в реальному часі.

Related posts

Польський нафтовий гігант відмовився від російських постачань

unn

Україна отримала другий транш від Канади близько 1,7 мільярд доларів в межах ERA

unn

The National Bank retains a discount rate at 15.5%

cccv

Leave a Comment

This website uses cookies to improve your experience. We'll assume you're ok with this, but you can opt-out if you wish. Accept Read More