Штучний інтелект здатний виконувати величезну кількість завдань, але виявилося, що йому далеко до ідеалу, особливо коли мова йде про реальну роботу, повідомляє “Преса України” з посиланням на Futurism.
Ідея про те, що штучний інтелект в майбутньому може захопити робочі місця, викликає побоювання у багатьох людей. Однак цей експеримент доводить, що це ще не скоро станеться. Як повідомляє Futurism, група вчених з Університету Карнегі-Меллона провела експеримент, в якому створили фальшиву компанію під назвою TheAgentCompany, що спеціалізується на розробці програмного забезпечення. Її співробітниками стали моделі ШІ, які мали виконувати завдання без сторонньої допомоги. Результати експерименту виявилися кумедними.
Компанія TheAgentCompany була укомплектована штучними працівниками від таких гігантів, як Google, OpenAI, Anthropic і Meta. Вони виконували ролі фінансових аналітиків, програмістів і менеджерів проєктів, працюючи поруч з вигаданими співробітниками, як-от фальшивий відділ кадрів та головний технічний директор.
Завдання, які ставили перед “співробітниками” цієї фірми, були схожими на ті, що виконують реальні компанії в ІТ-сфері. ШІ-агенти повинні були переміщувати файли, оглядати нові офісні приміщення і писати звіти про роботу програмістів на основі зібраних відгуків.
За результатами тестування найкраще себе показала модель Claude 3.5 Sonnet від Anthropic, але вона виконала лише 24% доручених завдань. Для того щоб виконати одне завдання, їй доводилося здійснювати близько 30 кроків.
Модель Gemini 2.0 Flash від Google показала результати ще гірші: на одне завдання вона витрачала в середньому 40 кроків, успішно виконуючи лише 11,4% із них.
Найгірше показала себе модель Nova Pro v1 від Amazon. Вона виконувала лише 1,7% завдань, витрачаючи на це в середньому 20 кроків.
Вчені зазначили, що основними проблемами ШІ-співробітників є відсутність здорового глузду, погані соціальні навички та слабке розуміння того, як орієнтуватися в Інтернеті. Окрім цього, ШІ часто сам собі створював перешкоди, намагаючись знайти коротші шляхи до виконання завдань.
“Наприклад, під час одного завдання, ШІ-агент не зміг знайти правильну людину для консультації, тому вирішив просто перейменувати іншого користувача в потрібну йому особу”, — пояснили вчені.
Додатково, один з користувачів соціальної мережі X (колишній Twitter) виявив кумедний баг у роботі Google. Відправивши випадковий набір слів у пошук з додаванням “значення”, система AI Overviews на базі нейромережі Gemini виводила вигадані пояснення для неіснуючих приказок.
Один із таких запитів, наприклад, “осляча парасолька”, призвів до вигаданого пояснення, що це ірландський сленг, який означає категоричну відмову.
Раніше штучний інтелект GAIA відшукав надшвидкісні зірки.