Компанія Apple провела дослідження, яке показало, що великі мовні моделі штучного інтелекту демонструють значно гірші результати у міркуванні, ніж очікувалося. Про результати дослідження повідомляє портал Futurism.
Термін “міркування” активно використовується в індустрії ШІ, особливо коли розробники рекламують можливості своїх моделей. Однак це поняття складно точно визначити й виміряти. Дослідження Apple виявило, що мовні моделі ШІ втрачають свої здібності до логічного мислення навіть при незначному ускладненні завдань.
Тестування моделей за допомогою GSM8K
Для експерименту дослідники використали бенчмарк GSM8K — набір даних із тисяч математичних текстових завдань початкового рівня, що широко використовується для оцінки здатності ШІ до міркування. Дослідження виявило, що навіть незначна зміна завдань — заміна числа, імені персонажа чи додавання зайвої деталі — призводить до значного зростання помилок у відповідях моделей.
Це свідчить про те, що моделі ШІ не здатні до справжнього логічного мислення, як це роблять люди. Вони лише відтворюють алгоритми та послідовності дій, які були засвоєні під час навчання на великих обсягах даних.
Приклад математичної задачі
Як приклад, дослідники навели математичну задачу:
“Олівер збирає 44 ківі в п’ятницю, 58 ківі в суботу, а в неділю — вдвічі більше, ніж у п’ятницю, але п’ять із них були трохи менші за середній розмір. Скільки ківі в Олівера?”
Хоча розмір ківі не впливає на розв’язання задачі, більшість моделей враховували цю деталь і припускалися помилок. Наприклад, модель o1-mini (раніше відома як Strawberry) вирішила відняти п’ять дрібних ківі із загальної кількості, що є неправильною логікою.
Різке падіння точності
Загалом дослідження Apple продемонструвало, що точність мовних моделей може сильно варіюватися. У деяких випадках вона знижувалася з 17,5% до 65,7%, залежно від складності моделі та типу завдання. Дослідники також провели ще один експеримент, в якому видаляли з тексту імена та числа. Це ще більше знизило точність моделей: у 20 найкращих мовних моделях вона впала з 0,3% до майже 10%.
Читайте також: OpenAI навчила ШІ мислити, як людина