Найкращі моделі ШІ “ламаються” через простий трюк

Компанія Apple провела дослідження, яке показало, що великі мовні моделі штучного інтелекту демонструють значно гірші результати у міркуванні, ніж очікувалося. Про результати дослідження повідомляє портал Futurism.

Термін “міркування” активно використовується в індустрії ШІ, особливо коли розробники рекламують можливості своїх моделей. Однак це поняття складно точно визначити й виміряти. Дослідження Apple виявило, що мовні моделі ШІ втрачають свої здібності до логічного мислення навіть при незначному ускладненні завдань.

Тестування моделей за допомогою GSM8K

Для експерименту дослідники використали бенчмарк GSM8K — набір даних із тисяч математичних текстових завдань початкового рівня, що широко використовується для оцінки здатності ШІ до міркування. Дослідження виявило, що навіть незначна зміна завдань — заміна числа, імені персонажа чи додавання зайвої деталі — призводить до значного зростання помилок у відповідях моделей.

Це свідчить про те, що моделі ШІ не здатні до справжнього логічного мислення, як це роблять люди. Вони лише відтворюють алгоритми та послідовності дій, які були засвоєні під час навчання на великих обсягах даних.

Приклад математичної задачі

Як приклад, дослідники навели математичну задачу:
“Олівер збирає 44 ківі в п’ятницю, 58 ківі в суботу, а в неділю — вдвічі більше, ніж у п’ятницю, але п’ять із них були трохи менші за середній розмір. Скільки ківі в Олівера?”

Хоча розмір ківі не впливає на розв’язання задачі, більшість моделей враховували цю деталь і припускалися помилок. Наприклад, модель o1-mini (раніше відома як Strawberry) вирішила відняти п’ять дрібних ківі із загальної кількості, що є неправильною логікою.

Різке падіння точності

Загалом дослідження Apple продемонструвало, що точність мовних моделей може сильно варіюватися. У деяких випадках вона знижувалася з 17,5% до 65,7%, залежно від складності моделі та типу завдання. Дослідники також провели ще один експеримент, в якому видаляли з тексту імена та числа. Це ще більше знизило точність моделей: у 20 найкращих мовних моделях вона впала з 0,3% до майже 10%.

Читайте також: OpenAI навчила ШІ мислити, як людина

Підписуйся на наш Telegram-канал

Тестування моделей за допомогою GSM8K

Приклад математичної задачі

Різке падіння точності

Астрономи виявили, що екзопланета LHS 1140b має унікальну атмосферу

Астероїд Апофіс наближається до Землі і його побачать мільярди людей

Фізики розробили унікальну камеру для зйомки частинок у 3D

Астрономи виявили, що екзопланета LHS 1140b має унікальну атмосферу

Sony Xperia 10 VIII пройшов сертифікацію та розкрив реальні зміни

Астероїд Апофіс наближається до Землі і його побачать мільярди людей

Sony Xperia 10 VIII пройшов сертифікацію та розкрив реальні зміни

Одна не на все життя: вчені виявили обставини, за яких може змінитися група крові

Вчені з’ясували, що давньоєгипетські принцеси вміли вправно воювати та стріляти з лука