Попри те, що штучний інтелект вже здатен перемагати людину в шахах, малювати картини та писати код, прості дитячі задачки з логіки залишаються для нього непереборною стіною. Новий тест ARC-AG2 ще раз довів: аналітичне мислення — ахіллесова п’ята нейромереж, пише T4 з посиланням на УНІАН.
Що таке ARC-AG2?
Це не звичайний IQ-тест. ARC-AG2 (Abstraction and Reasoning Corpus) — набір візуальних задач, де потрібно знайти логічну закономірність між кольоровими блоками й обрати правильне продовження. Завдання виглядають просто, але вимагають абстракції, узагальнення та креативного мислення. Тобто саме того, що людина вчиться робити з раннього віку, а нейромережі — ні.

Навіть найпотужніші моделі не змогли показати гідний результат:
- Deepseek R1 — 1,3% правильних відповідей
- Google Gemini і Claude 3.7 Sonnet — близько 1%
- GPT-4.5 від OpenAI — лише 0,8%
Для порівняння: людина, навіть без спеціальної підготовки, розв’язує ці задачі в рази краще. Це ставить під сумнів здатність сучасних моделей до справжнього “розуміння”, а не просто обробки інформації.
Цей провал показує, що ШІ не вміє вчитися на ходу. Якщо даних немає в його тренувальній базі — він безсилий. Тест побудований так, щоб неможливо було «зазубрити» відповіді. І тут уся «розумність» моделей руйнується.
Попередній тест ARC-AG1 теж довго залишався «нерозв’язним» для нейромереж. Якщо ARC-AG2 повторить його долю, це може сповільнити розвиток AGI — штучного загального інтелекту, здатного мислити як людина. Поки що ШІ — це потужний інструмент, але не мисляча істота.
І поки нейромережі провалюють задачі для школярів, розробникам залишається шукати відповідь на головне запитання: як навчити машину по-справжньому думати?