Штучний інтелект не може розв’язати головоломку, яка займає у людей лише секунди

У сфері штучного інтелекту, попри значні досягнення у виконанні складних завдань, існує парадокс: моделі ШІ здатні перемагати гросмейстерів у шахи та Го, але часто зазнають поразки в простих логічних іграх, які люди розв’язують за лічені секунди. Це підкреслює ключову різницю між «гострим» інтелектом, який демонструють сучасні моделі, і загальним штучним інтелектом (ЗШІ) — здатністю до узагальнення та навчання на основі мінімальних даних. Це узагальнення, що є основою людського навчання, досі залишається серйозним викликом для ШІ, пише T4.

Для оцінки цієї здатності було розроблено спеціальний тест — Корпус абстракції та міркування (ARC), створений дослідником ШІ Франсуа Шолле у 2019 році. Цей тест, який став галузевим еталоном, складається з невеликих головоломок із кольоровими сітками. Завдання полягає в тому, щоб виявити приховане правило і застосувати його до нової сітки. За словами президента Фонду премії ARC Грега Камрадта, тест вимірює здатність моделі вчитися у вузькій галузі, але не є критерієм ЗШІ. Камрадт визначає ЗШІ як здатність штучної системи зрівнятися з ефективністю навчання людини, коли вона може виконувати завдання, не спираючись на попередньо завантажені навчальні дані. Допоки існують проблеми, які люди можуть вирішити, а ШІ — ні, ЗШІ ще не досягнуто.

На відміну від інших тестів, які часто є надто складними навіть для людини, ARC-AGI-2 був розроблений так, щоб пересічна людина могла його пройти. Наприклад, під час тестування, 400 людей показали середній результат у 66%, а сукупні відповіді кількох людей містили всі правильні рішення. Проте для сучасних моделей ШІ, навіть найдосконаліших, ці завдання залишаються вкрай важкими. Ця складність пояснюється тим, що люди є неймовірно ефективними у вибірці з навчання — вони можуть опанувати міні-навичку лише на одному-двох прикладах. Алгоритм, який працює в людському мозку, на порядки ефективніший за те, що ми бачимо у ШІ сьогодні.

З огляду на ці виклики, Фонд премії ARC запускає нове покоління тестів — ARC-AGI-3, який повністю відходить від формату сіток. Новий тест базується на інтерактивних відеоіграх, що дозволяють оцінити не лише міркування, а й планування, дослідження та інтуїтивне розуміння нового середовища. Кожна з 100 нових двовимірних піксельних головоломок, які використовують у тесті, розроблена, щоб навчити гравця (людину чи ШІ) певній міні-навичці. На відміну від традиційних ігрових бенчмарків, які дозволяють ШІ використовувати мільярди симуляцій, цей тест створює абсолютно нові умови. За результатами внутрішнього тестування, жоден з існуючих ШІ не зміг подолати навіть перший рівень. Це підтверджує, що, попри вражаючі досягнення, сучасний штучний інтелект все ще далекий від людської гнучкості та здатності до справжнього узагальнення.

Читайте також: Може знищити все живе на планеті: вчені закликають заборонити технологію, якої ще не існує

Кінець епохи дорогих ноутбуків: Apple випустила MacBook Neo зі штучним інтелектом

Вдвічі більше пам’яті та кнопка Action: Apple офіційно представила найвигідніший iPhone 17e

Штучний інтелект отримав доступ до ядерної зброї