У середині травня в Берклі, Каліфорнія, відбувся таємний конклав, на який з’їхалися тридцять найвизначніших математиків світу, включно з гостями з Великої Британії. Метою цієї зустрічі було протистояння людського інтелекту та чат-бота-«міркування», завданням якого було розв’язувати розроблені математиками задачі, щоб перевірити його здібності, розповідає T4.
Після двох днів інтенсивних питань професорського рівня, дослідники були приголомшені, виявивши, що штучний інтелект здатен відповідати на деякі з найскладніших у світі математичних задач. Кен Оно, математик з Університету Вірджинії та керівник цього змагання, зазначив Scientific American: «У мене є колеги, які буквально сказали, що ці моделі наближаються до математичного генія».
Згаданий чат-бот працює на базі o4-mini, моделі великої мови міркування (LLM), розробленої OpenAI для виконання надзвичайно складних висновків. Google також має подібний еквівалент – Gemini 2.5 Flash. Подібно до попередніх версій LLM, що лежали в основі ChatGPT, o4-mini навчається передбачати наступне слово в послідовності. Однак, на відміну від своїх попередників, o4-mini та подібні моделі є легшими та більш спритними, оскільки їх навчають на спеціалізованих наборах даних з посиленим людським підкріпленням. Такий підхід дозволяє чат-боту набагато глибше занурюватися у складні математичні проблеми, ніж це могли робити традиційні LLM.
Щоб відстежити прогрес o4-mini, OpenAI раніше залучила Epoch AI, некомерційну організацію, яка спеціалізується на порівняльному аналізі LLM. Epoch AI створила 300 математичних завдань, розв’язки яких ще не були опубліковані. Хоча навіть традиційні LLM можуть правильно відповідати на багато складних математичних завдань, коли Epoch AI запропонувала ці задачі кільком таким моделям (які відрізнялися від тих, на яких вони навчалися), найуспішніші змогли вирішити менше 2 відсотків, що свідчить про їхню обмежену здатність до міркування. Але o4-mini виявився винятком.
У вересні 2024 року Epoch AI залучила Елліота Глейзера, який нещодавно захистив дисертацію з математики, для участі в новому порівняльному проєкті під назвою FrontierMath. У рамках цього проєкту були зібрані нові завдання різного рівня складності. Перші три рівні охоплювали завдання для студентів, аспірантів та дослідників. До квітня 2025 року Глейзер виявив, що o4-mini може розв’язати близько 20 відсотків цих питань. Потім він перейшов до четвертого рівня: набору питань, які були б складними навіть для досвідченого академічного математика. Лише невелика група людей у світі змогла б розробити такі питання, не кажучи вже про те, щоб їх розв’язати. Математики, які брали участь у цьому етапі, мали підписати угоду про нерозголошення, яка вимагала від них спілкуватися виключно через додаток для обміну повідомленнями Signal. Це обмеження було введено, оскільки інші форми контакту, такі як традиційна електронна пошта, потенційно могли бути проскановані LLM і ненавмисно використані для навчання, тим самим “забруднюючи” набір даних.
Кожна задача, яку o4-mini не міг розв’язати, приносила математику, який її вигадав, винагороду в розмірі 7500 доларів. Група повільно, але впевнено просувалася у пошуку таких питань. Проте Глейзер прагнув пришвидшити процес, тому Epoch AI організувала особисту зустріч у суботу, 17 травня, та неділю, 18 травня. На цій зустрічі 30 учасників були розділені на групи по шість осіб. Протягом двох днів науковці змагалися між собою, щоб придумати задачі, які вони самі могли б розв’язати, але які б “спантеличили” мислячого чат-бота на базі штучного інтелекту. Цей експеримент не тільки продемонстрував вражаючі можливості сучасних LLM у сфері складних математичних міркувань, але й підкреслив швидкий розвиток технологій штучного інтелекту, що кидають виклик традиційним уявленням про інтелектуальні здібності.