Науковці створили тест, який не може пройти жоден штучний інтелект

Вчені з Epoch AI розробили новий математичний тест FrontierMath, який виявився непосильним для сучасних моделей штучного інтелекту, навіть найпросунутіших. Це ставить під сумнів швидке досягнення технологічної сингулярності, коли ШІ перевершить людський інтелект.

FrontierMath складається з надскладних математичних задач, з якими не впоралися такі потужні моделі, як Claude 3.5 Sonnet, GPT-4o, o1-preview та Gemini 1.5 Pro. Навіть маючи доступ до середовища Python для обчислень, ці моделі розв’язали менше 2% завдань.

Історична подія: Біткоїн перетнув позначку в $90 000: привітальне відео від Binance

У чому унікальність FrontierMath?

Головна відмінність цього тесту полягає в тому, що задачі в ньому абсолютно нові та раніше не публікувалися. Це означає, що нейромережі не могли “підглянути” рішення або навчитися розв’язувати подібні приклади заздалегідь.

Результати тестування

Найкращий результат показала модель Gemini 1.5 Pro, але навіть вона змогла розв’язати лише незначну частину завдань. LLM Grok 2 Beta від Ілона Маска взагалі не впоралася з жодним рівнянням.

Рейтинг нейромереж за проходженням FrontierMath

Як створювався FrontierMath?

Для створення тесту було залучено 60 математиків з різних університетів світу. Задачі охоплюють широкий спектр математичних дисциплін, включаючи теорію чисел та алгебраїчну геометрію. Навіть досвідченим математикам може знадобитися кілька днів, щоб розв’язати одну задачу з FrontierMath.

Що це означає?

Результати тестування FrontierMath свідчать про те, що штучний інтелект, незважаючи на значний прогрес, все ще має обмеження, особливо в галузі складних математичних обчислень, які потребують глибокого аналізу та нестандартного мислення. Це підкреслює важливість подальших досліджень та розробок у сфері ШІ, щоб наблизитися до створення дійсно універсального інтелекту.

Читайте також: В Китаї створили зброю, що нагадує «Зірку смерті»

У чому унікальність FrontierMath?

Результати тестування

Як створювався FrontierMath?

Що це означає?

Samsung назвала пристрої, які отримають Android 16 до кінця 2025 року

Названі 10 смартфонів, що найбільше продаються у світі

Огляд бездротових накладних навушників UGREEN Studio Pro: коли якість — це не компроміс