Науковці створили тест, який не може пройти жоден штучний інтелект

Вчені з Epoch AI розробили новий математичний тест FrontierMath, який виявився непосильним для сучасних моделей штучного інтелекту, навіть найпросунутіших. Це ставить під сумнів швидке досягнення технологічної сингулярності, коли ШІ перевершить людський інтелект.

FrontierMath складається з надскладних математичних задач, з якими не впоралися такі потужні моделі, як Claude 3.5 Sonnet, GPT-4o, o1-preview та Gemini 1.5 Pro. Навіть маючи доступ до середовища Python для обчислень, ці моделі розв’язали менше 2% завдань.

Історична подія: Біткоїн перетнув позначку в $90 000: привітальне відео від Binance

У чому унікальність FrontierMath?

Головна відмінність цього тесту полягає в тому, що задачі в ньому абсолютно нові та раніше не публікувалися. Це означає, що нейромережі не могли “підглянути” рішення або навчитися розв’язувати подібні приклади заздалегідь.

Результати тестування

Найкращий результат показала модель Gemini 1.5 Pro, але навіть вона змогла розв’язати лише незначну частину завдань. LLM Grok 2 Beta від Ілона Маска взагалі не впоралася з жодним рівнянням.

Рейтинг нейромереж за проходженням FrontierMath

Як створювався FrontierMath?

Для створення тесту було залучено 60 математиків з різних університетів світу. Задачі охоплюють широкий спектр математичних дисциплін, включаючи теорію чисел та алгебраїчну геометрію. Навіть досвідченим математикам може знадобитися кілька днів, щоб розв’язати одну задачу з FrontierMath.

Що це означає?

Результати тестування FrontierMath свідчать про те, що штучний інтелект, незважаючи на значний прогрес, все ще має обмеження, особливо в галузі складних математичних обчислень, які потребують глибокого аналізу та нестандартного мислення. Це підкреслює важливість подальших досліджень та розробок у сфері ШІ, щоб наблизитися до створення дійсно універсального інтелекту.

Читайте також: В Китаї створили зброю, що нагадує «Зірку смерті»

Підписуйся на наш Telegram-канал

У чому унікальність FrontierMath?

Результати тестування

Як створювався FrontierMath?

Що це означає?

Apple визнала застарілими 16 пристроїв: їх підтримка закінчиться вже цієї осені

Колонка Marshall чи колонка JBL: що буде найкращим для справжніх меломанів?

Абсолютний рекорд продуктивності: AnTuTu назвав найпотужніші Android-смартфони 2026 року

Офіційно: повернувся феномен Ель-Ніньйо, який раніше забрав 50 мільйонів життів

Серія Samsung Galaxy S26 отримує функцію, яку багато інших смартфонів Android мали роками

Всередині 4-метрового алігатора виявили артефакт віком 8 000 років

Офіційно: повернувся феномен Ель-Ніньйо, який раніше забрав 50 мільйонів життів

Одна не на все життя: вчені виявили обставини, за яких може змінитися група крові

Всередині 4-метрового алігатора виявили артефакт віком 8 000 років