Науковці створили тест, який не може пройти жоден штучний інтелект

Вчені з Epoch AI розробили новий математичний тест FrontierMath, який виявився непосильним для сучасних моделей штучного інтелекту, навіть найпросунутіших. Це ставить під сумнів швидке досягнення технологічної сингулярності, коли ШІ перевершить людський інтелект.

FrontierMath складається з надскладних математичних задач, з якими не впоралися такі потужні моделі, як Claude 3.5 Sonnet, GPT-4o, o1-preview та Gemini 1.5 Pro. Навіть маючи доступ до середовища Python для обчислень, ці моделі розв’язали менше 2% завдань.

Історична подія: Біткоїн перетнув позначку в $90 000: привітальне відео від Binance

У чому унікальність FrontierMath?

Головна відмінність цього тесту полягає в тому, що задачі в ньому абсолютно нові та раніше не публікувалися. Це означає, що нейромережі не могли “підглянути” рішення або навчитися розв’язувати подібні приклади заздалегідь.

Результати тестування

Найкращий результат показала модель Gemini 1.5 Pro, але навіть вона змогла розв’язати лише незначну частину завдань. LLM Grok 2 Beta від Ілона Маска взагалі не впоралася з жодним рівнянням.

Рейтинг нейромереж за проходженням FrontierMath

Як створювався FrontierMath?

Для створення тесту було залучено 60 математиків з різних університетів світу. Задачі охоплюють широкий спектр математичних дисциплін, включаючи теорію чисел та алгебраїчну геометрію. Навіть досвідченим математикам може знадобитися кілька днів, щоб розв’язати одну задачу з FrontierMath.

Що це означає?

Результати тестування FrontierMath свідчать про те, що штучний інтелект, незважаючи на значний прогрес, все ще має обмеження, особливо в галузі складних математичних обчислень, які потребують глибокого аналізу та нестандартного мислення. Це підкреслює важливість подальших досліджень та розробок у сфері ШІ, щоб наблизитися до створення дійсно універсального інтелекту.

Читайте також: В Китаї створили зброю, що нагадує «Зірку смерті»

Підписуйся на наш Telegram-канал

У чому унікальність FrontierMath?

Результати тестування

Як створювався FrontierMath?

Що це означає?

UGREEN FineTrack: три трекери Apple Find My — який підійде саме вам

UGREEN Revodok 12-in-1: один USB-C — і три монітори, гігабітна мережа, зарядка ноутбука і SD-карта одночасно

Blackview ROCK 5: захищений флагман із ліхтарем 348 лм, Hi-Fi-динаміком 5 Вт та акумулятором 20 000 мА·год

Вчені знайшли найдешевший в історії спосіб долетіти до Місяця

Зріст 3,6 метра і вага 230 кг: вчені знайшли спосіб повернути до життя гігантського птаха

UGREEN FineTrack: три трекери Apple Find My — який підійде саме вам

Вчені показали єдину річку на Землі, яка буквально кишить дорогоцінним камінням

Вчені показали, як виглядають ідеальні чоловіче та жіноче тіла згідно з наукою

Новий «король» океанів: вчені виявили хижака, вдвічі більшого за білу акулу