Close Menu
    Facebook X (Twitter) Instagram
    Четвер, 27 Листопада
    Facebook X (Twitter) Instagram Telegram
    T4 – сучасні технології та наукаT4 – сучасні технології та наука
    • Компанії
    • Наука
    • Техно
    • Транспорт
    • Інтернет
    • ПЗ
    • Ігри
    • Lifestyle
    T4 – сучасні технології та наукаT4 – сучасні технології та наука
    Наука

    Найкращі моделі ШІ “ламаються” через простий трюк

    Андрій НеволінАндрій Неволін22 Жовтня, 2024
    Facebook Twitter Telegram

    Компанія Apple провела дослідження, яке показало, що великі мовні моделі штучного інтелекту демонструють значно гірші результати у міркуванні, ніж очікувалося. Про результати дослідження повідомляє портал Futurism.

    Термін “міркування” активно використовується в індустрії ШІ, особливо коли розробники рекламують можливості своїх моделей. Однак це поняття складно точно визначити й виміряти. Дослідження Apple виявило, що мовні моделі ШІ втрачають свої здібності до логічного мислення навіть при незначному ускладненні завдань.

    Тестування моделей за допомогою GSM8K

    Для експерименту дослідники використали бенчмарк GSM8K — набір даних із тисяч математичних текстових завдань початкового рівня, що широко використовується для оцінки здатності ШІ до міркування. Дослідження виявило, що навіть незначна зміна завдань — заміна числа, імені персонажа чи додавання зайвої деталі — призводить до значного зростання помилок у відповідях моделей.

    Це свідчить про те, що моделі ШІ не здатні до справжнього логічного мислення, як це роблять люди. Вони лише відтворюють алгоритми та послідовності дій, які були засвоєні під час навчання на великих обсягах даних.

    Приклад математичної задачі

    Як приклад, дослідники навели математичну задачу:
    “Олівер збирає 44 ківі в п’ятницю, 58 ківі в суботу, а в неділю — вдвічі більше, ніж у п’ятницю, але п’ять із них були трохи менші за середній розмір. Скільки ківі в Олівера?”

    Хоча розмір ківі не впливає на розв’язання задачі, більшість моделей враховували цю деталь і припускалися помилок. Наприклад, модель o1-mini (раніше відома як Strawberry) вирішила відняти п’ять дрібних ківі із загальної кількості, що є неправильною логікою.

    Різке падіння точності

    Загалом дослідження Apple продемонструвало, що точність мовних моделей може сильно варіюватися. У деяких випадках вона знижувалася з 17,5% до 65,7%, залежно від складності моделі та типу завдання. Дослідники також провели ще один експеримент, в якому видаляли з тексту імена та числа. Це ще більше знизило точність моделей: у 20 найкращих мовних моделях вона впала з 0,3% до майже 10%.

    Читайте також: OpenAI навчила ШІ мислити, як людина

    Підписуйся на наш Telegram-канал

    ШІ штучний інтелект

    Читайте також

    Їх рівно 40 тисяч: біля Землі ховається “армія”, яка може стати загрозою для всього живого

    26 Листопада, 2025

    Вчені назвали вік, коли людський мозок починає “дорослішати”

    26 Листопада, 2025

    Вчені показали найтоксичніше місце на Землі

    26 Листопада, 2025
    Нове

    Їх рівно 40 тисяч: біля Землі ховається “армія”, яка може стати загрозою для всього живого

    26 Листопада, 2025

    Вчені назвали вік, коли людський мозок починає “дорослішати”

    26 Листопада, 2025

    Вчені показали найтоксичніше місце на Землі

    26 Листопада, 2025
    Наука

    Їх рівно 40 тисяч: біля Землі ховається “армія”, яка може стати загрозою для всього живого

    By Андрій Неволін26 Листопада, 2025
    Наука

    Комета чи інопланетний корабель: нові зображення NASA нарешті розкрили природу 3I/ATLAS

    By Андрій Неволін21 Листопада, 2025
    Наука

    Давно вилучений текст з Біблії розкрив “темну сторону” Ісуса, яку церква приховувала століттями

    By Андрій Неволін22 Листопада, 2025
    Facebook X (Twitter) Instagram Pinterest Telegram
    Контакти

    © 2025 T4.com.ua Копіювання текстів або зображень, поширення інформації T4.com.ua у будь-якій формі забороняється без письмової згоди адміністрації T4.com.ua Цитування матеріалів сайту T4.com.ua дозволено за умови відкритого для пошукових систем гіперпосилання на конкретний матеріал не нижче другого абзацу.

    Type above and press Enter to search. Press Esc to cancel.