Незважаючи на вражаючі успіхи штучного інтелекту в багатьох сферах, від написання коду до створення фотореалістичних зображень та генерації людського мовлення, існують завдання, які більшість людей виконують без зусиль, але які досі залишаються непосильними для найсучасніших ШІ-систем. Нове дослідження виявило ще одну групу таких завдань: читання аналогового годинника та визначення дня тижня для конкретної дати, пише T4.
Дивно, але моделі штучного інтелекту, здатні складати іспити та генерувати переконливий текст, регулярно помиляються при інтерпретації положення стрілок на звичайному циферблаті та не можуть виконати базові арифметичні операції, необхідні для роботи з календарем. Ці неочікувані недоліки були представлені на Міжнародній конференції з навчальних репрезентацій (ICLR) 2025 року, а також опубліковані у вигляді препринту на сервері arXiv.
Провідний автор дослідження, Рохіт Саксена з Единбурзького університету, підкреслює Live Science, що більшість людей опановують навички визначення часу та користування календарем у ранньому віці. Результати їхньої роботи чітко демонструють значну прогалину у здатності штучного інтелекту виконувати ці, здавалося б, елементарні для людини завдання. Усунення цих недоліків є критично важливим для успішної інтеграції систем штучного інтелекту в реальні програми, чутливі до часу, такі як планування, автоматизація та допоміжні технології.
Для дослідження часових можливостей ШІ, науковці розробили спеціальний набір даних із зображеннями годинників та календарів і завантажили його в різні мультимодальні великі мовні моделі (MLLM), здатні обробляти як візуальну, так і текстову інформацію. Серед протестованих моделей були Llama 3.2-Vision від Meta, Claude-3.5 Sonnet від Anthropic, Gemini 2.0 від Google та GPT-4o від OpenAI. Результати виявилися невтішними: моделі не змогли правильно визначити час за зображенням годинника або день тижня для заданої дати більш ніж у половині випадків.
Дослідники пропонують пояснення цієї дивної слабкості штучного інтелекту в читанні часу. Ранні системи ШІ навчалися на основі розмічених прикладів, тоді як зчитування годинника вимагає просторового мислення. Модель повинна ідентифікувати стрілки, що можуть перекриватися, вимірювати кути між ними та орієнтуватися в різноманітних дизайнах циферблатів, включаючи римські цифри або стилізовані позначення. Розпізнати на зображенні “годинник” для ШІ значно легше, ніж фактично визначити, котра година.
Робота з датами виявилася не менш складною для штучного інтелекту. При виконанні завдань на кшталт “Який день буде 153-м днем року?”, рівень помилок був аналогічно високим. Системи ШІ правильно визначали час лише у 38,7% випадків, а дні тижня за календарем – лише у 26,3%. Цей недолік є особливо дивним, оскільки арифметика є фундаментальною основою обчислювальної техніки. Однак, як пояснює Саксена, великі мовні моделі використовують інший підхід. Замість виконання математичних алгоритмів, ШІ прогнозує результати на основі шаблонів, які він виявив у своїх навчальних даних. Тому, хоча ШІ іноді може правильно відповідати на арифметичні питання, його міркування не є послідовними або заснованими на чітких правилах, що і демонструє це дослідження.
Цей проєкт є черговим у зростаючій кількості досліджень, що підкреслюють фундаментальні відмінності між тим, як “розуміють” світ люди та штучний інтелект. Моделі ШІ успішно знаходять відповіді на основі знайомих шаблонів і досягають успіху там, де в їхніх навчальних даних є достатньо релевантних прикладів. Однак вони зазнають невдачі, коли їх просять узагальнити інформацію або використовувати абстрактне мислення. Як влучно зазначає Саксена, завдання, які здаються нам дуже простими, наприклад, читання аналогового годинника, можуть бути надзвичайно складними для ШІ, і навпаки.
Дослідження також висвітлює проблему, з якою стикається ШІ при навчанні на обмежених даних, у цьому випадку – на відносно рідкісних явищах, таких як високосні роки або складні календарні обчислення. Навіть якщо велика мовна модель має безліч текстових прикладів, що пояснюють концепцію високосного року, це не гарантує, що вона зможе встановити необхідні зв’язки для виконання візуального завдання, пов’язаного з календарем.
Результати дослідження підкреслюють необхідність як більш цілеспрямованих прикладів у навчальних даних, так і переосмислення підходів до обробки ШІ поєднання логічного та просторового мислення, особливо в завданнях, з якими він рідко стикається. Перш за все, це дослідження вкотре нагадує про ризики надмірної довіри до результатів, отриманих за допомогою штучного інтелекту. Як підсумовує Саксена, штучний інтелект є потужним інструментом, але коли завдання поєднують сприйняття з точним мисленням, нам все ще потрібне ретельне тестування, резервна логіка та, у багатьох випадках, участь людини в процесі прийняття рішень.
Читайте також: Ідеальна пам’ять з ціною приватності: OpenAI озвучила бачення майбутнього ChatGPT