Китайські дослідники вперше довели, що сучасні мовні моделі штучного інтелекту здатні формувати уявлення про об’єкти подібно до того, як це робить людський мозок. Це відкриття може докорінно змінити уявлення про когнітивні здібності ШІ та вплинути на подальший розвиток інтерфейсів і роботизованих систем нового покоління, пише T4.
Автори дослідження — вчені з Академії наук КНР і Південно-Китайського технологічного університету — провели серію експериментів, поєднавши поведінкові тести, комп’ютерне моделювання й нейровізуалізацію. Їхньою метою було з’ясувати, наскільки уявлення про об’єкти в мовних моделях штучного інтелекту співпадають із концептами, які закладає людський мозок.
У дослідженні брали участь два типи ШІ: ChatGPT‑3.5, що працює лише з текстом, та мультимодальна модель Gemini Pro Vision 1.0, яка обробляє як текстові, так і візуальні дані. В обох випадках моделі, так само як і люди, отримували завдання обрати зайвий об’єкт із трьох запропонованих. Таким чином було зібрано 4,7 мільйона суджень щодо подібності між 1 854 реальними об’єктами — від тварин до предметів побуту.
Аналіз результатів показав, що моделі ШІ класифікували об’єкти за 66 різними критеріями. Серед них були як очевидні семантичні категорії — тип їжі чи приналежність до певного середовища, так і менш очікувані параметри: температура, текстура, функціональне призначення (наприклад, для дітей чи дорослих), а також відмінності між морським і наземним середовищем.
Особливо вражаючим стало те, що ШІ демонстрував схожість із людським мисленням саме в семантичному аспекті. Водночас візуальні характеристики, зокрема форма об’єктів, були менш розвиненими в текстових моделях. Однак мультимодальна версія Gemini Pro Vision виявила значно ближчу до людської структуру сприйняття, поєднуючи образ і значення.
Крім того, дослідники знайшли паралелі між активністю окремих зон мозку, відповідальних за сприйняття навколишнього середовища, і тим, як моделі ШІ репрезентують ті самі об’єкти у вигляді векторів. Особливо яскраво це проявилося в активності парагіпокампальної зони мозку, яка відповідає за розпізнавання сцен і просторових образів.
Незважаючи на відмінності, дослідники дійшли висновку, що мовні моделі вже здатні відображати базові принципи людського категоріального мислення. Це відкриває нові горизонти для створення більш «людяних» когнітивних систем — від голосових асистентів до роботів, які зможуть краще розуміти світ так, як його бачить людина.
Читайте також, як ШІ змінить людство упродовж 10 років.