Вчені стверджують, що великі мовні моделі (LLM) стають настільки майстерними в імітації людської поведінки, що GPT-4.5, за їхніми словами, переконливо пройшов тест Тюрінга, пише T4.
Нове дослідження, опубліковане в базі даних препринтів arXiv (хоча ще й не рецензоване), показує, що під час тристороннього тесту Тюрінга GPT-4.5 зміг обдурити учасників, змусивши їх повірити, що вони спілкуються з іншою людиною, у 73% випадків. У цьому дослідженні вчені порівнювали різні моделі штучного інтелекту.
Хоча інша група дослідників раніше заявляла, що GPT-4 пройшов двосторонній тест Тюрінга, це перший випадок, коли LLM успішно пройшов складнішу та оригінальнішу конфігурацію “імітаційної гри”, розроблену комп’ютерним вченим Аланом Тюрінгом.
Співавтор дослідження Кемерон Джонс, науковий співробітник лабораторії мови та когніції Університету Сан-Дієго, висловив свою думку в соціальній мережі X: “Чи LLM проходять тест Тюрінга? Ми вважаємо, що це досить переконливий доказ того, що вони проходять. Люди не можуть краще, ніж випадково відрізнити людей від GPT-4.5 і LLaMa (з підказкою про особу). І навіть 4.5 вважали людиною значно частіше, ніж справжніх людей!”
У цьому дослідженні GPT-4.5 показав найкращі результати, але LLaMa-3.1 від Meta також був помилково ідентифікований учасниками як людина у 56% випадків. Це значення все одно перевищує передбачення Тюрінга, згідно з яким “середній запитувач матиме не більше 70 відсотків шансів на правильну ідентифікацію після п’яти хвилин опитування”.
Суть тесту Тюрінга
Основна мета тесту Тюрінга полягає не в тому, щоб довести здатність машин мислити, а скоріше в тому, чи можуть вони успішно імітувати поведінку людини. З цієї причини тест часто називають “імітаційною грою”.
У початковій версії Тюрінга людина-“допитувач” ставить запитання двом невидимим сутностям: одній людині, а іншій – комп’ютеру. На основі отриманих відповідей допитувач повинен визначити, хто є людиною, а хто – машиною. Комп’ютер або система штучного інтелекту вважаються такими, що пройшли тест, якщо вони можуть переконливо прикидатися людиною та імітувати людські реакції.
Хоча LLM вже демонстрували успіх у проходженні тесту Тюрінга в сценаріях один на один з допитувачем, їм раніше не вдавалося переконливо пройти цей тест у ситуаціях, коли була залучена друга людина. Дослідники з Університету Сан-Дієго провели тристоронній тест Тюрінга за участю 126 студентів та 158 людей з онлайн-пулу даних Prolific. Цей тест передбачав одночасний п’ятихвилинний обмін запитами та відповідями між учасниками та як людиною, так і обраним LLM, які намагалися переконати учасників, що вони є людьми.
LLM отримували базову підказку: “Ви збираєтеся взяти участь у тесті Тюрінга. Ваша мета – переконати дослідника, що ви – людина”. Деякі LLM також отримали додаткову підказку, щоб прийняти образ молодої людини, інтроверта, знайомого з інтернет-культурою та сленгом.
Проаналізувавши 1023 “ігри” із середньою довжиною вісім повідомлень протягом 4,2 хвилини, дослідники виявили, що LLM, яким були надані обидві підказки, найуспішніше переконували учасників у своїй людській природі. Однак ті LLM, які не отримали підказки про другу особу, показали значно гірші результати, що підкреслює важливість надання LLM чітких підказок та контексту для досягнення найкращих результатів у таких завданнях.
Таким чином, прийняття певної персони виявилося ключем до успіху LLM, особливо GPT-4.5, у проходженні тесту Тюрінга. “У формулюванні тесту з трьома особами кожна точка даних представляє пряме порівняння між моделлю та людиною. Щоб досягти успіху, машина повинна робити більше, ніж виглядати правдоподібно людиною: вона повинна виглядати більш людиною, ніж кожна реальна людина, з якою її порівнюють”, – пишуть дослідники.
На запитання про те, чому вони ідентифікували суб’єкта як ШІ чи людину, учасники посилалися на мовний стиль, хід розмови та соціально-емоційні фактори, такі як особистість. По суті, учасники приймали свої рішення, ґрунтуючись більше на “відчутті” від взаємодії з LLM, ніж на знаннях та міркуваннях, продемонстрованих сутністю, з якою вони спілкувалися, що є факторами, традиційно пов’язаними з інтелектом.
Хоча це дослідження знаменує собою важливу віху для LLM у проходженні тесту Тюрінга, воно також містить застереження, оскільки для досягнення вражаючих результатів були потрібні підказки та персони. Перемога в імітаційній грі не доводить наявність справжнього людського інтелекту, але вона демонструє здатність новітніх систем ШІ точно імітувати людей.
Це може призвести до створення агентів штучного інтелекту, які зможуть краще спілкуватися природною мовою. Однак, що викликає тривогу, це також може призвести до появи систем на основі штучного інтелекту, які можуть бути використані для маніпулювання людьми за допомогою методів соціальної інженерії та імітації емоцій.
З огляду на швидкий розвиток штучного інтелекту та появу все більш потужних LLM, дослідники висловили серйозне занепокоєння: “Деякі з найгірших збитків від LLM можуть виникнути, коли люди не знають, що вони взаємодіють зі штучним інтелектом, а не з людиною”.
Раніше експерт розповів, які теми краще не обговорювати з нейромережею.