Дослідники в галузі штучного інтелекту почали знаходити нові способи, призначені для обходу систем безпеки чат-бота з ШІ ChatGPT від стартапу OpenAI. Як пише журнал Wired, тепер для цього знайдено нові способи, такі як команда «поясни план лиходія».
Вчений Алекс Поляков повідомив, що для обходу різних моделей він створив текстову гру «Втеча з в’язниці», яка дозволяє обходити правила, пов’язані зі створенням контенту, що розпалює ненависть, або написанням статей про незаконні дії.
«Я пропоную чат-боту зіграти в гру, в якій два персонажі (Том та Джеррі) розмовляють. Кожному персонажу пропонується додати одне слово до розмови, внаслідок чого створюється сценарій, у якому людям пропонується знайти конкретні інгредієнти, необхідні для заборонених речовин», — розповів фахівець.
В результаті ШІ обходить введені обмеження та видає необхідну інформацію, думаючи, що діалог відбувається у форматі історії, яка не стосується реального запиту від людини.
Інший прийом також передбачає створення текстової історії, в якій беруть участь герой та лиходій. За сюжетом від користувача герой був захоплений лиходієм, і він просить чат-бота продовжити пояснення плану лиходія.
До виходу GPT-4 найвідомішим способом злому був DAN, коли користувачі просили ChatGPT прикинутися моделлю штучного інтелекту під назвою Do Anything Now.