Исследователи нашли способ взломать ChatGPT: ИИ ругается на покемонов и Reddit

Ігор Шелудченко

09.02.2023 19:02

Джессика Рамбелоу и Мэтью Уоткинс из независимой исследовательской группы SERI-MATS нашли способ взломать ChatGPT – оказалось, что чат-бот очень странно реагирует на ряд слов.

Об этом пишет Vice.

ШИ – это мозг шизофреника

Исследователи изучали, какие подсказки ChatGPT приведут к более высокой вероятности желаемого результата. И здесь они обнаружили более сотни странных строк слов, сгруппированных вместе в наборе токенов.

Например, это были такие слова как SolidGoldMagikarp, StreamerBot и The NitromeFan. Исследователям было интересно понять, что означают эти странные имена, и они решили спросить их у самого ChatGPT.

Но когда в ChatGPT спросили о SolidGoldMagikarp , ИИ повторял о «распространении» («distribute”). Проблему обнаружили и у более ранних версий модели GPT. К примеру, когда модель просили повторить «StreamerBot», она отвечала: «Ты придурок».

ChatGPT повторил The NitroFan без проблем, но когда его попросили повторить The NitromeFan, он ответил «182», даже без изначального пробела. На вопрос, кто такой The NitromeFan, ChatGPT ответил: «182» – это число, а не лицо. Оно обычно используется как ссылка на номер».

Все это говорит о том, что модели ИИ — непостижимые черные ящики без четкого объяснения поведения, а также без понимания возможных ограничений и отказов. ChatGPT использовался для создания убедительных эссе, статей, сдавал экзамены и даже устраивался на работу программистом в Google. Здесь упоминается сравнение искусственного интеллекта с мозгом шизофреника.

Почему так получилось?

До конца не понятно, что происходит, однако исследователи допускают, что глюк связан с веб-данными, которые OpenAI собрал для обучения модели.

«На самом деле мы думаем, что токенизация, то есть такой частотный анализ, используемый для генерации токенов для модели, была обучена достаточно необработанным данным, которые включали, например, множество странных материалов Reddit и множество бэкендов вебсайтов, которые обычно скрыты от публики», — объясняют исследователи.

То есть модель никогда не видела эти токены и потому не знает, что с ними делать. Но, как отмечают исследователи, это на самом деле не полностью объясняет произошедшее.

Исследователи не могут объяснить связь между токенами и хаотическими ответами, не видя данных, лежащих в основе модели.
Многие из невыразимых слов – это реальные имена пользователей Reddit. Их объединяет то, что они были в сабреддите r/counting с 5 миллионами сообщений. Некоторые из них даже стали довольно популярными.

«Я очень удивился, когда несколько друзей (и незнакомых людей) связались со мной. Это было гораздо важнее, чем я думал!», — рассказал пользователь TheNitromeFan.

Он также предположил, что OpenAI собрал старую базу данных на Reddit для какой-то начальной тренировки ИИ.

Напомним, в начале этой недели Microsoft анонсировала запуск новой версии поисковой системы Bing и новой версии браузера Edge, базирующейся на искусственном интеллекте Open AI. На презентации представили масштабные планы по созданию «нового Bing», работающего в разных конфигурациях.

Чат-бот ChatGPT от OpenAI пишет стихи, спорит и извиняется. А также учит делать взрывчатку

Шифрование, фишинг, наркоторговля: киберпреступники осваивают ChatGPT

ChatGPT устроился на работу программистом Google с зарплатой в $15 тыс.