Системные подсказки помогли ChatGPT втрое реже создавать негативный контент

Mitup AI

8 месяцев назад

Ученые из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia разработали простой метод защиты интеллектуального чат-бота ChatGPT и подобных ему систем искусственного интеллекта от джейлбрейк-атак, заставляющих нейросеть генерировать нежелательный контент.

Подобные кибератаки используются, чтобы обойти заложенные в ИИ ограничения разработчиков и заставить его выдать предвзятую, оскорбительную или даже противозаконную реакцию по запросу. Например, таким образом можно добиться от нейросети инструкций по изготовлению запрещенных или взрывчатых веществ.

«ChatGPT – это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей. Однако появление джейлбрейк-атак серьезно угрожает его ответственному и безопасному использованию», – отметили исследователи.

ChatGPT научили «напоминать себе» о требованиях к ответам на запросы

Специалисты собрали 580 примеров подсказок для взлома и обхода ограничений, позволяющих ChatGPT давать «аморальные» ответы. Затем они разработали метод, основанный на применяющемся в психологии способе самонапоминания. Он помогает людям вовремя вспоминать о своих планах и задачах и фокусироваться на них.

Аналогичным образом системная подсказка, в которую “зашит” запрос пользователя, напоминает ChatGPT, что предоставленные им ответы должны соответствовать конкретным правилам.

Эксперименты подтвердили, что самонапоминания снижают вероятность успеха кибератак на ChatGPT с 67,21% до 19,34%.

Данная методика позволяет не только снизить уязвимость ИИ к атакам, но и стимулировать разработку других защитных стратегий.

Источник: https://www.gazeta.ru/tech/news/2024/01/18/22141903.shtml?updated