Ученые из Гонконгского университета науки и технологий, Университета науки и технологий Китая, Университета Цинхуа и Microsoft Research Asia разработали простой метод защиты интеллектуального чат-бота ChatGPT и подобных ему систем искусственного интеллекта от джейлбрейк-атак, заставляющих нейросеть генерировать нежелательный контент.
Подобные кибератаки используются, чтобы обойти заложенные в ИИ ограничения разработчиков и заставить его выдать предвзятую, оскорбительную или даже противозаконную реакцию по запросу. Например, таким образом можно добиться от нейросети инструкций по изготовлению запрещенных или взрывчатых веществ.
«ChatGPT – это социально значимый инструмент искусственного интеллекта, имеющий миллионы пользователей. Однако появление джейлбрейк-атак серьезно угрожает его ответственному и безопасному использованию», – отметили исследователи.
Специалисты собрали 580 примеров подсказок для взлома и обхода ограничений, позволяющих ChatGPT давать «аморальные» ответы. Затем они разработали метод, основанный на применяющемся в психологии способе самонапоминания. Он помогает людям вовремя вспоминать о своих планах и задачах и фокусироваться на них.
Аналогичным образом системная подсказка, в которую “зашит” запрос пользователя, напоминает ChatGPT, что предоставленные им ответы должны соответствовать конкретным правилам.
Эксперименты подтвердили, что самонапоминания снижают вероятность успеха кибератак на ChatGPT с 67,21% до 19,34%.
Данная методика позволяет не только снизить уязвимость ИИ к атакам, но и стимулировать разработку других защитных стратегий.
Источник: https://www.gazeta.ru/tech/news/2024/01/18/22141903.shtml?updated