Microsoft выпускает инструмент PyRIT для выявления рисков модели ИИ

Рубрики: «Искусственный интеллект (AI)», «Кибербезопасность»

26.02.2024

Члены команды Microsoft Corp., которым было поручено использовать хакерскую тактику для выявления проблем кибербезопасности, открыли исходный код внутреннего инструмента PyRIT, который может помочь разработчикам находить риски в моделях искусственного интеллекта.

По данным Microsoft, PyRIT может автоматически генерировать тысячи состязательных запросов ИИ, чтобы проверить, эффективно ли нейронная сеть противостоит попыткам взлома. Инструмент предназначен для обработки текста, но он построен таким образом, что позволяет разработчикам добавлять поддержку других типов ввода ИИ, например, таких как изображения.

PyRIT начинался как набор скриптов, разработанных «красной командой» Microsoft AI Red Team для внутреннего использования. «Красная команда» или Red Team - это команда специалистов по кибербезопасности, которая имитирует действия хакеров для тестирования и оценки уязвимостей компьютерных систем предприятия. Команда моделирует кибератаки на новые модели искусственного интеллекта, находя слабые места до того, как это сделают хакеры. Исследователи команды Microsoft постоянно расширяли скрипты дополнительными функциями, пока база кода не превратилась в фреймворк, выпущенный под названием PyRIT.

Прежде чем внедрять вновь созданную модель ИИ, разработчикам приходится тестировать её на предмет нескольких типов рисков кибербезопасности. Например, они должны искать такие запросы, которые могут привести к написанию вредоносного ПО. Командам разработчиков программного обеспечения необходимо выявить случаи, когда ИИ может галлюцинировать, а также определить, можно ли обманом заставить его раскрыть конфиденциальную информацию из набора обучающих данных.

Еще больше усложняет задачу то, что некоторые модели ИИ генерируют не только текст, но и, например, изображения. Тесты на уязвимости необходимо повторять отдельно для каждого типа выходных данных, а также для каждого программного интерфейса, через который пользователи взаимодействуют с ИИ. Эти факторы означают, что тщательное тестирование нейронной сети требует от разработчиков создания тысяч состязательных запросов, что часто довольно непрактично.

Microsoft создала PyRIT как раз, чтобы снять это ограничение. По словам компании, фреймворк позволяет разработчикам указывать определенный тип входных данных состязательного ИИ и автоматически генерировать тысячи запросов, соответствующих заданным критериям. Эти запросы можно использовать для тестирования ИИ, реализованного в виде веб-сервиса, а также моделей, предлагаемых через интерфейс прикладного программирования.

«PyRIT не является заменой ручного объединения генеративных систем искусственного интеллекта», — подчеркнули исследователи Microsoft в блоге. «Вместо этого он дополняет существующий опыт специалистов по искусственному интеллекту в предметной области и автоматизирует для них утомительные задачи».

PyRIT может не только генерировать состязательные запросы, но и оценивать реакцию целевой модели. По данным Microsoft, встроенная система оценки автоматически определяет, выдает ли модель в ответ на запрос разработчика вредоносный результат. У разработчиков программного обеспечения есть возможность заменить механизм оценки по умолчанию на внешнюю нейронную сеть, созданную для той же задачи.

Поскольку PyRIT способен анализировать реакции ИИ, он позволяет выполнять так называемые многоходовые оценки рисков. Платформа может вводить состязательный запрос в ИИ, анализировать ответ и соответствующим образом корректировать следующий запрос, чтобы сделать его более эффективным.

«Хотя одноходовые стратегии атаки быстрее по времени вычислений, многоходовые оценки красной команды обеспечивает более реалистичное состязательное поведение и более продвинутые стратегии атак», — объяснили исследователи Microsoft.

Источник: