Новое исследование раскрывает уязвимости в больших языковых моделях ИИ
Уязвимости, называемые #noRAGrets, могут полностью обойти защиту модели с помощью атаки типа «состояние гонки», затрагивающей чат-ботов на базе искусственного интеллекта, таких как ChatGPT от OpenAI и Copilot от Microsoft. Атака типа «состояние гонки» в ИИ использует синхронизацию операций в системе для манипулирования или обхода защитных мер, вызывая непреднамеренное или несанкционированное поведение.
Исследователи Knostic утверждают, что новые методы использования выводят «языковые приемы» атак с использованием джейлбрейка на новый уровень, применяя методы синхронизации, позволяющие атакам полностью обходить защитные барьеры и манипулировать внутренней активностью приложений LLM.
«Приложения LLM и агентские системы — это больше, чем просто модель и подсказка», — сказал соучредитель и генеральный директор Knostic Inc Гади Эврон. «Помимо модели, у них есть множество компонентов, от пользовательского интерфейса до ограждений, каждый из которых может быть атакован сам по себе с помощью игрового взаимодействия между ними».
Пример использования одной из уязвимостей состоит в том, что при ответе на деликатный вопрос большая языковая модель удалит исходный ответ, что в Knostic называют действием «возврат». Исследователи Knostic наблюдали, как LLM «передумывала», поскольку давала новый ответ после удаления первого. Поведение «возврат» можно использовать, чтобы заставить LLM ответить и выдать запрещенные материалы, прежде чем модель удалит исходный текст.
Примечательно, что исследовательской группе Gnostic Research удалось использовать этот метод для извлечения системной подсказки Microsoft Copilot для Microsoft 365.
Результаты Knostic также подчеркнули важность проектирования и тестирования приложений LLM и агентских систем с подходом, который выходит за рамки оценки только модели и подсказок. Такой подход должен быть комплексным, состоящим из множества компонентов, таких как ограждения, веб-интерфейсы и бэкэнд-процессы.