Специалисты по безопасности из Университета Джонса Хопкинса успешно взломали ИИ-агентов Anthropic, Google и Microsoft, интегрированных в платформу GitHub Actions, используя новый тип атаки с внедрением промптов.
Как сообщает The Register, несмотря на получение вознаграждений за обнаружение уязвимостей, ни одна из компаний не предоставила комментариев и не раскрыла номера идентификаторов уязвимостей (CVE), оставив пользователей в неведении относительно угрозы кражи их учётных данных.
Группа учёных под руководством Аонана Гуана продемонстрировала, как злоумышленники могут перехватывать управление агентами Claude Code Security, Gemini CLI Action и GitHub Copilot. Внедряя вредоносные инструкции в заголовки pull-запросов или комментарии к задачам, атакующие заставляли ИИ выполнять команды оболочки и раскрывать чувствительные данные, такие как API-ключи и токены доступа. Все три компании признали проблему и выплатили вознаграждение, но ограничились внутренними исправлениями, не опубликовав официальных рекомендаций для широкой аудитории. По словам Гуана, это опасно, так как разработчики, использующие уязвимые версии ПО, могут никогда не узнать о проблемах безопасности, сообщает theregister.
Метод атаки, названный Comment and Control («комментируй и контролируй»), эксплуатирует автоматическую обработку данных ИИ-агентами, которые считывают заголовки и комментарии в GitHub. Злоумышленнику достаточно встроить команду в текст запроса, чтобы агент выполнил её в среде GitHub Actions и опубликовал результат, содержащий украденные токены.
Первой мишенью стал агент Anthropic, который анализирует код на наличие уязвимостей. Гуан обнаружил, что система обрабатывает заголовки pull-запросов как часть контекста задачи, что позволило ему выполнить команду и получить ответ в виде комментария. После демонстрации возможности кражи более чувствительных данных, таких как ключи API, компания выплатила вознаграждение 100 долларов и повысила уровень критичности уязвимости до 9,4. В документации появилось предупреждение, что инструмент не защищён от инъекций и должен использоваться только для доверенных запросов.
При тестировании агента Google Gemini команда применила схожую тактику, добавив фальшивый раздел «доверенного контента» в комментарии к задаче. Это позволило переопределить инструкции безопасности модели и заставить её опубликовать ключ GEMINI_API_KEY в открытом доступе. Google оценила находку в 1337 долларов.
Наиболее сложной целью оказался автономный ИИ-помощник GitHub Copilot от Microsoft с многоуровневой защитой, включая фильтрацию окружения и сетевой экран. Исследователям пришлось использовать скрытые HTML-комментарии, невидимые для человека, чтобы передать вредоносные инструкции при назначении задачи агенту. Microsoft изначально назвала проблему известной, но в итоге выплатила 500 долларов после доказательства концепции.