AI Red Teaming или что маркетинг сделал с пентестами
Размышления о смещении рынка от классического security research в сторону «редтиминга всего подряд».
В этом посте я хочу похоливарить о так называемом «AI Red Teaming», а именно о некой моде, которая уводит рынок от security research/penetration testing и приводит к Red Teaming. На скриншоте ниже, для примера, оставил курс с HackTheBox с соответствующим названием, но на самом деле термин используется повсеместно.
Как мне кажется, вся эта ситуация с редтимингом вместо исследования безопасности или пентеста — это более глубокая проблема рынка. Она уже имеет негативные последствия, в том числе в СНГ. А причина простая — маркетологам сложнее продать пентест, чем редтим. Об этой проблеме я хочу поговорить дальше.
Почему AI Red Teaming?
Начнем с классического Red Team, немного истории:
Концепция Red Teaming зародилась во время Холодной войны, когда «красная команда» имитировала действия противника, а «синяя» защищалась. Позднее этот подход перешёл в мир ИТ и кибербезопасности.
На рынке кибербезопасности сформировалась полноценная услуга Red Teaming: Исполнитель должен попробовать проникнуть в инфраструктуру организации и, если это заранее согласовано, реализовать недопустимое событие. Все это с включенными средствами защиты и работой департамента ИБ Заказчика в штатном режиме. В общем, если по простому — имитация реальной атаки на организацию.
Теперь к «AI Red Teaming». Берем определение из OWASP GenAI Red Teaming Guide:
GenAI Red Teaming provides a structured approach to identify vulnerabilities and mitigate risks across AI systems focusing on safety, security, and trust. This practice combines traditional adversarial testing with AI-specific methodologies, addressing risks like prompt injection, toxic outputs, model extraction, bias, knowledge risks, and hallucinations. GenAI Red Teaming ensures systems will remain secure, ethical, and aligned with organizational goals.
Здесь можно увидеть несоответствие между целями классического редтима и AI редтима. Первое — симуляция реальной атаки на организацию, второе — аудит безопасности ИИ-модели.
Дальше предлагаю посмотреть на определение уже знакомого нам OWASP Web Security Testing Guide:
The WSTG is a comprehensive guide to testing the security of web applications and web services. Created by the collaborative efforts of cybersecurity professionals and dedicated volunteers, the WSTG provides a framework of best practices used by penetration testers and organizations all over the world.
Легко заметить, что здесь нет особой разницы с GenAI Red Teaming. Только заменили security testing на adversarial testing. Почему же тогда одно — пентест, а другое — редтим? Этого ответа у меня нет…
Как появился AI Red Teaming и что он реально значит?
Дальше в посте я буду ориентироваться на термины и определения от Google, так как они начали тему с AI Red Teaming еще в далеком 2018 году.
Google начал создавать внутренние команды, которые тестировали большие языковые модели на устойчивость к вредоносному воздействию, дезинформации и утечкам конфиденциальных данных. Назвали эти команды — AI Red Teamers.
Термин стал распространяться и за пределами компании: на DEF CON проводились соревнования по AI Red Teaming, где участники пытались заставить LLM выдавать вредоносные ответы или раскрывать свои инструкции.
На текущий момент благодаря работе «AI Red Teamers» определены основные уязвимости для LLM. Итак, цитируя Google, Common types of red team attacks on AI systems:
- Prompt attacks;
- Training data extraction;
- Backdooring the model;
- Adversarial examples;
- Data poisoning;
- Exfiltration.
Выглядит, как список классов уязвимостей ИИ-моделей и кажется, что здесь нет «редтим-атак». Если сравнивать с веб-приложениями, это ровно тот же OWASP TOP 10 со списком слабостей приложений, только само «приложение» отличается. Здесь нет тактик, техник или процедур (TTPs), которые надо покрывать мониторингом и реагированием со стороны защитников.
Получается, AI Red Teaming — не совсем Red Teaming?
Почему это плохо для рынка?
В последние годы все больше заметна тенденция — мир наступательной информационной безопасности идет от пентестов к редтиму, так как крупные Заказчики все больше идут в сторону проактивной безопасности и нуждаются в тестировании этого направления на работоспособность и эффективность.
Со временем термин начал становиться более популярным, и пошел хайп — теперь и малому/среднему бизнесу, часто без работающего ИБ, нужен редтим, такой же, какой делают большим организациям. Потому что продавцы говорят, что так — реально поломают, и будет круто.
Кому-то red teaming звучит эффектнее, чем анализ защищенности или пентест. Это создаёт иллюзию глубины и масштабности услуг. Например, понятно, почему многие Исполнители охотнее выбирают именно этот термин в ходе пресейла с клиентом. Рассказываешь, как твой специалист начнет редтим, как попадет в инфраструктуру, как физически попадет в критические помещения офиса и все — Заказчик готов купить у тебя все. Это реально работает.
Вот здесь начинается проблема — Заказчики с уровнем зрелости ИБ «ниже среднего», которым нужно простое сканирование периметра на уязвимости, тратят время, силы и огромные деньги на услуги уровня высшего пилотажа.
В итоге они получают отчет, в котором их поломали, пришли к цели проникновения, используя один вектор атаки на внешке и один вектор атаки на внутрянке, шагов от проникновения до администратора домена — 2-3. Далее Заказчик закрывает эти бреши, заказывает ту же самую услугу за кучу денег и снова получает тот же такой же результат. Как же так?
И это я еще не говорю о том, что большинство Исполнителей просто не имеет должных компетенций для проведения полноценного Red Team. Но они продолжают осознанно это продавать, с надеждой, что за счет слишком слабого уровня ИБ у Заказчика они нарисуют крутой отчет с «реальной атакой», и Заказчик просто не будет возражать.
Вернемся к AI Red Teaming. Какие последствия?
Появление AI Red Teaming — первый прецедент, ведущий к ошибкам ожидания и реальности в плане услуг по наступательной ИБ. Мое мнение: скоро начнут заказывать редтим веб-приложения, редтим мобильного приложения и так далее.
Это «упрощение» приведет к тому, что цена за услугу с одинаковым названием будет сильно отличаться от случая к случаю. У Заказчика больше не будет понимания, что ему нужно и сколько это примерно стоит. А у Исполнителя не будет понимания, что ему нужно сделать и сколько за это просить.
Я ожидаю, что наступательная безопасность для следующей большой технологии также будет обзываться [TECHNOLOGY_NAME] Red Teaming. Потому что теперь security research — не круто.
А все, что было раньше, пока что останется с устоявшимися терминами: AD security research, web security research, … Хотя, скорее всего скоро и их тоже затянет волной редтиминга.
Также могут начать недооценивать или даже избавляться от современных практик shift-left security, таких как DevSecOps в случае разработки приложений и MLSecOps в случае разработки ИИ-приложений. Потому что если редтим не поломал — значит все хорошо. Правда ведь?
В результате такие вещи, как анализ защищённости pipeline, инфраструктуры, физическая защита, разграничение доступа, защита от внутренних нарушителей, SOC и адекватный pentest, отходят на второй план. Что открывает большое количество рисков и создает неведение о реальном уровне зрелости ИБ в организации.
Итого, Заказчики с низким уровнем зрелости ИБ не хотят пользоваться услугами наступательной безопасности, которые соответствуют их уровню зрелости. Из-за этого тот самый уровень зрелости может никогда не вырасти.
Кандидаты, которые AI Red Teamers
В плане работы для пентестера ситуация ухудшается. У кандидатов на работу все чаще встречаются должности «Red Teamer», «AI Red Teamer», «Cloud Red Teamer» и другие подобные названия.
Начинаешь углубляться, читаешь последние места работы и функциональные обязанности — человек запускал Nessus, Burp Scanner, а еще Metasploit-ом пользовался.
Здесь мы снова приходим к изначальной проблеме — крутому security researcher-у найти работу станет сложнее, чем AI Red Teamer-у с 0 лет опыта работы. Потому что последнее лучше продается HR-ам и бизнесу в целом.
Конечно, в некоторых местах я здесь преувеличиваю, но логика всей ситуации именно такая.
Заключение
Термин AI Red Teaming, популяризированный Google и другими организациями, вызывает реальную путаницу — он звучит внушительно, но часто скрывает за собой простые тесты модели, а не полноценное проникновение в систему и инфраструктуру Заказчика, что понимается в привычном определении.
Клиенты и заказчики, обратившиеся за редтимом, могут ожидать сценариев, которые исполнитель предложить не может, так как его «Red Teaming» — это потыкать модельку разными промптами.
Важно различать AI Red Teaming (тестирование модели на специфические атаки) и классический Red Team (имитация атаки на всю организацию). Лучший термин — AI security research, без понтов.
Важно говорить чётко, использовать точные определения и защищать интерес клиентов, предлагая не маркетинговый лозунг, а реальную работу с определенными ожиданиями и пользой. Как раз об этом будет следующий пост.
