Как пояснили в компании, инструмент использует три наблюдаемых сигнала, которые позволяют надёжно фиксировать наличие бэкдоров при минимальном проценте ложных срабатываний. Специалисты отметили, что данные сигналы основаны на том, как триггерные входные данные измеримо влияют на внутреннее поведение модели, что обеспечивает технически надёжную и практически значимую основу для детектирования, передаёт The Hacker News.
Большие языковые модели могут быть уязвимы для двух типов атак: через веса модели (изучаемые параметры, лежащие в основе логики принятия решений) и через сам код. Особую опасность представляет отравление модели, когда злоумышленник внедряет скрытое поведение непосредственно в её веса на этапе обучения. Это заставляет модель выполнять нежелательные действия при обнаружении определённых триггеров. Подобные модели со скрытыми бэкдорами действуют как «спящие агенты», оставаясь неактивными большую часть времени и проявляя вредоносное поведение только при срабатывании условия.
Таким образом, отравление модели становится скрытой атакой, при которой система ведёт себя нормально в большинстве ситуаций, но выдаёт иной результат при соблюдении узко заданных условий. Исследование Microsoft идентифицировало три практических сигнала, указывающих на отравленную модель: характерный паттерн внимания «двойной треугольник», который заставляет модель фокусироваться исключительно на триггере; резкое снижение «случайности» выходных данных; склонность моделей с бэкдором к утечке своих же отравляющих данных через механизм запоминания, а не через обучающие данные.
Также отмечается, что бэкдор может активироваться множеством «нечётких» триггеров, представляющих собой частичные или приближённые вариации. В Microsoft пояснили, что их подход опирается на два ключевых открытия: «спящие агенты» склонны запоминать отравляющие данные, что делает возможной утечку примеров бэкдоров с помощью методов экстракции памяти, а отравленные LLM демонстрируют характерные паттерны в распределении выходных данных и головах внимания при наличии триггеров в запросе.
Эти индикаторы позволяют проводить массовое сканирование моделей для выявления встроенных бэкдоров. Методология примечательна тем, что не требует дополнительного обучения модели или предварительного знания о поведении бэкдора и работает с распространёнными моделями в стиле GPT.
Ранее «Телеспутник» сообщал, что эксперты по ИБ предупредили о киберугрозах для транспорта в 2026 году.


