Специалисты из израильской лаборатории Offensive AI Lab представили исследование, демонстрирующее возможность восстановления текста из перехваченной переписки с ИИ-ассистентами. Разбираем принципы этой методики и оцениваем ее реальные угрозы.
Какие данные можно получить из зашифрованного обмена с ИИ-чатботами
Хотя сообщения чат-ботов передаются в закодированном виде, особенности работы крупных языковых моделей (LLM) создают уязвимости. Эти нюансы позволяют проводить атаки по косвенным каналам, извлекая данные через анализ сопутствующих параметров.
Ключевой момент – принцип обработки текста LLM. Вместо отдельных букв или целых слов системы оперируют токенами – смысловыми фрагментами. Наглядные примеры этого процесса можно увидеть в токенизаторе на платформе OpenAI.
 
Процесс разбиения сообщений на токены в GPT-3.5 и GPT-4. Источник
Вторая особенность – постепенная отправка ответов, похожая на печатание человека. Однако чат-боты передают не символы, а готовые токены последовательно. Единственное исключение – Google Gemini, который защищен от подобной атаки.
Третий фактор риска – отсутствие дополнительной защиты данных перед шифрованием. Большинство систем не применяют сжатие, кодировку или метод дополнения (padding), повышающий криптоустойчивость.
Эти уязвимости позволяют злоумышленникам определять длину каждого токена в перехваченных сообщениях. Полученная информация напоминает незаполненную кроссвордную сетку, где известна только длина словесных элементов.
Как восстановить исходный текст по данным о токенах
Для расшифровки исследователи задействовали сами ИИ-системы, идеально подходящие для решения подобных задач. Методика использует две языковые модели:
- Первая анализирует типовые вступительные фразы чат-ботов, обученные на шаблонных диалогах;
- Вторая обрабатывает основной текст, подбирая варианты по длине токенов.
 
Визуализация атакующей методики. Источник
Результаты варьируются от относительно точных совпадений:
 
Успешное восстановление смысла сообщения. Источник
До совершенно ошибочных интерпретаций:
 
Неудачная попытка реконструкции. Источник
Среди 15 протестированных ИИ-ассистентов уязвимость обнаружилась у большинства. Исключения – Google Gemini и GitHub Copilot (не следует путать с Microsoft Copilot).
 
Перечень проверенных ИИ-ассистентов и их уязвимость. Источник
Реальная степень угрозы
Атака требует предварительного перехвата истории диалогов. Даже в этом случае успешное восстановление темы беседы происходит лишь в 55% случаев, а полное соответствие текста – только в 29%.
 
Образец удачной реконструкции по критериям исследования. Источник
Критические ограничения методики:
- Низкая точность определения конкретных данных (имен, цифр, дат);
- Сильная зависимость от языка: лучшие результаты для английского (длинные токены), худшие – для русского и иврита (короткие токены);
Разработчики OpenAI и Cloudflare уже внедрили защитное дополнение (padding) в свои системы. Ожидается, что другие компании последуют их примеру, что сделает подобные атаки менее эффективными в будущем.



 
                                     
       
       
       
      