SkyDNS завершил модернизацию ML-платформы для проактивной DNS-безопасности

24.12.2025
Как SkyDNS перестроил ML-инфраструктуру: о переходе на Kubernetes, защите от zero-day и адаптации под рост количества данных

Компания SkyDNS сообщила о завершении масштабного обновления инфраструктуры машинного обучения, используемой для анализа доменов и URL. Проект был реализован в ответ на рост объёмов интернет-данных и увеличение сложности задач в сфере DNS-безопасности.

Как поясняют в компании, предыдущая архитектура перестала соответствовать требованиям по скорости обработки, устойчивости и масштабированию. В рамках обновления вся ML-система SkyDNS была переведена на платформу Kubernetes, обеспечивающую оркестрацию контейнеризованных приложений и автоматическое распределение вычислительных ресурсов. В результате был сформирован единый распределённый кластер, включающий 18 рабочих и 9 служебных машин, с суммарной вычислительной мощностью 420 потоков и более 1,2 ТБ оперативной памяти.

Одновременно компания пересмотрела подход к хранению и обработке данных. Для промежуточного хранения больше не используется HDFS: обработка информации и запуск моделей выполняются в контейнерной среде, а управление ML-пайплайнами автоматизировано с помощью Apache Airflow. Все данные размещены в распределённом отказоустойчивом кластере Apache Cassandra, что позволяет обеспечивать целостность информации и высокую скорость операций чтения и записи при работе с большим числом подов моделей.

По состоянию на конец 2025 года система SkyDNS обрабатывает более 5 ТБ данных, включая свыше 130 млн доменов и более 400 млн URL. Покрытие компании достигает 95,7% всех TLD-зон и 71,4% от общего числа доменов в мире.

Все домены и URL в базе SkyDNS классифицируются по 9 категориям безопасности и 60 категориям контента, при этом данные обновляются ежедневно. Каждая новая версия моделей машинного обучения обучается на актуальном массиве информации.

Для формирования и актуализации базы используются как внешние источники данных, включая коммерческие фиды, такие как Malware Patrol, так и собственные разработки SkyDNS. В их числе — фермы краулеров, поведенческие классификаторы и анализ реального DNS-трафика. Отдельную роль играет эталонная база, формируемая вручную, которая применяется для валидации моделей, оценки метрик, а также выявления деградации качества.

Особое внимание в новой инфраструктуре уделено работе с доменами, которые могут быть использованы в атаках нулевого дня. SkyDNS расширил интеграцию с международным регистратором доменных имен и получает сведения о новых регистрациях, перерегистрациях и смене владельцев в ключевых доменных зонах. Недавно зарегистрированные домены автоматически выделяются в отдельную категорию и находятся под наблюдением в течение 90 дней с момента регистрации.

По итогам сравнения результатов работы моделей на старой и новой инфраструктуре в компании отмечают сохранение сопоставимых показателей качества классификации при одновременном увеличении глубины анализа. В частности, анализ был расширен с доменного уровня на уровень URL, включая вложенные страницы и параметры запросов.

В SkyDNS подчёркивают, что обновление ML-инфраструктуры позволило сократить время реакции на новые угрозы, повысить устойчивость системы при пиковых нагрузках и сохранить интерпретируемость результатов анализа для команд информационной безопасности.

«DNS больше не должен быть “слепой зоной”. Мы строим систему, в которой он становится полноценным уровнем киберзащиты — с аналитикой, ML и архитектурой enterprise-класса», — отметил Вячеслав Новоселов, CEO SkyDNS.

Похожие статьи