'
Мясников И.В.
АНАЛИЗ АНОМАЛИЙ В МЕТРИКАХ ОБЛАЧНЫХ КОМПОНЕНТОВ *
Аннотация:
в условиях роста сложности облачных инфраструктур критически важно своевременно обнаруживать аномалии в ключевых метриках, таких как загрузка CPU, использование памяти и сетевые задержки. В отличие от методов машинного обучения, требующих значительных ресурсов, данное исследование фокусируется на статистических подходах, сочетающих интерпретируемость и низкие вычислительные затраты. На реальных данных облачного провайдера (10 000 временных рядов за 30 дней) проведено сравнение трех методов: контрольных карт Шухарта, динамических порогов с адаптацией к суточным паттернам и корреляционного анализа. Гибридный подход, объединяющий контрольные карты с динамическими порогами, продемонстрировал F1-меру 0.86, сократив ложные срабатывания на 12% по сравнению с классическими статическими порогами. Практическая ценность работы подтверждена интеграцией предложенного метода в систему мониторинга провайдера, где он выявил 15 критических инцидентов, включая утечку памяти в микросервисе обработки платежей.
Ключевые слова:
облачные вычисления, аномалии, статистический анализ, контрольные карты, динамические пороги, корреляция
Современные облачные системы, такие как AWS, Google Cloud и Azure, состоят из тысяч взаимосвязанных компонентов. Их динамическая природа (автомасштабирование, миграция виртуальных машин) усложняет обнаружение аномалий. Например, в 2022 году компания X потеряла $2.5 млн из-за незамеченной утечки памяти в Kubernetes-кластере, которая привела к отказу сервиса на 4 часа. Традиционные методы на основе статических порогов (например, alert при CPU > 90%) часто неэффективны:Не учитывают временные паттерны: Ночью нагрузка на сервисы падает, и порог в 90% становится слишком низким, вызывая ложные срабатывания.Игнорируют корреляции: Аномалия может проявляться в комбинации метрик (например, высокая загрузка CPU при нулевом сетевом трафике).Цель работы.Предложить статистический метод обнаружения аномалий, который:1. Адаптируется к изменяющейся нагрузке.2. Учитывает взаимосвязи между метриками.3. Минимизирует ложные срабатывания без использования ML.Контрольные карты Шухарта.Метод, разработанный Уолтером Шухартом в 1924 г., изначально применялся в промышленности для контроля качества. В облачных системах он используется для отслеживания выхода метрик за пределы границ, рассчитанных как:Верхняя контрольная граница (UCL) = μ + 3σ,Нижняя контрольная граница (LCL) = μ - 3σ,где μ — среднее значение, σ — стандартное отклонение.Пример применения: В исследовании [1] контрольные карты использовались для мониторинга времени отклика API. Однако при нестационарных данных (например, суточные колебания) метод давал до 30% ложных срабатываний.Динамические пороговые значения.Вместо фиксированных порогов предлагается пересчитывать их периодически, учитывая исторические данные. Например, для метрики загрузки CPU:Порогt = μt + k ⋅σtμt — скользящее среднее за последние N дней в момент времени t,σt — скользящее стандартное отклонение за те же N дней,k — коэффициент, определяющий чувствительность (обычно 2–3).Преимущество: Адаптация к сезонности. В работе [2] такой подход снизил ложные срабатывания на 18% для метрик сети.Корреляционный анализ.Аномалии часто нарушают типичные связи между метриками. Например:Высокая загрузка CPU обычно коррелирует с активностью сети. Если CPU растет, а сетевой трафик падает — это аномалия.Коэффициент корреляции Пирсона, применяемый к выборке, обычно обозначается rxy и может называться выборочным коэффициентом корреляции или выборочным коэффициентом корреляции Пирсона:Ограничение: Требует синхронизации метрик с высокой точностью (погрешность ≤ 1 сек) [3].Методология.Данные.Источник: Мониторинговая система облачного провайдера (аналогичная Prometheus + Grafana).Период: 30 дней, частота измерений — 1 минута.Метрики:CPU: Средняя загрузка ядер в процентах.Память: Использование ОЗУ (ГБ).Сеть: Входящий трафик (Мбит/с).Разметка аномалий: Эксперты выделили 500 аномальных интервалов (5% данных), включая:Утечку памяти в сервисе авторизации (постепенный рост использования ОЗУ на 2% в час).Скачки CPU из-за D_DoS-атаки (кратковременные пики до 100%).Методы.Контрольные карты Шухарта с адаптивным окном- Для борьбы с нестационарностью границы пересчитываются каждые 2 часа на основе данных за последние 24 часа:
Номер журнала Вестник науки №2 (83) том 4
Ссылка для цитирования:
Мясников И.В. АНАЛИЗ АНОМАЛИЙ В МЕТРИКАХ ОБЛАЧНЫХ КОМПОНЕНТОВ // Вестник науки №2 (83) том 4. С. 459 - 466. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/21616 (дата обращения: 07.02.2026 г.)
Вестник науки © 2025. 16+