'
Федоров Д.В., Набатов А.Н.
ПОВЫШЕНИЕ НАБЛЮДАЕМОСТИ КРИТИЧЕСКИ ВАЖНЫХ СИСТЕМ С ПОМОЩЬЮ ГРАДИЕНТНОГО БУСТИНГА *
Аннотация:
в работе рассматривается подход к улучшению наблюдаемости информационных систем за счет разработки информационной системы, упрощающей мониторинг, с использованием методов машинного обучения, в частности градиентного бустинга. Описывается архитектура прототипа информационной системы, выбор подходящего метода обучения, а также результаты внедрения.
Ключевые слова:
наблюдаемость, машинное обучение, градиентный бустинг, визуализация, мониторинг, предсказание, метрики, критические системы, телеметрия, аномалия, признаки, графики, уведомления, инфраструктура, сервер
В современных информационных системах повышенные требования предъявляются к надёжности, устойчивости и прогнозируемости поведения аппаратных и программных компонентов. Особенно это актуально для высоконагруженных приложений, работающих в распределённой среде, где любое снижение доступности может привести к серьёзным последствиям. Мониторинг таких систем позволяет оперативно выявлять аномалии, однако сам по себе он ограничен текущими наблюдаемыми метриками и не всегда позволяет заранее предсказать сбой.В этой связи возрастает значимость концепции observability (наблюдаемости) — способности системы предоставлять информацию, достаточную для понимания её внутреннего состояния на основе внешних данных. Повышение наблюдаемости требует внедрения не только сборщиков метрик, но и интеллектуальных механизмов анализа, позволяющих делать предсказания на основе истории поведения системы.Целью данной работы является разработка прототипа интеллектуальной системы мониторинга, способной предсказывать поведение ключевых метрик с использованием методов машинного обучения. Основной задачей выступает построение модели, обеспечивающей составление периодических отчетов, которые включают текущие показатели состояния информационной системы, а также предсказания посчитанные при помощи метода машинного обучения (МО) – градиентного бустинга. Модель дополнена модулями сборки отчетов – визуализацией и модулем оповещения, который отправляет отчеты по указанным каналам связи.Выбор метода градиентного бустинга объясняется его высокой эффективностью при работе с табличными данными и способностью учитывать сложные нелинейные зависимости между признаками. Также в рамках исследования реализован механизм автоматических push-уведомлений и визуальное отображение состояния контролируемой системы, что повышает удобство эксплуатации и оперативность реагирования на потенциальные инциденты.Разрабатываемая система мониторинга представляет собой прототип интеллектуальной платформы, ориентированной на анализ и предсказание ключевых параметров функционирования программных сервисов. Архитектура решения предполагает интеграцию традиционных компонентов сбора метрик с модулями анализа и визуализации, а также с блоком предиктивной аналитики.Основу системы составляет связка источников телеметрии и брокера сообщений. Метрики собираются посредством интеграции с программными интерфейсами (API) известных систем мониторинга, таких как Zabbix, Prometheus и передаются в центральное хранилище. Далее данные обрабатываются и агрегируются, после чего подаются на вход модели машинного обучения. Для визуального представления информации используется отдельный модуль, обеспечивающая отображение как текущих значений, так и прогнозных графиков.Если метрика вдруг принимает аномальное значение, это может сигнализировать, что компонент инфраструктуры работает внештатно и пора искать причину, чтобы предотвратить дальнейшее ухудшение ситуации. В зависимости от критичности аномалии задаются разные варианты: можно отправлять предупреждающие уведомления либо регистрировать события и настраивать последующие действия, в том числе создавать инциденты.Ключевая особенность подхода заключается в возможности не только наблюдать за состоянием системы, но и прогнозировать поведение на основе исторических данных. Обнаруженные отклонения от ожидаемых значений инициируют формирование уведомлений, отправляемых в виде push-сообщений через мессенджер Telegram и на электронную почту.Алгоритм предсказания реализован с использованием модели градиентного бустинга, обученной на предварительно подготовленном наборе метрик. На выходе модель генерирует значения метрики на ближайший интервал времени, что позволяет своевременно реагировать на возможные инциденты.Таким образом, система мониторинга сочетает в себе элементы наблюдаемости (observability), интеллектуального анализа и автоматического оповещения, повышая надёжность и устойчивость ИТ-сервисов.Для реализации предсказательной компоненты системы мониторинга был выбран метод градиентного бустинга над решающими деревьями (Gradient Boosting Decision Trees, GBDT). Данный алгоритм продемонстрировал высокую точность и устойчивость при работе с табличными данными, характерными для метрик мониторинга.Метод градиентного бустинга строит ансамбль слабых моделей — решающих деревьев — каждое из которых последовательно корректирует ошибки предыдущих. Основное преимущество подхода заключается в его способности выявлять сложные нелинейные зависимости между признаками, что особенно важно при анализе временных рядов с множеством факторов.Решение было принято на основе экспериментального сравнения с другими методами, включая линейную регрессию, случайный лес и нейросетевые модели. Градиентный бустинг показал наилучшие результаты по метрикам RMSE (корень из средней квадратичной ошибки) и MAE (средняя абсолютная ошибка) при приемлемом времени обучения и интерпретируемости модели.Кроме того, алгоритм предоставляет встроенные механизмы оценки важности признаков, что позволяет выявить наибольший вклад отдельных параметров в итоговое предсказание. Это, в свою очередь, способствует повышению прозрачности модели и упрощает её внедрение в критические бизнес-процессы.После обучения модели градиентного бустинга была проведена серия экспериментов с целью оценки качества предсказаний и интерпретации работы алгоритма. Для этого применялись методы визуального анализа как предсказаний, так и важности признаков.Одним из основных элементов анализа является график важности признаков (feature importance), который отражает вклад каждого признака в построение модели. Благодаря внутренним механизмам модели возможно ранжирование признаков по их информативности, что позволяет выделить наиболее значимые метрики мониторинга. В частности, было установлено, что наибольшее влияние на целевую переменную memory usage (использование памяти), оказывают такие параметры, как утилизация диска, загрузка процессора и сетевая нагрузка.Пример визуализации важности признаков представлен на рисунке 1.Рисунок 1. Визуализация важности признаков модели.Кроме того, была проведена визуализация предсказаний модели на тестовой выборке. На графике отражены как фактические значения метрики, так и значения, предсказанные моделью. Это позволило оценить способность алгоритма точно отслеживать изменения во времени и своевременно реагировать на потенциальные отклонения.Результаты демонстрируют высокую степень корреляции между реальными и предсказанными значениями, что подтверждает применимость модели в реальных условиях эксплуатации мониторинговой системы.Рисунок 2. График сравнения фактических и предсказанных значений.Таким образом, визуальные методы анализа способствуют не только оценке качества модели, но и повышению её доверия со стороны пользователей, что критично для принятия решений на основе результатов предсказаний.Предложенный подход к мониторингу и предсказанию метрик на основе градиентного бустинга обладает рядом существенных преимуществ, делающих его применимым в условиях реальных ИТ-систем:Во-первых, высокая точность предсказаний достигается за счёт способности градиентного бустинга эффективно учитывать сложные нелинейные зависимости между признаками. Это позволяет выявлять аномалии или потенциальные сбои на ранней стадии и предпринимать упреждающие меры.Во-вторых, модель предоставляет интерпретируемость за счёт встроенной возможности анализа важности признаков. Это позволяет инженерам не только использовать модель как «чёрный ящик», но и понимать, какие именно метрики повлияли на то или иное решение модели.В-третьих, предлагаемый метод легко масштабируется и интегрируется с современными системами мониторинга. Благодаря применению модели градиентного бустинга и последующей отправке аналитических отчетов через различные каналы связи, ожидается улучшение оперативности реакции на инциденты.Кроме того, отличительной особенностью данного решения является повышение наблюдаемости системы. Если мониторинг представляет собой процесс сбора и анализа данных, то наблюдаемость — это свойство системы предоставлять достаточный объём информации для понимания её внутреннего состояния. Используемая модель усиливает это свойство, предоставляя предиктивные сигналы на основе текущих метрик.Таким образом, сочетание машинного обучения и визуального анализа не только повышает эффективность мониторинга, но и приближает инфраструктуру к современным стандартам интеллектуального управления.В данной работе была предложена система интеллектуального мониторинга, использующая методы машинного обучения, в частности, градиентный бустинг, для предсказания ключевых метрик ИТ-инфраструктуры. Рассмотренный подход позволяет не только отслеживать текущее состояние систем, но и заблаговременно обнаруживать возможные отклонения от нормального поведения, что особенно важно для обеспечения отказоустойчивости и стабильности сервисов.Предложенный подход показывает свою эффективность в тестовых испытаниях и может быть использован как основа для построения более сложных систем предиктивного мониторинга. В дальнейшем планируется расширить функциональность за счёт дополнительны интеграций с системами хранения и обработки логов (Loki), использования ансамблей моделей и интеграции с другими инструментами обеспечения наблюдаемости.
Номер журнала Вестник науки №6 (87) том 2
Ссылка для цитирования:
Федоров Д.В., Набатов А.Н. ПОВЫШЕНИЕ НАБЛЮДАЕМОСТИ КРИТИЧЕСКИ ВАЖНЫХ СИСТЕМ С ПОМОЩЬЮ ГРАДИЕНТНОГО БУСТИНГА // Вестник науки №6 (87) том 2. С. 1807 - 1815. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/24105 (дата обращения: 15.07.2025 г.)
Вестник науки © 2025. 16+
*