'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №2 (83) том 4
  4. Научная статья № 59

Просмотры  231 просмотров

Купцов М.В., Проневич О.Б.

  


РАЗРАБОТКА АНАЛИТИЧЕСКОЙ ПОДСИСТЕМЫ КЛАССИФИКАЦИИ ОБРАЩЕНИЙ ДЛЯ ДАШБОРДА РУКОВОДИТЕЛЯ ЦФТО *

  


Аннотация:
в данной статье рассматривается разработка аналитической подсистемы классификации обращений для дашборда руководителя ЦФТО. Целью разработки является создание и реализация алгоритма обработки текстовых обращений компании ЦФТО (Центр фирменного транспортного обслуживания), связанных с жалобами по задержки вагонов на путях следования, и классификация их по причинам возникновения таких инцидентов для дальнейшей визуализации этой информации на дашборде в виде интерактивной карты. В качестве основных инструментов и платформ, для реализации аналитической системы и интерактивной карты, используются: Python, Google collaboratory, Kepler, Polyanalist. Помимо этого, с помощью высококровного языка программирования Python, был реализован алгоритм классификации обращений с помощью словарей триггерных слов.   

Ключевые слова:
аналитическая подсистема, классификация, обращения, триггерные слова, интерактивная карта, дашборд   


Обработка клиентских обращений является необходимой деятельностью для компании ЦФТО (Центр фирменного транспортного обслуживания), филиал ОАО «РЖД», предоставляющий услуги, связанные с организацией, контролем и коммерческой работой в сфере грузовых перевозок. Поэтому для компании важно совершенствовать системы транспортного обслуживания грузовладельцев. Ежегодно в ЦФТО обрабатывается около 102 тыс. обращений, большая часть из которых связана с проблемой – задержка вагонов на пути следования. Для классификации обращений компания ЦФТО структурирует эти данные по параметрам: 1) Дата поступления, 2) Наименование клиента, 3) Группа вопроса. Для оптимизации работ на локацях с наиболее частыми инцидентами с задержками вагонов на пути следования компании необходим инструмент, выводящий статистику по данным из обращений клиентов. Также актуальность задачи автоматизации структуризации обращений по выделенным параметрам образована большим объемом данных (более 80 мб в год) и ограниченным числом операторов ЦФТО.Общая информация об инструменте визуализации данных об инцидентах грузоотправителей.Широкую популярность, при решении задач визуализации статистических данных, имеют дашборды [11]. Они используются в отслеживание в реальном времени ключевых показателей деятельности компании в месячном и годовом значении [2] [3]. Для отображения информации об инцидентах целесообразно использовать дашборд, обладающий рядом важных для ЦФТО характеристик:Данные должны отображаться на географической карте, с привязкой к железной дороге и станциям,Обработка данных естественного языка. Обращения пользователей написаны в свободной форме на русском языке. Структурированы выделенных ранее параметра: дата, наименование клиента, группа вопросов.Для того, чтобы дашборд отвечал двум выделенным характеристикам, выделено две подсистемы:Подсистема автоматического анализа обращений и извлечения основных сущностей (аналитическая подсистема),Подсистема визуализации данных об обращениях на интерактивной карте (интерактивная карта).Рис. 1. Пример обращения со слабоструктурированными данными.Аналитическая подсистема получает на вход слабоструктурированные данные, как на примере рисунка 1, об обращениях пользователей и извлекает из них основные сущности: дата поступления, имя клиента, а также на основании текста обращения осуществляет классификацию сути обращения. Результатом работы этой подсистемы передаются интерактивной карте страны (Российская Федерации). На интерактивной карте отображаются станции ОАО «РЖД» и основные характеристики обращений пользователей услуг ЦФТО для соответствующих станций.Инструменты реализации проекта.В качестве языка программирования для реализации программы был выбран python, так как он подходит для обработки текстовых и табличных данных. Вместе с языком также были выбраны и библиотеки для обработки табличных данных – Pandas и Numpy, а также регулярные выражения – re. Для реализации аналитической интерактивной карты был выбран инструмент kepler.Аналитическая подсистема автоматического анализа обращений пользователей ЦФТО.На вход подсистема получает информацию об обращениях, поступающих в ЦФТО в виде excel-файла. Алгоритм обработки по следующим темам:Формирование выборки по критерию «Задержка вагонов на пути следования» (поле «проблема» в исходных данных).Классификация сути обращения на основе классификаторов триггерных слов. Мультиклассы сути обращения:Класс по месту обращения: «Припортовая станция»,Классы по типу груза: «Опасные грузы», «Скоропортящиеся грузы»,Классы по типу вагона: «Контейнеры», «Цистерны»,Класс по виду заказчика: «Государственный заказ»,Класс по человеческому фактору: «Неадекватное поведение со стороны сотрудников «РЖД»».Анализ частоты повторных обращений.Формирование сводной статистики для каждой станции.Интерактивная карта дашборда ЦФТО.В качестве интерпретации выходных данных из аналитической подсистемы, была выбрана интерактивная карта, так как эта форма визуализации позволяет в удобной форме отобразить на карте Российской Федерации информацию об обращениях пользователей услуг ЦФТО в разрезе станций и железных дорог.Формирование словарей триггерных слов.Для алгоритма классификации обращения по темам из критерия «Задержки вагонов на пути следования» были подобраны словари триггерных слов. Для классов, таких как: «Припортовая станция», «Скоропортящиеся грузы», «Контейнеры», «Цистерны» и «Государственный заказ» подбирались слова с помощью сайта – Морфер[7].При формировании класса “Опасные грузы” были использованы данные из документа «Алфавитный указатель опасных грузов, допущенных к перевозке железнодорожным транспортом» [1]. Также для реализации поиска совпадений по словарям мы использовали регулярные выражения для темы “Опасные грузы”.При решении классификации обращений, связанные с темой «Неадекватное поведение со стороны сотрудников «РЖД»» было использовано приложение Polyanalist.Общая информация о программе.Программа начинает работу в следующей последовательности, начиная с процесса подготовки данных для визуализации:В приложении на основе поступающего файла Excel с информацией об обращениях формируется датасет df_origins,Excel файлы «координаты станций.xlsx» с координатами станций и «список станций.xlsx» c полной информацией о станциях Российских железных дорог сохраняются в датафреймах coords_have и stations_origin.Для создания интерактивной карты и нанесения в последующем на неё определённых функций необходимо было найти координаты каждой станции, хоть раз указанной в обращениях. Для решения этой проблемы использовались открытые источники [8] и [10], в котором по ЕСР и названиям станций можно было найти координаты, затем был построен парсер(Beautifulsoup4) для получения массива вида: [Дорога, Станция, Месяц, Широта, Долгота, общее количество обращений, кол-во обращение порты, хамство, контейнера и т.д.].Создаются копии датасетов df_origins и stations_origin – df и stations, с которыми мы в дальнейшем будем работать.Проводится EDA (Язык программирования: Python(Библиотеки: Pandas, Numpy)) датасета stations.Проводится EDA (Язык программирования: Python(Библиотеки: Pandas, Numpy)) датасета df:Из датасета df создаётся датасет date, в котором будет храниться информация в каком месяце поступило обращение.Так как в ЦФТО интересуют причины проблем “Задержка вагонов на пути следования”, то в датасете df фиксируется название проблемы.Так как на интерактивной карте будут отображаться станции с наибольшим количеством обращений, то из датасета df нужно вывести эту информацию из столбца “станция задержки вагонов” и структурировать, т.к. в этом столбце информация не имеет общего шаблона.По каждой из тем («Припортовая станция», «Опасные грузы», «Скоропортящиеся грузы», «Контейнеры», «Цистерны», «Государственный заказ», «Неадекватное поведение со стороны сотрудников «РЖД»») были сформированы классификаторы триггерных слов. Формирование классификаторов происходило с использованием сервиса склонения слов по падежам – morpher [7].По сформированным классификаторам триггерных слов (“порты”, “опасные грузы”, “скоропортящийся груз”, “хамство”, “контейнеры”, “гос. заказы”, “цистерны”) алгоритм классификации обращений находит обращения, относящиеся к темам («Припортовая станция», «Опасные грузы», «Скоропортящиеся грузы», «Контейнеры», «Цистерны», «Государственный заказ», «Неадекватное поведение со стороны сотрудников «РЖД»») и отмечает их в датасете df в столбцах: “Обращение о портах”, “Обращение о скоропортящимся грузе”, “Опасные грузы”, “Госзаказ”, “Обращение по хамству”, “Обращение с контейнерами”, “Обращение с цистернами”.Для формирования сводной статистики на интерактивной карте программа объединяет датасеты df_F_3, date и df, при этом фиксируя, к какому из классификаторов обращение относится. В результате формируются 8 датасетов: df_ALL_Visualise, df_P_Visualise, df_D_Visualise, df_S_Visualise, df_R_Visualise, df_C_Visualise, df_G_Visualise, df_T_Visualise. Чтобы детально можно было проанализировать эти данные, они сохраняются в каталоге “/результаты/данные для визуализации”.Файлы для статистики объединяются в датасет df_statistic_final и сохраняются в формате xlsx в файл “данные для визуализации.xlsx”.Итоговый файл “Данные для карты.xlsx” с помощью библиотеки python openexcel сохраняется в формате csv.На выходе аналитической подсистемы формируется файл с данными, которые отображены в таблице 1. Ячейки с пустым значением отображают обращения, не связанные с темой. Ячейки с числовым показателем отображают количество инцидентов за прошедший месяц.Таблица. 1. Пример структуры данных для визуализации статистики на интерактивной карте.Полученный csv-файл загружается в Kepler. По строкам “lat”-широта, “lon”-долгота формируется на карте станции со статистикой. Радиус точки зависит от значения в "Общее кол-во обращений". В ярлыке, который выводиться при наведении курсора на него, отображаются параметры: “Дорога”, “Станция”, “Общее кол-во обращений”, “Кол-во обращений по категориям”.Рис. 2. Пример интерактивной карты статистики по обращениям за 2022 год.На рисунке №2 (рис.2) приведен пример работы итоговой интерактивной карты со статистикой по обращениям за 2022 год. Точками и кружками обозначены станций, на которых произошли инциденты. Диаметр кружков отображает количество обращений за временной период, чем больше размер диаметра, тем больше обращений поступило на станцию. Для анализа интерактивной карты существуют фильтры, меняющие данные на карте по показателям: тема проблемы клиента, дата поступления обращения (по месяцам), железная дорога, поисковая строка для поиска определенных станций.Преимущества реализованного решения перед аналогами.Преимущество реализованного алгоритма заключается в его простоте для пользователя и разработчика. Так как классификация обращений происходит по словарям триггерным словам, то повышение качества поиска зависит от количества слов, связанных с определенной темой, а именно причины задержки вагонов на пути следования. Также преимуществом является точность поиска, которая не зависит от обучения алгоритма на данных, в отличии от искусственного интеллекта, машинного обучения и нейронных сетей, , а от проработанного словаря.Таким образом, можно сделать вывод, что рассматриваемая проблема решена. Реализованная аналитическая подсистема автоматического анализа обращений пользователей ЦФТО классифицирует обращения клиентов ЦФТО на восемь тем, связанных с причинами проблем задержки вагонов на пути следования, а также собирает статистику для дальнейшей визуализации данных на интерактивной карте.Научная новизна данного проекта заключается в том, что:Разработан алгоритм для структурирования названий станций.Выявлены 7 типов классификации причин проблем и классификаторы для поиска обращений по заданным типам.Разработана база данных с координатами станций Российской железной дороги для интерактивной карты.С помощью дашборда Центр фирменного транспортного обслуживания (ЦФТО ОАО «РЖД») сможет оптимизировать выявление мест и причин проблем на железных дорогах, и тем самым быстрее реагировать на них и видеть на одной карте масштаб определенных проблем.   


Полная версия статьи PDF

Номер журнала Вестник науки №2 (83) том 4

  


Ссылка для цитирования:

Купцов М.В., Проневич О.Б. РАЗРАБОТКА АНАЛИТИЧЕСКОЙ ПОДСИСТЕМЫ КЛАССИФИКАЦИИ ОБРАЩЕНИЙ ДЛЯ ДАШБОРДА РУКОВОДИТЕЛЯ ЦФТО // Вестник науки №2 (83) том 4. С. 444 - 454. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/21614 (дата обращения: 17.02.2026 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/21614



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки © 2025.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.