'
Ахикян А.И., Данилюк С.С.
ПРОГНОЗИРОВАНИЕ МЕЖДУНАРОДНОЙ КЛАССИФИКАЦИИ БОЛЕЗНЕЙ С ПОМОЩЬЮ МЕТОДА СЛУЧАЙНОГО ЛЕСА ПО РЕЗУЛЬТАТАМ АНАЛИЗОВ КРОВИ *
Аннотация:
в данной статье исследуется применение алгоритма машинного обучения случайный лес для прогнозирования Международной Классификации Болезней на основе анализов крови. Проведена нормализация и балансировка данных, подготовлен датасет для обучения модели. Обучена модель случайного леса, которая показала определенную точность.
Ключевые слова:
МКБ, машинное обучение, случайный лес, датасет, предсказание
Международная Классификация Болезней в сокращении МКБ это инструмент для регистрации, отчетности и группировки состояний и факторов, влияющих на здоровье. Она содержит рубрики болезней и расстройств, состояний, связанных со здоровьем, и многого другого. Упрощает взаимодействие медицинских организаций по всему миру друг с другом, потому что все коды состоят из цифр и латинских букв [1].Предсказание МКБ с помощью методов машинного обучения имеет огромную актуальность и важность в медицинской практике, поскольку позволяет улучшить диагностику, определить риски заболеваний на ранних стадиях, выбрать оптимальное лечение и предотвратить возможные осложнения. Точные прогнозы на основе анализа крови и других клинических данных помогают врачам принимать обоснованные решения, улучшая качество медицинской помощи и повышая эффективность лечения пациентов.Предсказание МКБ является задачей классификации, в ней требуется определить, к какой категории или классу относится данный пациент на основе результатов анализа крови. Классификация в машинном обучении относится к задаче присвоения объектов к одной из заранее определенных категорий на основе их признаков [2, с. 23]. В данном контексте, каждый диагноз по МКБ представляет собой отдельный класс, и задача модели состоит в том, чтобы правильно определить, к какому классу относится данный пациент на основе его анализа крови.Для решения задачи предлагается использовать модель машинного обучения случайного леса (Random Forest) [3]. Она хорошо справляется с проблемой переобучения, так как комбинирует несколько деревьев решений и усредняет их прогнозы. Также важным достоинством является способность обрабатывать большое количество признаков без необходимости предварительной обработки. Данные, поступающие в модель, могут быть разнородными, что не требует масштабирования признаков и, соответственно, облегчает процесс выбора данных. Одним из главных достоинств метода является возможность оценки важности признаков, что помогает облегчить процесс предсказания [4, с. 52]. Эти достоинства модели отлично подходят для поставленной задачи, так как данные, с которыми предстоит работать, в противном случае потребовалась бы значительная подготовка перед обучением.Для подготовки данных к обучению, была использована функция перевода из длинного формата в широки, после чего графически отображены столбцы с наличием NaN в убывающем порядке для последующего их удаления, т.к. они являются мало информативными и будут мешать при обучении модели. Содержание пустых строк отображено на рисунке 1.Рис. 1. Графическое представление строк по столбцам в порядке возрастания.После фильтрации по параметрам анализа крови остались только те параметры, записи с которыми не имели Nan. Это такие параметры как: 'Код_МКБ', 'Эритроциты, 10^12/л', 'Ср.содерж.гемогл.в эрит.(MCH), пг', 'Лимфоциты(%)', 'Ср. объем эритроцитов (MCV), фл', 'Ср.конц. гемоглоб. в эритр.(MCHC), г/дл', 'Моноциты(%)', 'Лейкоциты, 10^9/л', 'Гемоглобин, г/л', 'Гематокрит, %', 'Эозинофилы(%)', 'Моноциты, 10^9/л', 'Лимфоциты, 10^9/л', 'Эозинофилы, 10^9/л', 'Базофилы, 10^9/л', 'Нейтрофилы, 10^9/л', 'RDW, %', 'Тромбоциты, 10^9/л', 'СОЭ, мм/час', 'Базофилы, %', 'Тромбокрит', 'MPV (фл)', 'PDW, %', 'Нейтрофилы(%)', 'Макроциты, 10^9/л', 'Микроциты, 10^9/л',Ещё одним шагом подготовки данных стало сокращение количество классов предсказания, была задействована таблица icd10, с соответствиями конкретных МКБ-диагнозов и кодами code_2, code_3 и т.д., так как они классифицируют некоторые МКБ-диагнозы в диапазон (например, МКБ код: A00, A01, A02 = code2: A00-A-09 ).Итогом такой подготовки стало сокращение строк с 149651 до 80153. А столбцов с 89 до 28. Для обучающей и тестовой выборок столбцы были отсортированы в определенном порядке, для выставления диапазона при присвоении всех нужных параметров к X и диагнозов к y.Первый результат работы алгоритма случайного леса, вопреки ожиданиям, показал низкий результат, отображенный в таблице 1.Таблица 1. Показатели точности работы модели случайного леса на тестовом и обучающем наборах.Такой низкий показатель связан с оставшемся дисбалансов, но уже не диагнозов, а их диапазонов, т.к. некоторые группы включают в себя намного больше записей, чем другие. Было принято решение объединить малочисленные классы в одну группы с название “Others”. Полученные классы представляли собой следующие объединения: N40-N51, M00-M25, I20-I25, G90-G99, … , D80-D89, Others.Отобрав нужные параметры, настроив модель, cбалансировав данные результат обучения показал коэффициент правильности, предоставленный в таблице 2.Таблица 2. Показатели точности работы модели случайного леса на тестовом и обучающем наборах при объединении классов.Результат стал намного лучше, но все еще не является достойным для внедрения такой модели в рабочую систему. Для повышения точности следует доработать исходный алгоритм случайного леса, адаптировать его для конкретной задачи и провести повторный эксперимент.
Номер журнала Вестник науки №5 (74) том 3
Ссылка для цитирования:
Ахикян А.И., Данилюк С.С. ПРОГНОЗИРОВАНИЕ МЕЖДУНАРОДНОЙ КЛАССИФИКАЦИИ БОЛЕЗНЕЙ С ПОМОЩЬЮ МЕТОДА СЛУЧАЙНОГО ЛЕСА ПО РЕЗУЛЬТАТАМ АНАЛИЗОВ КРОВИ // Вестник науки №5 (74) том 3. С. 1060 - 1065. 2024 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/14675 (дата обращения: 08.12.2024 г.)
Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2024. 16+
*