'
Пронин А.Г.
ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА НАСТРОЕНИЙ В ЗАПИСЯХ ПАЦИЕНТОВ *
Аннотация:
в работе описаны основные методы и подходы машинного обучения, позволяющие проводить сентимент-анализ текстов на естественном языке. Дается характеристика каждого метода, а также сравнение результатов их обучения. По результатам данной статьи определены наиболее результативные методы анализа настроения текстов.
Ключевые слова:
алгоритм, машинное обучение, искусственный интеллект, анализ настроения, выборка
В последние годы наблюдается значительный рост интереса к применению технологий искусственного интеллекта (ИИ) и машинного обучения (МО) в медицине и психологии. Одной из наиболее перспективных областей является анализ настроений в текстах, написанных пациентами. Этот подход открывает новые возможности для диагностики и мониторинга психологических состояний, предоставляя важную информацию о настроении, эмоциональном состоянии и даже потенциальных психических расстройствах. Анализ настроений, или сентимент-анализ, является методом обработки естественного языка (NLP), который позволяет определять эмоциональную окраску текстовой информации. В контексте медицинских записей и самовыражений пациентов в социальных сетях, блогах или в личных дневниках, этот метод может выявлять скрытые сигналы о состоянии психического здоровья, которые могут быть не очевидны даже для профессионалов в области медицины. Целью данного исследования является определение наиболее подходящих алгоритмов машинного обучения для задачи анализа настроений в медицинских и психологических текстах. Мы рассмотрим различные подходы и методы решения поставленной задачи анализ будет проведен с учетом специфики медицинских текстов, включая использование специализированной лексики, особенностей выражения эмоций и настроений пациентами. Существует два основных подхода к определению тональности текстов: подход, основанный на использовании правил и словарей и подход, основанный на методах машинного обучения.Подход, основанный на использовании словарей тональности, предполагает анализ эмоциональной окраски отдельных слов в тексте и их вклад в общую тональность текста. В этом контексте применяются словари тональности, где каждому слову присваивается значение, отражающее его значимость для эмоциональной окраски текста. Затем, применяя специализированную функцию, которая учитывает частоту появления каждого слова в тексте, осуществляется расчет суммарной эмоциональной окраски текста. – количество вхождений слова j в текст i. – количество слов в словаре тональности. Ниже будут приведены методы машинного обучения, которые могут подойти для решения задачи анализа текстовых записей пациентов.Наивный байесовский классификатор в анализе настроений основан на принципах байесовской статистики и представляет собой подход к классификации текстов, опирающийся на вероятностные модели. Он использует теорему Байеса для расчета вероятности того, что данный текст принадлежит к определенному классу настроения (например, положительному, нейтральному или отрицательному), исходя из частоты встречаемости слов в тексте.Представим его в виде формулы: число документов класса общее количество документов вхождение слова xi в документ класса Q со сглаживанием количесиво слов входящих в документ класса количество слов из обучающей выборки количество вхождений слова в документ класса параметр для сглаживания Когда объем текста очень большой, приходится работать с очень маленькими числами. Для того чтобы этого избежать, можно преобразовать формулу по свойству логарифма: Подставляем и получаем: log Метод опорных векторов – это мощный алгоритм машинного обучения, используемый для классификации и регрессии. В контексте анализа настроений, SVM применяется для определения тональности текста, разделяя данные на классы (например, положительные и отрицательные отзывы) с помощью оптимально подобранной разделяющей гиперплоскости. Основная идея состоит в том, чтобы найти такую гиперплоскость, которая максимизирует зазор между классами данных, делая классификацию наиболее четкой и устойчивой к ошибкам. Опорные вектора — это те элементы выборки, которые находятся ближе всего к границе решения, и они играют ключевую роль в определении положения разделяющей гиперплоскости.Некоторая выборка линейно разделима, если в ней возможно получить (построить) линейный пороговый классификатор: разделяющая гиперплоскость. Метод Random Forest представляет собой ансамблевую технику машинного обучения, которая создает множество деревьев решений в процессе обучения. Принцип работы алгоритма основан на комбинации методов бэггинга и использования случайных подмножеств признаков для каждого дерева, что способствует повышению точности классификации. В ансамбле каждое дерево строится независимо от других, а окончательное решение о классификации объекта принимается путем голосования, где определяющим становится класс, получивший большинство голосов от деревьев.Алгоритм градиентного бустинга — это мощная техника машинного обучения, предназначенная для решения задач регрессии и классификации, которая работает на принципе последовательного улучшения моделей. Он создает ансамбль слабых предсказательных моделей, обычно деревьев решений, путем последовательного добавления новых моделей, которые исправляют ошибки предыдущих. В каждом шаге алгоритм направлен на минимизацию функции потерь, используя градиентный спуск, что позволяет точно корректировать ошибки предыдущих моделей. Градиентный бустинг эффективен в снижении как смещения, так и дисперсии, что делает его одним из самых мощных и широко применяемых алгоритмов для создания высокоточных моделей в различных задачах машинного обучения.Пусть, например, в качестве функции потерь будет среднеквадратичная ошибка (MSE): предсказание, функция потерьИспользуя градиентный спуск и обновляя предсказания, основанные на скорости обучения (learning rate), ищем значения, на которых MSE минимальна. это скорость обучения есть сумма остатков Было проведено сравнение эффективности приведенных методов путем обучения моделей на выборке, полученной из источника Psychological Data from the Open Science Framework (OSF) и очищенной для повышения точности.Как показатель эффективности метода использовалась AUC – площадь под кривой ошибок ROC-кривой (Receiver Operating Characteristic). Авторы оптимизировали несколько моделей, настраивая параметры для достижения наилучших результатов. Процесс включал в себя тщательную предобработку данных и выбор признаков. Ниже приведены сравнительные результаты различных методов традиционного машинного обучения.Наивный байесовский классификатор – точность 75.5%Метод опорных векторов – точность 91.15%Метод Random Forest – точность 88.39%Алгоритм градиентного бустинга – точность 81.34%Как можно заметить, среди используемых в традиционном машинном обучении методов, наилучшие результаты демонстрируют модели логистической регрессии и метод опорных векторов, но сложность моделей часто зависит от объема и качества обучающих данных. В дополнение, эффективность традиционных подходов может существенно меняться в зависимости от количества и выбора признаков, качества обучения модели и чистоты входящих данных. Однако результаты показывают, что некоторые методы выдают хорошие результаты на тестовых выборках и использование искусственного интеллекта в сфере психологии имеет хорошие перспективы.
Номер журнала Вестник науки №3 (72) том 1
Ссылка для цитирования:
Пронин А.Г. ИССЛЕДОВАНИЕ МЕТОДОВ МАШИННОГО ОБУЧЕНИЯ ДЛЯ АНАЛИЗА НАСТРОЕНИЙ В ЗАПИСЯХ ПАЦИЕНТОВ // Вестник науки №3 (72) том 1. С. 448 - 453. 2024 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/13218 (дата обращения: 10.11.2024 г.)
Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2024. 16+
*