'
Бобрышев Р.В.
ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗАТОР ТОНАЛЬНОСТИ ОТЗЫВОВ *
Аннотация:
в статье представлены результаты разработки интеллектуального анализатора тональности отзывов. Описана методика и результаты выбора ИНС для решения поставленной задачи. Пять нейросетевых моделей разработаны и обучены распознаванию тональности отзыва. Выполнена сравнительная оценка качества распознавания обученных моделей. На основе обученных нейросетевых моделей разработан интеллектуальный анализатор.
Ключевые слова:
тональность текста, анализатор, нейронная сеть, машинное обучение, интеллектуальная система
Независимая автоматическая оценка тональности отзывов при изучении качества продукции — это актуальная проблема в сфере обработки естественного языка. Существует необходимость в эффективных методах и инструментах для распознавания тональности текстов, поскольку это позволяет как анализировать общественное мнение относительно какого-то продукта, так и сокращать время обработки большого количества информации.Однако, анализ тональности текстов представляет собой сложную задачу из-за неоднозначности естественного языка, наличия иронии, сарказма, метафор и других лингвистических особенностей. Таким образом, существует потребность в разработке и совершенствовании методов и алгоритмов, способных точно определять эмоциональную окраску текстовых данных.При разработке интеллектуального анализатора, технического решения для автоматического определения тональности текста, были решены следующие задачи:Определен перечень слов, которые явно характеризуют тональность текста. Разработаны правила классификации текста по тональности.Определены пять моделей ИНС с наилучшим качеством для распознавания.Разработаны пять искусственных нейронных сетей для классификации тональности текста по заданным словам.Разработано программное обеспечение (на основе обученных моделей и разработанных ИНС) для анализа тональности текста.При разработке перечня слов (далее – словарь), которые явно характеризовали бы тональность текста, было проанализировано и отобрано свыше 700 слов. Быстро было замечено, что в словаре присутствуют группы слов, которые являются производными от одного корня или вариации одного слова с разными окончаниями. Например, «хороший – хорошенький – хорошая». Все три слова по своей сути несут одну и ту же тональную окраску текста. Тогда было принято решение о стемминге всего словаря, то есть оставить от слов только корни. В таком случае, прошлая последовательность слов сократится до одного «хорош». После преобразований окончательная версия словаря составила 310 слов.При выборе моделей ИНС для поставленной задачи были рассмотрены 7 наиболее популярных: Bert, ruBert, resNet, FastText, Sequential, Functional Api, word2vec. А также было принято решение о внедрении в анализатор искусственного нейрона – простейшей части любой ИНС. Это решение было обосновано малой сложностью поставленной задачи с точки зрения математических вычислений.Bert, ruBert – модели обработки естественного языка от Google. Обучены на огромном объеме текста. В особенности, модель ruBert была обучена только на русском языке. Обе модели хорошо понимают контекст и строят семантические зависимости.resNet (англ. residual Network – останочная сеть) – это глубокая нейронная сеть, разработанная для решения проблемы затухания градиента. Она использует концепцию «skip connections» или «residual connections», позволяющих передавать информацию непосредственно от одного слоя к другому, минуя промежуточные слои. Это позволяет обучать более глубокие сети с лучшей производительностью. Чаще всего модели типа resNet применяются для анализа изображений. Однако и для анализа текста они подходят.FastText - это бесплатная библиотека с открытым исходным кодом, которая позволяет пользователям изучать текстовые представления и текстовые классификаторы. Она работает на стандартном, универсальном оборудовании. Впоследствии модели могут быть уменьшены в размерах, чтобы поместиться даже на мобильных устройствах.Sequential – последовательная модель нейронной сети, где все слои идут один за другим и каждый выход текущего слоя связан с каждым выходом следующего слоя.Functional API – модель, которая позволяет передавать данные между слоями непоследовательно. Более гибка к построению архитектуры, нежели Sequential. Однако, в меру своей гибкости так же и тонка в настройке. Требует понимания графов вычислений и большой внимательности.Word2vec – это популярная модель обучения вложений слов, предложенная исследователями Google в 2013 году. Она позволяет преобразовать слова из корпуса текстов в векторы чисел таким образом, что слова с похожими семантическими значениями имеют близкие векторные представления в многомерном пространстве.В последствии от моделей Bert, ruBert и resNet было принято решение отказаться. Bert и ruBert имеют очень большой объем данных внутри, который оказывается избыточным для задачи анализа тональности и лишь излишне нагрузит систему. Модель resNet проблематично настраивалась для решения поставленной задачи и время, затраченное на настройку модели было слишком велико.Перед началом обучения моделей были отобраны обучающая и проверяющая выборки. Обучающая выборка составила 1000 отзывов, а проверяющая – 200. Отзывы выбирались с однозначной тональностью, без шуток, сарказма, иронии и остального что могло бы мешать определению тональности.В таблице 1 представлены результаты обучения выбранных ранее моделей ИНС. Все обучение проходило на одном и том же компьютере. Характеристики компьютера: видеокарта – RTX 4060ti, процессор - 12th Gen Intel(R) Core(TM) i5-12400F 2.50 GHz.Таблица 1. Результаты обучения выбранных моделей ИНС.Ориентируясь на полученные результаты видно, что все пять моделей ИНС настроены хорошо и получаемая точность на обучающей выборке в среднем больше 0,9. Это предоставило нам возможность использовать все пять моделей при разработке интеллектуального анализатора.Для принятия решения в интеллектуальной системе было реализовано голосование обученных моделей ИНС. Система принимала решение, за которое проголосовали, как минимум, три модели (рис. 1).Рисунок 1. Принцип работы анализатора.Разработка интеллектуальной системы выполнялась с использованием языка программирования Python, графический интерфейс – с использованием библиотеки flet. Хранение текстовых отзывов, используемых для обучения и последующего дообучения ИНС, было организовано в виде таблиц Excel. Система может принимать на вход как одиночный отзыв, введенный вручную, так и целый список отзывов, оформленный в виде таблицы Excel.
Номер журнала Вестник науки №9 (78) том 3
Ссылка для цитирования:
Бобрышев Р.В. ИНТЕЛЛЕКТУАЛЬНЫЙ АНАЛИЗАТОР ТОНАЛЬНОСТИ ОТЗЫВОВ // Вестник науки №9 (78) том 3. С. 350 - 355. 2024 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/17296 (дата обращения: 05.11.2024 г.)
Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2024. 16+
*