'
Артамонов С.В.
АНАЛИЗ АЛГОРИТМОВ ДЛЯ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ *
Аннотация:
в работе рассматриваются основные алгоритмы для кластеризации текстовых документов, осуществляется выбор данных для последующего обучения модели основанных на рассматриваемых алгоритмах и проводится анализ метрик.
Ключевые слова:
анализ, кластеризация, алгоритм, текстовый документ, метрики, обучение, данные
В современном мире объемы цифровой информации растут с невероятной скоростью. Текстовые данные, будь то научные статьи, новостные публикации или социальные медиа, составляют значительную часть этой информации. Эффективная обработка таких данных требует применения методов машинного обучения, среди которых кластеризация играет ключевую роль. Кластеризация текстовых документов позволяет организовывать большие объемы информации, выделяя и группируя материалы по их семантической близости, что облегчает дальнейшую обработку и анализ.Цель данной статьи — провести анализ существующих алгоритмов для кластеризации текстовых документов.Для сравнительного анализа выбраны алгоритмы кластеризации K-Means, иерархической кластеризации и DBSCAN. Кратко опишем, как работают эти три алгоритма кластеризации:K-Means — это метод кластеризации, целью которого является разделение n наблюдений на k кластеров так, чтобы каждое наблюдение принадлежало кластеру с ближайшим средним (центроидом) [3].Иерархическая кластеризация стремится построить иерархию кластеров [1]. Она может быть реализована двумя основными способами: Агломеративная (снизу вверх) и Дивизивная (сверху вниз). На каждом шаге расстояние между кластерами измеряется различными способами, например, методом ближайшего соседа, дальнего соседа или среднего расстояния.DBSCAN (Density-Based Spatial Clustering of Applications with Noise)DBSCAN — это алгоритм кластеризации, который разделяет точки на три типа: ядро, граница и шум, на основе плотности точек [2]. DBSCAN хорошо работает с данными произвольной формы и способен обнаруживать выбросы, что делает его особенно полезным в применениях, где форма кластеров неизвестна или где присутствует много шума.Выбор датасетаВ качестве данных для оценки алгоритмов и последующего обучения был выбран датасет новостей с сайта lenta.ru. Выбор этого датасета является обоснованным по нескольким причинам, которые делают его подходящим исходным материалом для таких задач:1. Разнообразие темНа lenta.ru публикуются новости, охватывающие широкий спектр тем, включая политику, экономику, науку, культуру, спорт и технологии.2. Большой объем и актуальностьLenta.ru является одним из крупнейших и наиболее посещаемых новостных сайтов, предлагающим обширный архив статей.3. Структурированность данныхНовости на lenta.ru хорошо структурированы, часто содержат метаданные, такие как дата публикации, автор, теги и категории.Рис. 1. Пример экземпляра датасета c новостями lenta.ruПредобработка данных.Для всех алгоритмов тексты были предварительно обработаны: удалены стоп-слова, проведена лемматизация и использованы TF-IDF векторы для векторизации текстов.Настройка параметров.Для K-Means было выбрано оптимальное число кластеров K по методу локтя.В иерархической кластеризации использовался метод Ward для минимизации:вариации внутри кластеров [4]. DBSCAN был настроен с параметрами минимального числа точек и эпсилон, определёнными на основе предварительного анализа плотности данных.Результаты экспериментов.Таблица 1. Результирующие метрики по итогам обучения.Анализ результатов. K-Means продемонстрировал лучшие результаты по всем метрикам. Высокая точность и мера F1 указывают на эффективное разделение документов по темам. Коэффициент силуэта свидетельствует о хорошем разделении кластеров, что делает K-Means предпочтительным выбором для кластеризации текстовых документов в данном эксперименте.Иерархическая кластеризация показала себя неплохо, особенно в плане полноты, что говорит о способности алгоритма включать в кластеры большинство документов, соответствующих темам. Однако более низкий коэффициент силуэта по сравнению с K-Means указывает на менее чёткое разделение кластеров.DBSCAN оказался менее эффективен в данной задаче. Несмотря на его способность обнаруживать кластеры произвольной формы, параметры алгоритма было сложнее настроить для достижения высокой точности и полноты по сравнению с другими методами. Более низкие значения коэффициента силуэта также указывают на то, что кластеры были менее отделены друг от друга.
Номер журнала Вестник науки №4 (73) том 3
Ссылка для цитирования:
Артамонов С.В. АНАЛИЗ АЛГОРИТМОВ ДЛЯ КЛАСТЕРИЗАЦИИ ТЕКСТОВЫХ ДОКУМЕНТОВ // Вестник науки №4 (73) том 3. С. 385 - 389. 2024 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/13967 (дата обращения: 06.12.2024 г.)
Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2024. 16+
*