'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №5 (86) том 3
  4. Научная статья № 181

Просмотры  132 просмотров

Орловский К.А.

  


СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ КЛАССИФИКАЦИИ ТЕКСТОВ: ОТ КЛАССИЧЕСКИХ МОДЕЛЕЙ К ТРАНСФОРМЕРАМ *

  


Аннотация:
в работе представлен обзор методов машинного обучения для автоматической классификации текстовых документов – от традиционных алгоритмов до современных глубинных нейросетевых моделей. Обсуждаются наивный Байес, метод опорных векторов, случайный лес и модель BERT, отражающая последние достижения в обработке естественного языка. Для каждого метода кратко рассмотрены математические основы, особенности применения к текстовым данным, преимущества и ограничения. Приводятся сведения о представлении текстов (модель “мешок слов”, TF-IDF, эмбеддинги слов) и о влиянии дисбаланса классов. Сравнительный анализ демонстрирует эволюцию качества классификации – от базовых подходов, эффективных на небольших наборах данных, к трансформерам, задающим новый стандарт точности.   

Ключевые слова:
классификация текста, машинное обучение, наивный Байес, метод опорных векторов, случайный лес, трансформеры   


Введение. Классификация текстовых документов – ключевая задача обработки естественного языка (NLP) и машинного обучения, имеющая множество приложений: фильтрация спама, тематическая сортировка новостей, анализ тональности отзывов, категоризация научных статей и др. Цель такой задачи – обучить модель, способную автоматически присваивать документу правильную категорию на основании его содержимого. Существуют различные подходы к этой задаче, что отражено в большом количестве исследований [1, 2]. Методы классификации текстов условно делятся на классические алгоритмы машинного обучения и современные методы глубинного обучения [1]. К первым относятся, например, наивный Байес, метод опорных векторов, случайный лес и другие модели, применявшиеся с 1990-х – 2000-х годов. Эти алгоритмы относительно просты в реализации и интерпретации, требовательны лишь к базовым вычислительным ресурсам и могут показывать конкурентоспособную точность на небольших датасетах или коротких текстах. С другой стороны, современные глубокие нейросетевые модели (например, BERT от Google) достигли рекордной точности на ряде сложных NLP-задач. Такие модели учитывают контекст и порядок слов, но требуют больших объемов данных для обучения и существенных вычислительных ресурсов (GPU, распределенные системы и т.д.). Несмотря на успехи нейросетей, классические алгоритмы не теряют актуальности: они часто служат базовыми линиями (baseline) для сравнения, входят в состав гибридных решений и применяются там, где критичны быстрота и простота модели.В данной статье представлен сравнительный обзор методов машинного обучения для классификации документов. Кратко описаны математические основы ключевых алгоритмов – наивного Байеса, SVM, случайного леса, трансформеров (BERT) – а также упомянуты другие подходы. Описываются способы представления текстовых данных для моделей и обсуждаются преимущества и недостатки методов применительно к задачам текстовой классификации. Наконец, приводятся сравнительные результаты и выводы, позволяющие оценить эволюцию качества от классических моделей к современным.Представление текстовых данных и дисбаланс классов. Прежде чем перейти к алгоритмам, рассмотрим, как текстовые данные подготавливаются для классификации. Сырые тексты необходимо преобразовать в числовые признаки, поскольку большинство алгоритмов работают с векторами фиксированной размерности. Классический подход – модель «мешок слов» (Bag-of-Words) и ее улучшенная версия TF-IDF. В этой модели каждому уникальному слову из словаря соответствует признак, значение которого равно частоте этого слова в документе либо взвешено по TF-IDF. Такой способ векторизации приводит к очень высокой размерности признакового пространства (количество признаков равно размеру словаря корпуса) и разреженности векторов (большинство слов отсутствует в данном документе). Тем не менее, представление текста в виде мешка слов успешно применялось с классическими алгоритмами. В частности, еще в 1998 г. Йоахимс продемонстрировал эффективность SVM на задачах текстовой классификации, используя именно мешок слов в качестве признаков [2].Помимо высокой размерности, текстовые датасеты часто характеризуются неравномерным распределением классов. В реальных сборниках документов одни категории могут содержать значительно больше примеров, чем другие. Этот дисбаланс классов может приводить к тому, что модель “выучивает” преимущественно частые классы и игнорирует редкие, что снижает качество классификации. При разработке решений важно анализировать распределение данных и при необходимости применять методы борьбы с дисбалансом (взвешивание классов, oversampling/undersampling и др.). Отметим, что некоторые алгоритмы более устойчивы к малому числу примеров: например, вероятностные модели (наивный Байес) способны выдавать приемлемые результаты даже при очень небольшом обучающем наборе, тогда как для сложных моделей (SVM, нейросети) обычно требуется не менее нескольких десятков примеров на класс.Со временем появились способы представления текстов, выходящие за рамки мешка слов. Эмбеддинги слов – плотные векторные представления, отображающие семантику – стали важным шагом вперед. Например, модели word2vec [3] и GloVe [4] позволили получать для каждого слова непрерывный вектор фиксированной размерности, который обучается на большой текстовой коллекции и отражает смысловые связи: близкие по значению слова имеют близкие векторы. Существенным развитием идеи стали контекстуальные эмбеддинги, получаемые из моделей типа BERT. В отличие от статических эмбеддингов (где у слова одно и то же представление вне зависимости от контекста), контекстные эмбеддинги генерируются с учетом окружающего текста, поэтому одно и то же слово в разных предложениях будет иметь разные векторные представления, отражающие нюансы смысла. Такие технологии глубоко связаны с нейросетевыми моделями и подробнее рассматриваются далее на примере BERT. Тем не менее, классические этапы предобработки текста – удаление стоп-слов, лемматизация/стемминг, нормализация частот – остаются важными: они могут улучшить качество любого алгоритма, уменьшая шум и размерность данных.Классические методы машинного обучения для классификации текстов. Наивный Байес (Naive Bayes). Наивный байесовский классификатор – один из самых простых и эффективных базовых алгоритмов для классификации текстов. Он основан на теореме Байеса и предположении о условной независимости признаков: считается, что слова в документе независимы друг от друга при условии класса. Несмотря на очевидную нереалистичность этого предположения для языка, NB часто показывает неожиданно высокую точность. Классический пример – задача фильтрации спама: наивный Байес десятилетиями остается основой многих антиспам-фильтров и позволяет достичь очень высокой точности разделения спама и обычной почты. NB популярен благодаря простоте реализации и скорости работы: оценка параметров сводится к подсчету частот слов в текстах каждого класса. Математически алгоритм вычисляет апостериорные вероятности классов для входного документа с признаковым вектором   


Полная версия статьи PDF

Номер журнала Вестник науки №5 (86) том 3

  


Ссылка для цитирования:

Орловский К.А. СРАВНИТЕЛЬНЫЙ АНАЛИЗ АЛГОРИТМОВ КЛАССИФИКАЦИИ ТЕКСТОВ: ОТ КЛАССИЧЕСКИХ МОДЕЛЕЙ К ТРАНСФОРМЕРАМ // Вестник науки №5 (86) том 3. С. 1430 - 1443. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/23169 (дата обращения: 09.07.2025 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/23169



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки © 2025.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.