'
Никитина О.А.
СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ NLP ДЛЯ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ КОРПОРАТИВНЫХ ДОКУМЕНТОВ *
Аннотация:
в статье рассматривается проблема автоматизации обработки неструктурированных корпоративных документов. Целью исследования является сравнительный анализ современных методов NLP для задач классификации и кластеризации документов на реальном корпусе внутренней документации крупной промышленной компании. Статья содержит практические рекомендации по выбору NLP-стека для построения интеллектуальных аналитических систем документов в корпоративной среде.
Ключевые слова:
обработка естественного языка, классификация документов, кластеризация документов, корпоративные документы, машинное обучение, сравнительный анализ
Эффективное управление корпоративной документацией – договорами, отчетами, регламентами, протоколами – является критически важной задачей для обеспечения операционной деятельности, соответствия требованиям регуляторов и управления рисками. Объемы неструктурированных текстовых данных в организациях растут экспоненциально, делая ручную обработку и категоризацию документов трудоемкой, дорогой и подверженной ошибкам задачей. Интеллектуальные аналитические системы, основанные на методах обработки естественного языка (Natural Language Processing, NLP), предлагают путь к автоматизации этих процессов.Две ключевые NLP-задачи в данном контексте – это классификация (отнесение документа к одной из предопределенных рубрик, например, «Договор аренды», «Финансовый отчет», «Внутренний регламент») и кластеризация (автоматическое выявление латентных тематических групп в документах без предварительной разметки, что полезно для аудита и анализа неизвестных архивов).Сегодня разработчик стоит перед широким выбором методов: от проверенных временем классических алгоритмов машинного обучения (ML) до передовых трансформерных архитектур (BERT, GPT) и специализированных промышленных инструментов (spaCy). Однако в академической литературе недостаточно сравнительных исследований, выполненных на реальных корпоративных данных, которые характеризуются специфической лексикой, смешанными жанрами и зачастую ограниченным объемом размеченных примеров.Цель данного исследования – провести комплексное практико-ориентированное сравнение различных методов NLP для задач классификации и кластеризации на актуальном корпусе корпоративных документов. Фокус сделан не только на итоговой метрике точности, но и на таких практических аспектах, как потребность в размеченных данных, скорость обучения/вывода и требования к инфраструктуре, что критически важно для принятия инженерных решений при построении реальных систем.Для сравнения были выбраны четыре репрезентативных подхода, покрывающих спектр современных возможностей:Классические ML-алгоритмы (Baseline). Векторизация текста с помощью TF-IDF (максимум 20 000 признаков, стемминг). Классификация с использованием SVM (Support Vector Machine) и Logistic Regression. Для кластеризации – K-Means на основе матрицы TF-IDF.Контекстуальные эмбеддинги на основе трансформеров (RuBERT). Использовалась предобученная модель cointegrated/rubert-tiny2, дообученная на голову классификации для нашего набора данных. Извлечение эмбеддингов из последнего скрытого слоя [CLS]-токена для использования в задачах кластеризации.Крупные языковые модели (LLM) для zero-shot классификации (GPT). Использовался API OpenAI gpt-3.5-turbo-instruct с промптом вида: «Классифицируй документ по одной из категорий: [список]. Документ: [текст]». Данный подход не требует обучения на размеченных данных.Современные методы кластеризации для NLP. Комбинация UMAP (Uniform Manifold Approximation and Projection) для нелинейного снижения размерности эмбеддингов и HDBSCAN (Hierarchical Density-Based Spatial Clustering) для обнаружения кластеров произвольной формы.Эксперименты проводились на анонимизированном корпусе внутренних документов крупной промышленной компании объемом ~15 000 документов. После очистки (удаление пустых, дубликатов, шаблонных форм) осталось 9 847 документов. Для задачи классификации использовалась выборка из 3 200 документов, размеченных экспертами компании по 8 категориям: Договор, Протокол, Отчет, Регламент, Письмо, Приказ, Акт, Иное. Соотношение train/test – 70/30.Для кластеризации использовался более широкий набор (7 000 документов) без использования разметки.Предобработка: Удаление служебных символов, приведение к нижнему регистру, лемматизация (с использованием pymystem3).Метрики: Precision, Recall, F1-score (macro-averaged), Accuracy.Критерии ресурсов:Требования к данным: Объем размеченной обучающей выборки.Вычислительные затраты: Время обучения модели (сек.), время инференса на одном документе (мс), потребление оперативной памяти (ГБ).Стоимость (для GPT): Условная стоимость в USD за классификацию 1000 документов через API.Метрики: Для размеченного подмножества – Adjusted Rand Index (ARI), Normalized Mutual Information (NMI). Для всей выборки – Silhouette Score на эмбеддингах, субъективная экспертиза тематической связности топ-термов в кластерах.Критерии ресурсов: Время формирования эмбеддингов и выполнения кластеризации.Таблица 1. Сравнительные результаты классификации. Классические методы (TF-IDF + SVM/LogReg) подтвердили свою эффективность как сильный бейзлайн. Они обеспечивают высокое быстродействие и приемлемое качество при наличии достаточного количества размеченных данных. Их главное преимущество – простота интерпретации и низкие требования к инфраструктуре.Трансформерные модели (RuBERT) показали превосходство в точности, что обусловлено их способностью учитывать контекст и семантику слов. Однако это достигается ценой значительных вычислительных затрат на этапе дообучения и необходимости использования GPU для приемлемой скорости. Данный подход оптимален для задач, где точность является приоритетом, и есть ресурсы для обучения/обслуживания модели.Zero-shot подход с GPT представляет собой принципиально иной путь, не требующий сбора обучающей выборки. Полученное качество (F1=0.82) уступает обученным моделям, но может быть достаточным для прототипирования или работы с часто меняющимся набором категорий. Основные ограничения – стоимость, скорость (определяется API) и конфиденциальность данных (передача документов внешнему сервису).K-Means на TF-IDF: Быстрая кластеризация, но низкое качество (Silhouette = 0.12). Кластеры слабо интерпретируемы, метод плохо работает с разнородными по длине документами.RuBERT + UMAP + HDBSCAN: Позволил получить семантически осмысленные кластеры (Silhouette = 0.31). Были выделены группы, соответствующие не только формальным типам документов, но и темам (например, «документы по закупкам», «кадровые документы», «технические спецификации»). Метод устойчив к шуму (выделяет выбросы) и не требует задания числа кластеров. Основной недостаток – сложность настройки гиперпараметров UMAP/HDBSCAN.На основе проведенного анализа сформулированы рекомендации по выбору метода для построения корпоративных аналитических систем:Приоритет скорости/простота и есть размеченные данные: Используйте классические методы на базе TF-IDF и SVM. Это надежное и интерпретируемое решение для MVP и систем с жесткими требованиями к времени отклика.Приоритет максимальной точности и есть ресурсы для обучения: Инвестируйте в дообучение компактной BERT-подобной модели (например, RuBERT-tiny). Это обеспечит долгосрочное качество и может стать ядром интеллектуальной системы.Отсутствие размеченных данных, быстрое прототипирование: Рассмотрите zero-shot подход с LLM (GPT) для начального этапа. Полученные результаты можно использовать для создания начальной разметки (data labeling) с последующим обучением более дешевой и быстрой локальной модели.Для разведочного анализа и аудита больших архивов: Применяйте пайплайн BERT-эмбеддинги + UMAP + HDBSCAN. Это наиболее мощный метод для обнаружения скрытых тематических структур.В работе проведено практическое сравнение современных NLP-подходов к задачам классификации и кластеризации корпоративных документов. Эксперименты на реальных данных показали, что не существует универсального «лучшего» метода. Выбор определяется компромиссом между точностью, доступностью размеченных данных, вычислительными ресурсами и бюджетом.Классические методы остаются конкурентноспособными для многих прикладных задач. Трансформерные модели задают новый стандарт точности, но требуют соответствующей инфраструктуры. Zero-shot классификация с помощью LLM открывает новые возможности для быстрого старта проектов.Полученные результаты и рекомендации предоставляют ценную основу для инженеров и архитекторов, проектирующих интеллектуальные системы анализа корпоративной документации, позволяя сделать обоснованный выбор технологического стека.
Номер журнала Вестник науки №12 (93) том 3
Ссылка для цитирования:
Никитина О.А. СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ NLP ДЛЯ КЛАССИФИКАЦИИ И КЛАСТЕРИЗАЦИИ КОРПОРАТИВНЫХ ДОКУМЕНТОВ // Вестник науки №12 (93) том 3. С. 1355 - 1361. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/27652 (дата обращения: 09.02.2026 г.)
Вестник науки © 2025. 16+