'
Костенко Д.А., Решетова И.С.
ПОТЕНЦИАЛ КОМПЬЮТЕРНЫХ ПРОГРАММ В СТИЛИСТИЧЕСКОМ И ПЕРЕВОДЧЕСКОМ АНАЛИЗЕ ТЕКСТА: ПРАКТИЧЕСКИЕ АСПЕКТЫ ПРИМЕНЕНИЯ *
Аннотация:
данная статья исследует потенциал компьютерных программ для анализа текстов с точки зрения стилистики и перевода, а также рассматривает их практическое применение. В работе освещаются современные методы и технологии, используемые для анализа текстов, включая стилистические и переводческие аспекты. Приводятся примеры использования компьютерных программ в лингвистических и переводческих исследованиях, а также обсуждаются практические сферы их применения в различных областях. Данная статья представляет собой обзор современных методов анализа текста с использованием компьютерных программ и демонстрирует их значимость в практическом контексте.
Ключевые слова:
компьютерные программы, стилистический анализ, переводческий анализ, текстовый анализ, языковые технологии, автоматизированный анализ, языковая обработка, компьютерная лингвистика
В современную эпоху цифровых технологий компьютерные программы стали незаменимыми инструментами для исследователей в различных областях, включая лингвистику. Эти программы предлагают широкий спектр возможностей для стилистического и переводческого анализа текста, что значительно расширяет возможности исследователей. В данной статье мы рассмотрим потенциал компьютерных программ в этих областях и обсудим практические аспекты их применения.Анализ и изучение текстов зависит от индивидуального восприятия и творческой интерпретации исследователя. В настоящее время разрабатывается множество программных приложений для разнообразного анализа текстов, включая проверку авторства, выявление сочетаемости слов и эмоциональной окраски текста. В гуманитарных науках существует большое программное обеспечение, однако его применение в филологических исследованиях при интерпретации текста остается редким. На основе пятилетнего опыта использования веб-инструментов мы опишем результаты стилистического и лингвистического анализа текстов.Цифровые технологии бурно развиваются, что способствует росту интереса к стилистике. Это привело к появлению цифровых лингвистически аннотированных корпусов. Взаимодействие с такими корпусами в настоящее время стало одним из ведущих методов лингвистических исследований, позволяющим решать широкий спектр задач. Один из крупных проектов, основанный на Национальном корпусе русского языка (НКРЯ), — это раздел учебного портала "Проблемы русской стилистики", руководимый А.И. Левинзоном и Ю.М. Кувшинской [2]. Авторы проекта изучают закономерности выбора лексических единиц и их частоту употребления в речи. Полное лингвистическое аннотирование текстов и удобные возможности поиска облегчают сбор исследовательских данных. Национальные языковые корпусы также могут использоваться в преподавании иностранных языков и литературы для многомерного анализа стиля и языка автора. Однако, частое употребление лексических единиц не всегда является релевантным при изучении стиля, поскольку широкий охват всех возможных текстов в лингвистических корпусах затрудняет глубокое изучение текстов отдельных авторов, включая и современны нехудожественные тексты.Инструменты обработки естественного языка представляют собой специализированные продукты, используемые для анализа художественных текстов. Некоторые исследовательские статьи предоставляют обзор инструментов, позволяющих проводить лингвистическую обработку текста [4]. Однако филологи в основном избегают использования компьютерных программ в своей работе, игнорируя цифровизацию гуманитарных дисциплин (Digital Humanities) [7]. В данной статье рассматриваются только программы, помогающие в анализе и интерпретации литературных текстов. Программы для фонетического и фонологического анализа текста, электронные словари, инструменты автоматической индексации и извлечения терминологии не рассматриваются.Все существующие инструменты и программы могут быть разделены на две категории:1) программы для анализа морфологии и синтаксиса текстов,2) программы для статистического анализа текста.Каждый из этих инструментов может быть полезен для филологов, поскольку обладает своими преимуществами. Давайте более подробно разберем различия между TextAnalyst 2 и LEKTA, двумя программами для анализа текста, акцентируя внимание на их функциональных возможностях и целевом назначении. Понимание этих различий критично для выбора наиболее подходящего инструмента для конкретной задачи. Важно отметить, что конкретный функционал может варьироваться в зависимости от версии программного обеспечения и доступных модулей. TextAnalyst 2 – это более мощный и многофункциональный инструмент, ориентированный на количественный анализ больших текстовых массивов. Он предоставляет широкие возможности для статистического анализа текстов, позволяя исследователю выявлять закономерности, которые могут быть незаметны при ручном анализе. Программа исследует большие текстовые корпусы для выявления частотности слов, грамматических конструкций, стилистических особенностей и т.д., проводит анализ тем и ключевых слов в текстах, кластеризацию документов по тематике, определяет эмоциональную окраску текста (положительная, отрицательная, нейтральная) сравнивает стили разных авторов, периодов литературы и т.д. Плюсы данной программы: Мощный функционал: широкий набор инструментов для разных типов анализа. Обработка больших объемов данных: эффективно работает с крупными текстовыми корпусами. Количественные показатели: предоставляет точные количественные данные, что позволяет делать объективные выводы. Гибкость настройки: возможность настраивать параметры анализа под конкретные задачи. Минусы: Сложность использования: требует определенных знаний в области лингвистики и анализа данных. Цена: платная программа. Фокус на количественном анализе: может быть менее эффективным для качественного анализа тонких нюансов текста.В общем и целом, TextAnalyst 2, разработанный в 2001 году [3], предлагает ряд полезных функций для автоматического анализа русских и английских текстов, таких как выделение основного содержания текста, создание гипертекстовых баз данных и поиск информации в текстах. Также стоит отметить такие функции, как контент-анализ с гиперссылками, семантический поиск связей между словами и автоматически создаваемая "выжимка" текста, представляющая собой семантический портрет текста с ключевыми словами и содержательными фразами.Следующие функции ресурса представляют интерес: анализ контента с использованием гиперссылок для выявления семантической структуры текста в виде иерархии тем и подтем, поиск семантических связей между словами с учетом скрытых семантических связей и контекста, автоматическое создание краткого содержания текста, представляющее собой семантический обзор с ключевыми словами и содержательными фразами. Опыт работы над проектами в области цифровых гуманитарных наук показывает, что использование программ для анализа литературных текстов затруднено из-за нескольких факторов, таких как отсутствие информации о работоспособности ресурсов, их дороговизна, отсутствие открытого доступа и неясные инструкции для пользователей без специальных знаний. Тем не менее, практическое применение некоторых веб-инструментов продемонстрировало разнообразные возможности для анализа и интерпретации литературных текстов при помощи современных программ. Следующая программа LEKTA, как правило, представляет собой более узкоспециализированное программное обеспечение, ориентированное на качественный анализ текста. Её функциональность может варьироваться в зависимости от конкретной версии и реализации, но обычно она используется для идентификации терминов и концептов, важных для понимания текста, выявление связей между разными частями текста и их значениями, представление результатов анализа в графическом виде (например, сети связей между словами), выявление сходств и различий между разными текстами или частями текста, исследование контекста, в котором используются ключевые слова. Из плюсов мы выделили: Простота использования: обычно имеет более интуитивно понятный интерфейс, чем TextAnalyst Фокус на качественном анализе: позволяет глубже понять смысл текста и его тонкости. Визуализация данных: предоставляет наглядные графики и диаграммы, облегчающие интерпретацию результатов. Изучение отдельных текстов: хорошо подходит для углубленного анализа небольших текстов. Из минусов: Ограниченный функционал: менее мощная, чем TextAnalyst 2, и не всегда подходит для анализа больших корпусов текстов. Меньшая объективность: результаты анализа могут быть более зависящими от субъективных оценок исследователя. Возможность отсутствия количественных показателей: некоторые версии LEKTA могут не предоставлять количественных данных, таких как частота слов.Ученые протестировали программу LEKTA, которая помогает специалистам по лингвистике анализировать тексты, выявляя стилистические особенности дискурса и стратегии перевода [3].Программа LEKTA, разработанная в Нижегородском университете, также использовалась в компьютерном анализе текстов. Программа LEKTA применима для различных задач, связанных с обработкой естественного языка, включая сочетание качественных и количественных методов. Данный подход позволяет идентифицировать семантические особенности текста на основе его внешних характеристик, что помогает сделать выводы об авторском стиле и намерениях. Однако контент-анализ имеет ограничения: он формализует текстовый анализ и не может достоверно интерпретировать тексты с большим количеством метафор, сложной языковой игрой и запутанным сюжетом.Пример:“The cat sat on the mat".Контент-анализ:Количество слов: 5,Количество уникальных слов: 4,Средняя длина слова: 3,2,Наиболее часто встречающееся слово: "the".Семантическая категория: Простое повествовательное предложение [5].Из этого анализа содержания мы можем сделать вывод, что текст представляет собой простое и понятное изложение. Однако мы не можем определить намерения автора или стиль только на основе этой информации, для этого необходимо использовать более глубокие методы анализа, например программа MALLET (MAchine Learning for LanguagE Toolkit): Java-библиотека для статистического машинного обучения, включая топический моделирования (выявление скрытых тем в тексте). Помогает понять основную идею и намерения автора.Нами проанализировано произведение "Гадкий утёнок" Ханса Кристиана Андерсена. Для анализа сказки Х.К. Андерсена "Гадкий утёнок" была выбрана программы LEKTA и TextAnalyst. Простота и эмоциональность стиля, фокус на внутреннем мире персонажа и его трансформации делают сказку подходящей для анализа. Программа LEKTA помогла полуавтоматически найти ключевые слова и фразы, отражающие ключевые темы и эмоциональные состояния. Факторный анализ (сравнение совпадающих слов) способствовал более обоснованным выводам о поверхностном сюжете и скрытых темах, связанных с самоидентификацией, принятием и преодолением трудностей. При исследовании оригинального датского текста и его русских переводов было обнаружено, что многие ключевые слова связаны с противопоставлением: "гадкий" - "красивый", "одинокий" - "принятый", "уродливый" - "прекрасный". Анализ показал, как эти контрасты формируют эмоциональный путь главного героя и подчеркивают тему самоактуализации. Например, слова, описывающие внешний вид утёнка на разных этапах, — "серый", "нескладный", "большой", "неуклюжий" в начале сказки — противопоставлены описаниям его взрослой формы — "белый", "красивый", "гордый", "свободный". Это позволило выявить ключевую тему сказки — преодоление внешних и внутренних преград на пути к самореализации. Анализ выявленных противопоставлений ("гадкий" -"красивый", и т.д.) позволяет оценить, насколько успешно переводчики передают контрасты, важные для понимания темы самоактуализации.Анализ данного произведения в программе TextAnalyst 2 построил частотный словарь, показав, какие слова встречаются чаще всего. Ожидаемо, слова, связанные с внешностью утёнка ("гадкий", "серый", "нескладный", "белый", "красивый"), его эмоциональным состоянием ("одинокий", "несчастный", "счастливый", "гордый") и окружающей средой ("пруд", "птицы", "ферма"). Это подкреплено количественными данными — абсолютной и относительной частотой слов. TextAnalyst 2 проанализировал не только отдельные слова, но и их сочетания (биграммы, триграммы и т.д.). Это помогло выявить ключевые фразы и выражения, характерные для сказки. Например, "гадкий утёнок", "прекрасная птица", "одинокий путь". TextAnalyst 2 проанализировал эмоциональную окраску текста. В начале сказки тональность была определена как преимущественно негативная (из-за описания страданий утёнка), а в конце — как положительная (из-за его счастья и принятия). График изменения тональности во времени дал бы наглядное представление о динамике эмоционального состояния героя. Гипотетический анализ с помощью TextAnalyst 2 позволил получить количественные данные, подтверждающие качественный анализ, проведённый в исходном тексте. Программа подтвердила наличие ключевых тем, противопоставлений и динамики эмоционального состояния главного героя, предоставив при этом объективные количественные метрики. Однако, тонкие нюансы и символизм сказки потребовали бы человеческой интерпретации, которую TextAnalyst 2 не может предоставить. Если в переводе эти контрасты сглаживаются или теряются, это указывает на определенную стратегию перевода, возможно, направленную на упрощение текста или адаптацию его к целевой аудитории. Например, в дословном переводе переводчик стремится максимально точно передать каждое слово и выражение оригинала, возможно, даже в ущерб стилистическим или эмоциональным нюансам. В результате, контрасты могут быть сохранены, но текст может звучать несколько неестественно на русском языке. В то время как, в адаптационном переводе лингвист может внести изменения в текст, чтобы он лучше воспринимался целевой аудиторией. Это может привести к смягчению контрастов или их замене на другие, более значимые для русскоязычных читателей. Программа LEKTA помогает выявить, какая стратегия перевода была применена в конкретном случае, путем количественного анализа частоты слов и фраз в оригинале и переводе. В результате можно сравнить степень сохранения ключевых контрастов и оценить качество перевода с точки зрения передачи основной идеи и эмоционального воздействия сказки. Сравнив два анализа, LEKTA помогла выявить ключевые темы самоидентификации, принятия и преодоления трудностей. Анализ контекста слов помог понять, как автор показывает трансформацию главного героя. Визуализация данных проиллюстрировала эмоциональный путь утёнка. В центре внимания смысловые и контекстуальные нюансы, в то время как, TextAnalyst 2 построил частотный словарь, определил ключевые слова и темы, проанализировал изменения тональности на протяжении сказки. Это помогло объективно оценить, насколько часто встречаются слова, связанные с внешностью, эмоциями и действиями главного героя. Количественные данные подтвердили наличие контрастов между началом и концом сказки. В итоге, выбор между TextAnalyst 2 и LEKTA зависит от целей исследования. Если нужен количественный анализ больших данных, TextAnalyst 2 будет лучшим выбором. Если важно глубокое понимание смысла и контекста отдельного текста или небольшой коллекции текстов, то LEKTA (или подобные программы) будет более подходящим инструментом.Использование программных инструментов в экспериментах показало, что они эффективны для выбора стратегии перевода, анализа словосочетаний и контекстного анализа. Идея противопоставления " текста и компьютерного анализа" несостоятельна, поскольку она основана на двух ошибочных предположениях: "компьютер может оценить любой смысловой оттенок" и "лингвистические исследования не требуют компьютерного анализа вообще". Как уже упоминалось, обсуждаемые программы не предназначены специально для анализа и не стремятся полностью заменить исследователя. Переводчики, лингвисты и литературоведы должны быть открыты для новых возможностей, предоставляемых цифровизацией филологии. В то же время эти компьютерные инструменты нужно тестировать на новых материалах, чтобы выявить возможные ограничения в их применении. Каждая программа требует определенных навыков для своей работы. Все эти программы имеют одно общее преимущество: они могут обрабатывать большие объемы текстов гораздо быстрее, чем традиционные методы работы с бумажными носителями. Дигитализация всех сфер жизни, включая научную, требует от филологов изучения новых направлений (цифровые гуманитарные науки) и практического применения инновационных подходов к интерпретации и анализу текстов. Эти навыки постепенно приобретаются и успешно используются, несмотря на нехватку ИТ-специалистов, которые могли бы оказывать техническую и образовательную поддержку в университетах. Более того, создание языкового корпуса или учебной коллекции текстов - процесс трудоемкий, требующий специальной подготовки и скоординированной работы филологов и программистов. Но как только эта работа завершена, перед исследователями открывается множество новых возможностей для интерпретации слов или стиля конкретного автора или переводчика. Поэтому настоятельно рекомендуется чаще использовать программы, упомянутые в этой статье. Однако важно уметь выбирать компьютерные программы и подходящие методы контент-анализа, четко сопоставляя требования исследования с целями исследователя. Исследования, представленные в статье, являются примером такого осознанного выбора. Сфера исследований на стыке компьютерных и гуманитарных наук постоянно расширяется. Но компьютерный анализ не может заменить лингвистическую интерпретацию, проводимую самим филологом. Результаты компьютерного анализа доказывают свою надежность и эффективность и являются многообещающими в области литературоведческого анализа, поэтому заслуживают дальнейшего внимания научного сообщества.
Номер журнала Вестник науки №6 (87) том 2
Ссылка для цитирования:
Костенко Д.А., Решетова И.С. ПОТЕНЦИАЛ КОМПЬЮТЕРНЫХ ПРОГРАММ В СТИЛИСТИЧЕСКОМ И ПЕРЕВОДЧЕСКОМ АНАЛИЗЕ ТЕКСТА: ПРАКТИЧЕСКИЕ АСПЕКТЫ ПРИМЕНЕНИЯ // Вестник науки №6 (87) том 2. С. 1367 - 1378. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/24055 (дата обращения: 08.07.2025 г.)
Вестник науки © 2025. 16+
*