'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №6 (87) том 1
  4. Научная статья № 184

Просмотры  115 просмотров

Макаров П.А., Крыжевич Л.С.

  


ИССЛЕДОВАНИЕ МОДЕЛИ LSTM ДЛЯ УЛУЧШЕНИЯ АНАЛИЗА ФЕЙКОВЫХ НОВОСТЕЙ *

  


Аннотация:
распространение фейковых новостей в цифровом пространстве угрожает информационной безопасности общества, влияя на восприятие событий в политике, здравоохранении, образовании и других сферах. Традиционные методы анализа текста (например, статистические подходы) часто не учитывают контекст и временные зависимости в последовательностях данных, что снижает их эффективность. Рекуррентные нейронные сети (RNN), в частности архитектуры LSTM, способны анализировать текстовые данные с учётом долгосрочных зависимостей, что делает их перспективным инструментом для решения этой задачи.   

Ключевые слова:
фейковые новости, обработка естественного языка, стемминг, бинарная классификация   


В современном информационном обществе новостные источники выполняют важнейшую функцию, обеспечивая людей актуальными сведениями о различных аспектах жизни. Однако параллельно с этим наблюдается опасная тенденция: массовое распространение дезинформации приводит к тому, что значительная часть аудитории начинает доверять ложным сообщениям, теряя при этом способность адекватно оценивать проверенную информацию.В данной статье исследуются методы выявления фейковых новостей с применением библиотеки для обработки естественного языка (NLTK), алгоритмов Scikit Learn и рекуррентных нейронных сетей (RNN), в частности, архитектуры LSTM (Long Short-Term Memory).Рекуррентные нейронные сети (RNN) — это класс нейросетевых моделей, где результаты предыдущего этапа обработки передаются в качестве входных данных для текущего шага. В отличие от традиционных нейронных сетей, где входы и выходы рассматриваются как независимые величины, RNN учитывают контекст. Например, для предсказания следующего слова в предложении модель должна анализировать последовательность предыдущих слов, что требует механизма запоминания. Именно эту задачу решают RNN, используя скрытые слои, которые сохраняют информацию о предыдущих состояниях [1].Самая важная особенность RNN — это скрытое состояние, которое запоминает некоторую информацию о последовательности. RNN имеет «память», которая запоминает всю информацию о том, что было рассчитано. Он использует одни и те же параметры для каждого входа, поскольку выполняет одну и ту же задачу на всех входах или скрытых слоях для создания выходных данных. Это снижает сложность параметров, в отличие от других нейронных сетей.Рекуррентные нейронные сети (RNN) не содержат ячеек памяти — их основу составляют скрытые состояния, которые выполняют роль механизма запоминания. Эти состояния позволяют сети сохранять контекстную информацию на протяжении последовательной обработки данных. Однако классические RNN демонстрируют ограничения в задачах, где требуется анализ долгосрочных временных зависимостей. Это связано с явлением исчезающего градиента: при обучении градиент функции потерь значительно уменьшается экспоненциально с увеличением временного интервала, что затрудняет корректировку весов для ранних элементов последовательности [1].Сети с долгой краткосрочной памятью (LSTM), являясь модификацией RNN, решают эту проблему за счет введения специализированных структур. В отличие от стандартных RNN, блоки LSTM оснащены ячейкой памяти, способной длительно хранить информацию (см. рис. 1), и системой вентилей (гейтов). Эти гейты — входной, выходной и гейт забывания — регулируют процессы обновления, извлечения и удаления данных из ячейки, что обеспечивает точный контроль над долгосрочными зависимостями [1].Рисунок 1. RNN Unit и LSTM Unit.Следующим шагом после очистки данных является предварительная обработка данных. Обработка данных — это просто преобразование 91 необработанных данных в значимую информацию посредством процесса. Он формирует основу для любых формулировок задач машинного обучения/глубокого обучения.Импорт необходимых библиотек:import tensorflow as tf # для обучения глубоких нейронных сетей,tensorflow.keras.layers import Embedding # для векторного представления с действительным знаком,tensorflow.keras.preprocessing.sequence import pad_sequences # для фиксирования входной длины,tensorflow.keras.models import Sequential # для создания последовательной модели,tensorflow.keras.preprocessing.text import one_hot # для преобразования предложений в одноразовые представления с учетом размера словаря,tensorflow.keras.layers import LSTM # для обработки последовательностей данных,tensorflow.keras .layers import Dense #получает входные данные от предыдущего слоя.Следующим шагом является выделение корней и удаление стоп-слов из предложений. Стоп-слова: это слова, которые не добавляют смысла предложению. Мы удаляем эти стоп-слова из предложений для лучшего анализа. Примеры: {"а", "и", "то", "но", "как", "или", "что" и т. д.}.import nltk #библиотека НЛП,import re #regular expression,from nltk.corpus import стоп-слова #importing стоп-слова,nltk.download(stopwords)messages = X.copy() #сохранение независимых функций,messages.reset_index(inplace = True) #так как значения NaN были удалены,nltk.stem.porter import PorterStemmer #Для создания основы,ps = PorterStemmer(),corpus = [] #list для встраивания,i в range(len(messages)):review = re.sub([^a-zA-Z ], ,messages[title][i]) #для создания предложения только со словами в нижнем и верхнем регистре #lower и разделение слов,review = review.lower().split() # определение корней всех тех слов, которые не являются стоп-словами,review = [ps.stem(word) для слова в обзоре, если не слово в stopwords.words(english)] review = .join(review) corpus.append(review).Для работы с текстовыми данными в корпусе требуется их преобразование в числовой формат. Одним из ключевых методов является One-Hot Encoding (OHE). Поскольку большинство алгоритмов машинного обучения оперируют числовыми, а не категориальными данными, OHE позволяет заменить текстовые переменные на бинарные векторы.Процесс включает два этапа:Сопоставление категорий с числами: Каждому уникальному слову в словаре (вокабу) присваивается целочисленный индекс.Векторизация: Каждое целое число преобразуется в бинарный вектор длины, равной размеру словаря. В таком векторе только один элемент (соответствующий индексу слова) равен 1, остальные — 0.Например, для словаря из 10 000 слов каждое слово будет представлено вектором из 10 000 элементов, где активен (имеет значение 1) лишь один компонент [2].Нейронные сети, включая модели LSTM, требуют стандартизации входных данных: все последовательности должны иметь одинаковую длину. Однако текстовые предложения после предобработки часто оказываются разной длины. Для решения этой проблемы перед передачей данных в слой векторного представления (embedding) выполняется дополнение (padding).В данном случае:Фиксация длины: Максимальная длина предложения устанавливается в 30 токенов.Дополнение нулями: С помощью функции pad_sequences() [3] предложения, короче 30 токенов, дополняются нулевыми значениями в начале (параметр padding=pre). Это обеспечивает выравнивание всех входных данных до единого формата.Например, предложение из 25 слов будет расширено 5 нулями в старших позициях, чтобы достичь длины 30.Построение архитектуры LSTM-модели.Перед конструированием модели необходимо задать ключевые гиперпараметры. На первом этапе определяется размерность признакового пространства (feature vectors), которое формируется на слое векторного представления (Embedding). В данной конфигурации эта величина установлена равной 40. Модель реализуется через последовательную архитектуру (Sequential API).Этапы сборки модели:Слой Embedding:Первый параметр — размер словаря (количество уникальных токенов).Второй — размерность признакового пространства (40).Третий — длина входных последовательностей (30, как определено ранее).Слой LSTM:Добавляется блок LSTM со 100 скрытыми нейронами для анализа временных зависимостей.Выходной слой:Для бинарной классификации используется полносвязный слой (Dense) с сигмоидной функцией активации, возвращающей вероятность класса.Компиляция модели:Функция потерь: binary_crossentropy (оптимизирует разделение двух классов).Оптимизатор: Adam (адаптивный алгоритм градиентного спуска).Метрика: accuracy (доля корректных предсказаний).length = 30 #Установка длины предложения,embedded_docs=pad_sequences(onehot_repr, padding=pre,maxlen=length),#Создание модели lstm,embedding_vector_features=40,model=Sequential(),model.add(Embedding(vocab,embedding_vector_features,input_length=length)),model.add(LSTM(100)) #Добавление 100 нейронов lstm в слой,model.add(Dense (1,активация=сигмоид))#Компиляция модели,model.compile(loss=binary_crossentropy,optimizer=adam,показатели"="[то чность]),Ключевой элемент архитектуры LSTM — состояние ячейки (cell state, *a*), которое проходит через сеть, подвергаясь минимальным линейным изменениям. Управление информацией в ячейке осуществляется через гейты (фильтры, *b*), реализованные как сигмоидные слои и операции поточечного умножения.Валидация результатов:Для сравнения прогнозов модели с реальными значениями тестовых данных:Тестовые массивы конвертированы в список, затем в словарь.На основе словаря сформирован структурированный.DataFrame [1].Алгоритм работы LSTM [1]:Забывание: Определение устаревшей информации для удаления из ячейки.Обновление: Выявление новой информации для добавления в ячейку.Синтез: Замена предыдущего состояния ячейки на обновлённое.Выход: Формирование итогового выхода на основе текущего состояния.Преимущества LSTM:Устранение проблемы долгосрочных зависимостей (в отличие от классических RNN).Недостатки LSTM:Высокая вычислительная нагрузка, замедляющая процесс предсказания (инференс).Несмотря на активное развитие методов обнаружения синтетических новостей, задача остаётся крайне сложной. Отсутствие чёткого определения «фейк-ньюз» усложняет борьбу с ними. Данная работа предлагает подход к идентификации подобного контента в соцсетях через комбинацию методов машинного обучения и ИИ, демонстрируя перспективность этого направления.Заключение. В ходе работы были подробно проанализированы существующие решения классификации новостного контента и текстовой информации, в частности. Также более подробно рассмотрены инструменты глубокого обучения, а именно слои нейронных сетей, которые используются для обработки текстовой информации.   


Полная версия статьи PDF

Номер журнала Вестник науки №6 (87) том 1

  


Ссылка для цитирования:

Макаров П.А., Крыжевич Л.С. ИССЛЕДОВАНИЕ МОДЕЛИ LSTM ДЛЯ УЛУЧШЕНИЯ АНАЛИЗА ФЕЙКОВЫХ НОВОСТЕЙ // Вестник науки №6 (87) том 1. С. 1483 - 1491. 2025 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/23760 (дата обращения: 09.07.2025 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/23760



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки © 2025.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.