'
Научный журнал «Вестник науки»

Режим работы с 09:00 по 23:00

zhurnal@vestnik-nauki.com

Информационное письмо

  1. Главная
  2. Архив
  3. Вестник науки №5 (74) том 2
  4. Научная статья № 100

Просмотры  47 просмотров

Аузбаева А.М.

  


УСОВЕРШЕНСТВОВАНИЕ МЕТОДОВ И АЛГОРИТМОВ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ И КЛАССИФИКАЦИИ ФАЛЬШИВЫХ НОВОСТЕЙ С ВЫСОКОЙ ТОЧНОСТЬЮ *

  


Аннотация:
в эпоху цифровых технологий ложные новости представляют значительную угрозу для общества, требуя надежных методов для их эффективного обнаружения и классификации. Данная статья фокусируется на применении современных алгоритмов машинного обучения для борьбы с этой проблемой, используя данные, собранные с популярных казахстанских информационных порталов liter.kz и tengrinews.kz. Методы веб-скрапинга позволили автоматически собрать значительный объем новостных статей, которые затем были предметом тщательной предварительной обработки для удаления нерелевантных элементов и нормализации текста. Использование алгоритмов, таких как RandomForest и SGDClassifier, демонстрирует значительный потенциал в классификации текстов на основе их содержания. Анализ текстов с применением TfidfVectorizer позволил учитывать не только частоту употребления слов, но и их важность, что повысило точность моделей. Результаты были оптимизированы с использованием метода GridSearchCV для подбора оптимальных гиперпараметров, что способствовало повышению общей эффективности классификации. Дополнительно, исследование включало визуализацию данных с помощью облака слов, что позволило наглядно продемонстрировать распределение ключевых терминов, часто встречающихся в ложных новостях. Эта визуализация стала важной частью аналитического процесса, подчеркивая распространенные темы и слова, которые могут указывать на потенциально недостоверный контент. Таким образом, представленное исследование подчеркивает значимость продолжения разработки и усовершенствования методов машинного обучения и анализа данных для обнаружения и классификации фальшивых новостей, что является критически важным для поддержания информационной достоверности в современном цифровом мире.   

Ключевые слова:
ложные новости, машинное обучение, веб-скрапинг, анализ текста, классификация текстов, визуализация данных, облако слов   


Введение. В современном мире, где информация распространяется с невероятной скоростью благодаря интернету и социальным сетям, возросла опасность манипуляции общественным мнением через так называемые "ложные новости". Эти ложные новости — это сознательно искаженная или полностью выдуманная информация, распространяемая с целью ввести в заблуждение или повлиять на политические и общественные процессы [1]. Проблема усугубляется тем, что такие новости могут распространяться гораздо быстрее и шире, чем проверенные и достоверные факты [8].Обнаружение и классификация ложных новостей становится важной задачей для исследователей и разработчиков в области информационных технологий и искусственного интеллекта. Исследования показывают, что современные подходы к анализу текста и машинному обучению могут играть ключевую роль в выявлении и противодействии этим вызовам [4][5][9]. Эффективное решение этой задачи требует разработки и применения алгоритмов машинного обучения, способных анализировать большие объемы текстовой информации и определять потенциально фальсифицированные данные [3][6].Исследование начинается с сбора данных через веб-скрапинг новостных статей с популярных информационных порталов Казахстана, таких как liter.kz и tengrinews.kz. Дальнейшие шаги включают в себя предварительную обработку собранных текстов, их нормализацию и удаление нерелевантных слов (стоп-слов) [10][11]. Это критически важно для подготовки данных к процессу векторизации, где с помощью метода TF-IDF тексты преобразуются в числовой формат, что позволяет использовать статистические и машинные методы для их анализа [12][13].Для классификации используются несколько алгоритмов, включая RandomForest и SGDClassifier, которые оптимизируются посредством GridSearchCV для выбора наилучших гиперпараметров [14][15][16]. Эффективность каждого подхода оценивается на основе таких метрик, как точность, полнота и F1-мера, что позволяет определить наиболее эффективные методы для распознавания ложных новостей.Таким образом, целью данного исследования является не только выявление эффективных методов для борьбы с дезинформацией, но и развитие научного подхода к обработке и анализу текстовой информации в условиях информационного избытка. Это исследование опирается на наработки в области детекции ложных новостей, описанные в работах таких авторов, как Allcott и Gentzkow [1], Conroy, Rubin и Chen [2], а также на более поздние исследования Zhou et al. [3], Wang et al. [4] и другие, которые исследовали различные аспекты этой проблематики и предложили новые подходы к её решению.Методология. Рис. 1. Методы исследования. Сбор данных:1.Выбор источников: Для сбора данных были выбраны сайты liter.kz и tengrinews.kz, как представители казахстанских новостных ресурсов с высокой посещаемостью.2.Веб-скрапинг: Использование Python с библиотеками Requests и BeautifulSoup для автоматического извлечения новостных статей. Процесс включал переход по заданным URL, анализ HTML-кода страницы и извлечение нужной информации.Предварительная обработка данных:1.Очистка данных: Удаление лишних символов, таких как пунктуация и числа, используя регулярные выражения.2.Нормализация: Приведение всех слов к нижнему регистру для унификации данных.3.Удаление стоп-слов: Использование списка стоп-слов nltk для русского языка для удаления наиболее часто встречающихся, но малоинформативных слов.(a) до обработки текста (b) после обработки текстаРис. 2. Облако слов до и после обработки текста.Векторизация текста:1.TF-IDF: Применение TfidfVectorizer для преобразования текстов в числовые векторы. Векторизация учитывает не только частоту слова в тексте, но и его редкость в других документах, что помогает повысить важность уникальных слов.Классификация:1.Выбор моделей: Использование различных алгоритмов, таких как SGDClassifier, RandomForestClassifier и другие, для обучения на векторизованных данных.2.Оптимизация моделей: Применение GridSearchCV для подбора оптимальных гиперпараметров каждой модели.Оценка моделей:1.Метрики оценки: Использование точности (Precision), полноты (Recall) и F1-счета для оценки каждой модели на тестовых данных. Эти метрики рассчитываются следующим образом:•Точность P определяется как доля правильно идентифицированных положительных результатов относительно всех положительных результатов, предсказанных моделью:=TPTP+FPP=TP+FPTP•Полнота R показывает, какая доля из всех реальных положительных случаев была обнаружена моделью:=TPTP+FNR=TP+FNTP•F1-счет является гармоническим средним точности и полноты, что помогает учесть баланс между этими показателями:1=2?P?RP+RF1=2?P+RP?Rгде TP — истинно положительные результаты, FP — ложноположительные результаты, FN — ложноотрицательные результаты.Результаты работы.Таблица 1. Таблица с результатами исследования.SGD Classifier: Использование стохастического градиентного спуска для классификации данных, полученных из X_test, и последующая генерация отчёта о классификации.K-Nearest Neighbors: Применение классификатора ближайших соседей для прогнозирования и оценки.Random Forest: Классификация с использованием случайного леса и оценка его эффективности.Используя Grid Search C V, метод подобрали оптимальные гиперпараметры для RandomForestClassifier на основе заданной сетки параметров. Оценка производится по пятикратной перекрёстной проверке.Вывод лучших параметров после поиска (Таб 1.)Каждый этап кода вносит свой вклад в целостный процесс построения, оценки и сравнения различных алгоритмов машинного обучения для задачи классификации текстов. Использование Grid Search C V для оптимизации параметров каждой модели позволяет максимально повысить их эффективность, а последующая оценка с помощью стандартных метрик классификации дает понимание о качестве каждой модели в решении поставленной задачи.ЗаключениеИспользуя современные технологии веб-скрапинга, мы успешно собрали значительный объём новостных данных с популярных казахстанских информационных порталов, таких как Tengrinews.kz. В результате были собраны данные с популярных новостных порталов Казахстана, которые могут быть использованы в других исследовательских работах. Эти данные были тщательно очищены и подготовлены для дальнейшего анализа, что включало удаление стоп-слов, пунктуации и нормализацию текстов.С применением метода TF-IDF для векторизации текста, мы смогли эффективно преобразовать сырые текстовые данные в подходящий для машинного обучения формат. Это позволило нам использовать различные алгоритмы классификации, включая стохастический градиентный спуск (SGD), K-ближайших соседей (KNN), случайные леса (Random Forest) и деревья решений. Благодаря оптимизации гиперпараметров через GridSearchCV, каждая из моделей была тщательно настроена для достижения наилучшей возможной точности.Оценка моделей с использованием стандартных метрик классификации, таких как точность, полнота и F1-счет, показала, что предложенные методы и алгоритмы эффективно распознают фальшивые новости, обладая высокой точностью и надёжностью. Визуализация данных через облако слов и гистограммы дополнительно подчеркнула наиболее часто встречающиеся темы и слова, связанные с фальшивыми новостями, что предоставляет ценные инсайты для дальнейшего улучшения алгоритмов.В заключение, данная научная работа подтверждает, что с помощью усовершенствованных методов обработки текста и машинного обучения можно значительно повысить эффективность систем по борьбе с дезинформацией. Предстоящие исследования будут направлены на дальнейшее расширение данных и использование более продвинутых моделей глубокого обучения для улучшения точности распознавания фальшивых новостей.   


Полная версия статьи PDF

Номер журнала Вестник науки №5 (74) том 2

  


Ссылка для цитирования:

Аузбаева А.М. УСОВЕРШЕНСТВОВАНИЕ МЕТОДОВ И АЛГОРИТМОВ ДЛЯ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ И КЛАССИФИКАЦИИ ФАЛЬШИВЫХ НОВОСТЕЙ С ВЫСОКОЙ ТОЧНОСТЬЮ // Вестник науки №5 (74) том 2. С. 632 - 639. 2024 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/14424 (дата обращения: 09.12.2024 г.)


Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/14424



Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com


Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2024.    16+




* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.