РАЗРАБОТКА АЛГОРИТМОВ ОБЕСПЕЧЕНИЯКАЧЕСТВА РАСПРЕДЕЛЕННОГО ПОИСКОВОГО РОБОТА ДЛЯ СЕТИ ИНТЕРНЕТ

Аканов Т.Т.

70 просмотров

Аканов Т.Т.

РАЗРАБОТКА АЛГОРИТМОВ ОБЕСПЕЧЕНИЯКАЧЕСТВА РАСПРЕДЕЛЕННОГО ПОИСКОВОГО РОБОТА ДЛЯ СЕТИ ИНТЕРНЕТ *

Аннотация:
в данной статье рассматриваются проблематика сферы поисковых систем, требования к разработке поискового робота и постановка задачи на основе требований

Ключевые слова:
индекс, база, поиск, поисковая система

На текущем этапе развития, когда общество осуществляет переход от постиндустриальной эпохи к информационной, требования к системам хранения и обработки информации непрерывно растут. Традиционные решения не справляются с ростом количества данных. Трудно оценить общий объем данных, однако, по оценкам IDC (International Data Corporation) в цифровом виде на данный момент хранится порядка 1, 8 · 1021 байт, что в 10 раз больше чем в 2006 году. К значительному количеству данных можно получить доступ через Всемирную Паутину (WWW). При таких объемах остро стоит задача организации эффективного поиска. Уже в 2009 году Google Search обработал более 109,5 миллионов сайтов, и более 1012 уникальных URL. На данный момент их индекс содержит 4 · 1010 документов. Одной из специфических областей поиска является поиск по новостным ресурсам. Для документов с новостных сайтов характерна привязка к дате, региону и тематике. Таким образом, такие документы легко классифицировать, что позволяет производить более качественный поиск и анализ. В качественном инструменте для анализа СМИ заинтересованы различные консалтинговые и PR агентства, прессслужбы, маркетинговые отделы крупных компаний. Одна из задач поисковой системы - нахождение и загрузка документов (Web crawling), за которую отвечает поисковый робот (Spider, Crawler). Web crawling весьма ресурсоемкий процесс. Основные проблемы связаны с большим количеством данных, отсутствием контроля над данными, постоянным изменением структуры ресурсов, динамическим созданием страниц и низким качеством некоторых ресурсов. Однако, специализация на определенной узкой области web позволяет существенно повысить производительность web crawler’а. Конечной целью работы является создание системы способной эффективно индексировать новости в рунете. Поисковая система — система, разработанная для поиска информации в WWW. Результаты поиска которой, как правило, представлены в виде списка “попаданий”. Информация может состоять из веб страниц, изображений, мультимедийных данных. Поисковая система состоит из трех основных компонент: ∙ поисковый робот — программа, предназначенная для перебора документов и занесения данных о них в базу; ∙ индексатор — программа, создающая на основе полученных с помощью робота данных индекс; ∙ поисковик — программа, осуществляющая поиск в полученном индексе на основе поискового запроса. В условиях постоянно расширяющегося и изменяющегося WWW, непрерывно возрастают требования к поисковым системам. Системы общего поиска нацелены на охват большей части данных доступных в WWW. Такие системы предназначены для поиска наиболее релевантных документов относящихся к объекту поиска. Системы тематического поиска более разнообразны, и требования к ним более специфичны. Например, Google Microblogging Search Engine ориентирован на поиск по записям в микроблогах, где крайне важна задержка между созданием записи, и ее попадением в индекс. Основные источники новостей в WWW — это электронные СМИ и блоги. По данным liveinternet на 2008 год, рунет насчитывает 4392 сайта СМИ, а число блогов значительно больше — по данным Яндекс за 2009 год в русскоязычной блогосфере насчитывается порядка 840000 активных блогов, на которых ежедневно публикуется порядка 300000 постов.1 Очевидно, за прошедшее время количество таких сайтов значительно увеличилось. За сутки каждое из подобный изданий публикует до 100 документов (lenta.ru). Таким образом, можно говорить о десятках миллионов создаваемых документов в год. Под новостью понимается документ содержащий текст, заголовок и дату. Для СМИ и блогов характерно: ∙ большое количество посторонних страниц, не содержащих новостей; ∙ схожая структура (как именования URL, так и самого HTML); ∙ наличие RSS или другой новостной ленты (web feed). К новостным поисковым системам предъявляются следующие требования: ∙ минимальное время между публикацией статьи на новостном ресурсе и ее предоставлением в поисковой выдаче; ∙ поиск должен осуществлять не по всей HTML-странице, а только по ее существенным частям. ∙ Конечной целью работы является создание поискового робота способного эффективно индексировать новости в рунете. Поисковый робот (Web crawler) — программа для поиска веб-страниц в сети[5]. Грубо говоря поисковый робот начинает с URL для начальной страницы

Полная версия статьи PDF

Номер журнала Вестник науки №6 (15) том 4

Ссылка для цитирования:

Аканов Т.Т. РАЗРАБОТКА АЛГОРИТМОВ ОБЕСПЕЧЕНИЯКАЧЕСТВА РАСПРЕДЕЛЕННОГО ПОИСКОВОГО РОБОТА ДЛЯ СЕТИ ИНТЕРНЕТ // Вестник науки №6 (15) том 4. С. 269 - 272. 2019 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/1819 (дата обращения: 26.04.2024 г.)

Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/1819

Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com

* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.