СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP

Царев Ю.В., Качайло В.С., Кокорина А.Ю.

49 просмотров

Царев Ю.В., Качайло В.С., Кокорина А.Ю.

СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP *

Аннотация:
в данной статье рассматриваются вопросы создания распределенного кластера Hadoop. Сформированный распределенный кластер Hadoop исследовался на предмет обработки тестового набора данных при различных конфигурациях распределенного кластера

Ключевые слова:
Большие данные, Hadoop, распределенный кластер, настройка, конфигурация

УДК 004.75

Царев Ю.В.

к.т.н., доцент кафедры информационные системы и технологии

Ярославский государственный технический университет

(Россия, г. Ярославль)

Качайло В.С.

студент 3 курса бакалавриата

кафедры информационные системы и технологии

Ярославский государственный технический университет

(Россия, г. Ярославль)

Кокорина А.Ю.

студент 3 курса бакалавриата

кафедры информационные системы и технологии

Ярославский государственный технический университет

(Россия, г. Ярославль)

СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP

Аннотация: в данной статье рассматриваются вопросы создания распределенного кластера Hadoop. Сформированный распределенный кластер Hadoop исследовался на предмет обработки тестового набора данных при различных конфигурациях распределенного кластера.

Ключевые слова: Большие данные, Hadoop, распределенный кластер, настройка, конфигурация.

Большие данные — это сбор и анализ большого набора данных, который содержит множество интеллектуальных и необработанных данных, основанных на пользовательских данных, показаниях датчиков, медицинских и корпоративных данных. Платформа Hadoop используется для хранения, управления и распределения больших данных между несколькими серверными узлами. В этой статье рассматриваются вопросы создания распределенного кластера и управления кластером при различных характеристиках распределенной файловой системы Hadoop (HDFS) [1].

В качестве аппаратной части использовались компьютеры с процессорам i7 и оперативной памятью 16 Гб, объединенные в локальную сеть организации. Создание распределенного кластера осуществлялось на виртуальной машине Oracle VirtualBox версии 6.1 [2] на которую была установлена операционная система CentOs 7 [3]. Характеристики распределенного кластера тестировались выполнением программы для обработки тестового набора данных в среде IntelliJ IDEA [4].

В первую очередь, изменяли названия хостов (hostname) на каждом узле. Для master – hadoop-master, для n-го slave – hadoop-slave-n. Далее, в каждом узле добавим соответствующие записи в файл, располагающийся /etc/hosts:

На следующем шаге конфигурируем беспарольный доступ по ssh:

$ ssh-keygen -t rsa

$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop-master

$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop-slave-1

и т.д.

$ chmod 0600 ~/.ssh/authorized_keys

Проверяем соединение между узлами.

Настраиваем файлы конфигурации hadoop (располагаются по пути:

/opt/hadoop-2.10.1/etc/hadoop

Нужно внести изменения в файлы: core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml.

Добавляем следующие записи:

В файл core-site.xml (адрес стартовой страницы hdfs)

<name>fs.default.name</name>

<value>hdfs://hadoop-master:9000/</value>

</property>

</configuration>

В файл hdfs-site.xml (пути хранения данных data-узлов и name-узла)

(!) Предварительно, эти директории нужно создать и предоставить права доступа (команда в терминале chmod 755 *путь*)

<value>/opt/hadoop/hadoop/dfs/name</value>

</property>

<value>/opt/hadoop/hadoop/dfs/data</value>

</property>

</configuration>

В файл mapred-site.xml (говорит о том, что mapreduce будет запускаться как yarn приложение)

<name>mapreduce.framework.name</name>

</property>

</configuration>

В файл yarn-site.xml (настройки и адреса yarn)

<name>yarn.resourcemanager.resource-tracker.address</name>

</property>

<name>yarn.resourcemanager.scheduler.address</name>

</property>

<name>yarn.resourcemanager.address</name>

</property>

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>

<value>org.apache.hadoop.mapred.ShuffleHandler</value>

</property>

<name>yarn.nodemanager.disk-health-checker.min-healthy-disks</name>

</property>

</configuration>

Проверяем, чтобы в файле конфигурации hadoop-env.sh (по пути /opt/hadoop-2.10.1/etc/hadoop) были следующие записи:

export JAVA_HOME= (путь к jdk)

export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true

export HADOOP_CONF_DIR=/opt/hadoop-2.10.1/etc/hadoop

Копируем исходники hadoop на slave-узлы.

cd /opt

scp -r hadoop-2.10.1 hadoop-slave-2:/opt/hadoop-2.10.1

и т.д.

Снова по пути /opt/hadoop-2.10.1/etc/hadoop редактируем файл slaves,

добавляя имена data-узлов.

hadoop-slave-1

hadoop-slave-2

и т.д.

На data-узлах так же создаём директории для данных, как указано в файле hdfs-site.xml и даём права доступа.

Запускаем форматирование на master-узле.

hdfs namenode -format

Запускаем hdfs (файл start-dfs.sh по пути /opt/hadoop-2.10.1/sbin).

После создания и настройки распределенного кластера Hadoop запускаем программу для обработки.

yarn jar target/lab1-1.0-SNAPSHOT-jar-with-dependencies.jar input output

Выполнение процесса на data-узле можно контролировать загрузкой процессора (Рис. 1).

Таким образом, в ходе выполнения работы был создан и сконфигурирован распределенный кластер Hadoop. Характеристики распределенного кластера тестировались выполнением программы для обработки тестового набора данных в среде IntelliJ IDEA на 1, 2 и 3 узлах DataNode.

СПИСОК ЛИТЕРАТУРЫ:

Apache Hadoop 2.10.1 [Электронный ресурс]. Режим доступа: https://hadoop.apache.org/docs/r2.10.1/ (дата обращения 18.03.2022)

VirtualBox [Электронный ресурс]. Режим доступа: https://www.centos.org/download/ (дата обращения 18.03.2022)

CentOS Linux [Электронный ресурс]. Режим доступа: https://www.centos.org/download/ (дата обращения 18.03.2022)

IntelliJ IDEA [Электронный ресурс]. Режим доступа: https://www.jetbrains.com/ru-ru/idea/ (дата обращения 18.03.2022)

Tsarev Yu.V.

Candidate of Technical Sciences,

Associate Professor of the Department

of Information Systems and Technologies

Yaroslavl State Technical University

(Russia, Yaroslavl)

Kachaylo V.S.

Bachelor of the 3rd year

Department of Information Systems and Technologies

Yaroslavl State Technical University

(Russia, Yaroslavl)

Kokorina A.Yu.

Bachelor of the 3rd year

Department of Information Systems and Technologies

Yaroslavl State Technical University

(Russia, Yaroslavl)

CREATION AND RESEARCH

OF CHARACTERISTICS OF OPERATION

OF HADOOP DISTRIBUTED CLUSTER

Abstract: this article discusses the issues of creating a distributed Hadoop cluster. The formed distributed Hadoop cluster was investigated for processing the test data set under various distributed cluster configurations.

Keywords: Big data, Hadoop, distributed cluster, setup, configuration.

Полная версия статьи PDF

Номер журнала Вестник науки №6 (51) том 3

Ссылка для цитирования:

Царев Ю.В., Качайло В.С., Кокорина А.Ю. СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP // Вестник науки №6 (51) том 3. С. 272 - 278. 2022 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/5920 (дата обращения: 19.04.2024 г.)

Альтернативная ссылка латинскими символами: vestnik-nauki.com/article/5920

Нашли грубую ошибку (плагиат, фальсифицированные данные или иные нарушения научно-издательской этики) ?
- напишите письмо в редакцию журнала: zhurnal@vestnik-nauki.com

* В выпусках журнала могут упоминаться организации (Meta, Facebook, Instagram) в отношении которых судом принято вступившее в законную силу решение о ликвидации или запрете деятельности по основаниям, предусмотренным Федеральным законом от 25 июля 2002 года № 114-ФЗ 'О противодействии экстремистской деятельности' (далее - Федеральный закон 'О противодействии экстремистской деятельности'), или об организации, включенной в опубликованный единый федеральный список организаций, в том числе иностранных и международных организаций, признанных в соответствии с законодательством Российской Федерации террористическими, без указания на то, что соответствующее общественное объединение или иная организация ликвидированы или их деятельность запрещена.