'
Царев Ю.В., Качайло В.С., Кокорина А.Ю.
СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP *
Аннотация:
в данной статье рассматриваются вопросы создания распределенного кластера Hadoop. Сформированный распределенный кластер Hadoop исследовался на предмет обработки тестового набора данных при различных конфигурациях распределенного кластера
Ключевые слова:
Большие данные, Hadoop, распределенный кластер, настройка, конфигурация
УДК 004.75
Царев Ю.В.
к.т.н., доцент кафедры информационные системы и технологии
Ярославский государственный технический университет
(Россия, г. Ярославль)
Качайло В.С.
студент 3 курса бакалавриата
кафедры информационные системы и технологии
Ярославский государственный технический университет
(Россия, г. Ярославль)
Кокорина А.Ю.
студент 3 курса бакалавриата
кафедры информационные системы и технологии
Ярославский государственный технический университет
(Россия, г. Ярославль)
СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP
Аннотация: в данной статье рассматриваются вопросы создания распределенного кластера Hadoop. Сформированный распределенный кластер Hadoop исследовался на предмет обработки тестового набора данных при различных конфигурациях распределенного кластера.
Ключевые слова: Большие данные, Hadoop, распределенный кластер, настройка, конфигурация.
Большие данные — это сбор и анализ большого набора данных, который содержит множество интеллектуальных и необработанных данных, основанных на пользовательских данных, показаниях датчиков, медицинских и корпоративных данных. Платформа Hadoop используется для хранения, управления и распределения больших данных между несколькими серверными узлами. В этой статье рассматриваются вопросы создания распределенного кластера и управления кластером при различных характеристиках распределенной файловой системы Hadoop (HDFS) [1].
В качестве аппаратной части использовались компьютеры с процессорам i7 и оперативной памятью 16 Гб, объединенные в локальную сеть организации. Создание распределенного кластера осуществлялось на виртуальной машине Oracle VirtualBox версии 6.1 [2] на которую была установлена операционная система CentOs 7 [3]. Характеристики распределенного кластера тестировались выполнением программы для обработки тестового набора данных в среде IntelliJ IDEA [4].
В первую очередь, изменяли названия хостов (hostname) на каждом узле. Для master – hadoop-master, для n-го slave – hadoop-slave-n. Далее, в каждом узле добавим соответствующие записи в файл, располагающийся /etc/hosts:
На следующем шаге конфигурируем беспарольный доступ по ssh:
$ ssh-keygen -t rsa
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop-master
$ ssh-copy-id -i ~/.ssh/id_rsa.pub hadoop-slave-1
и т.д.
$ chmod 0600 ~/.ssh/authorized_keys
Проверяем соединение между узлами.
Настраиваем файлы конфигурации hadoop (располагаются по пути:
/opt/hadoop-2.10.1/etc/hadoop
Нужно внести изменения в файлы: core-site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml.
Добавляем следующие записи:
<configuration>
<property>
<name>fs.default.name</name>
<value>hdfs://hadoop-master:9000/</value>
</property>
</configuration>
(!) Предварительно, эти директории нужно создать и предоставить права доступа (команда в терминале chmod 755 *путь*)
<configuration>
<property>
<name>dfs.name.dir</name>
<value>/opt/hadoop/hadoop/dfs/name</value>
</property>
<property>
<name>dfs.data.dir</name>
<value>/opt/hadoop/hadoop/dfs/data</value>
</property>
</configuration>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
<configuration>
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>192.168.254.131:8025</value>
</property>
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>192.168.254.131:8030</value>
</property>
<property>
<name>yarn.resourcemanager.address</name>
<value>192.168.254.131:8050</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
<property>
<name>yarn.nodemanager.disk-health-checker.min-healthy-disks</name>
<value>0</value>
</property>
</configuration>
Проверяем, чтобы в файле конфигурации hadoop-env.sh (по пути /opt/hadoop-2.10.1/etc/hadoop) были следующие записи:
export JAVA_HOME= (путь к jdk)
export HADOOP_OPTS=-Djava.net.preferIPv4Stack=true
export HADOOP_CONF_DIR=/opt/hadoop-2.10.1/etc/hadoop
Копируем исходники hadoop на slave-узлы.
cd /opt
scp -r hadoop-2.10.1 hadoop-slave-2:/opt/hadoop-2.10.1
и т.д.
Снова по пути /opt/hadoop-2.10.1/etc/hadoop редактируем файл slaves,
добавляя имена data-узлов.
hadoop-slave-1
hadoop-slave-2
и т.д.
На data-узлах так же создаём директории для данных, как указано в файле hdfs-site.xml и даём права доступа.
Запускаем форматирование на master-узле.
hdfs namenode -format
Запускаем hdfs (файл start-dfs.sh по пути /opt/hadoop-2.10.1/sbin).
После создания и настройки распределенного кластера Hadoop запускаем программу для обработки.
yarn jar target/lab1-1.0-SNAPSHOT-jar-with-dependencies.jar input output
Выполнение процесса на data-узле можно контролировать загрузкой процессора (Рис. 1).
Таким образом, в ходе выполнения работы был создан и сконфигурирован распределенный кластер Hadoop. Характеристики распределенного кластера тестировались выполнением программы для обработки тестового набора данных в среде IntelliJ IDEA на 1, 2 и 3 узлах DataNode.
СПИСОК ЛИТЕРАТУРЫ:
Apache Hadoop 2.10.1 [Электронный ресурс]. Режим доступа: https://hadoop.apache.org/docs/r2.10.1/ (дата обращения 18.03.2022)
VirtualBox [Электронный ресурс]. Режим доступа: https://www.centos.org/download/ (дата обращения 18.03.2022)
CentOS Linux [Электронный ресурс]. Режим доступа: https://www.centos.org/download/ (дата обращения 18.03.2022)
IntelliJ IDEA [Электронный ресурс]. Режим доступа: https://www.jetbrains.com/ru-ru/idea/ (дата обращения 18.03.2022)
Tsarev Yu.V.
Candidate of Technical Sciences,
Associate Professor of the Department
of Information Systems and Technologies
Yaroslavl State Technical University
(Russia, Yaroslavl)
Kachaylo V.S.
Bachelor of the 3rd year
Department of Information Systems and Technologies
Yaroslavl State Technical University
(Russia, Yaroslavl)
Kokorina A.Yu.
Bachelor of the 3rd year
Department of Information Systems and Technologies
Yaroslavl State Technical University
(Russia, Yaroslavl)
CREATION AND RESEARCH
OF CHARACTERISTICS OF OPERATION
OF HADOOP DISTRIBUTED CLUSTER
Abstract: this article discusses the issues of creating a distributed Hadoop cluster. The formed distributed Hadoop cluster was investigated for processing the test data set under various distributed cluster configurations.
Keywords: Big data, Hadoop, distributed cluster, setup, configuration.
Номер журнала Вестник науки №6 (51) том 3
Ссылка для цитирования:
Царев Ю.В., Качайло В.С., Кокорина А.Ю. СОЗДАНИЕ И ИССЛЕДОВАНИЕ ХАРАКТЕРИСТИК РАБОТЫ РАСПРЕДЕЛЕННОГО КЛАСТЕРА HADOOP // Вестник науки №6 (51) том 3. С. 272 - 278. 2022 г. ISSN 2712-8849 // Электронный ресурс: https://www.вестник-науки.рф/article/5920 (дата обращения: 19.04.2024 г.)
Вестник науки СМИ ЭЛ № ФС 77 - 84401 © 2022. 16+
*