Адміністрування налаштування середовища Apache Hadoop

Ім'я файлу: Лабораторна робота №3.docx
Розширення: docx
Розмір: 568кб.
Дата: 23.06.2023
скачати

МІНІСТЕРСТВО ОСВІТИ І НАУКИ УКРАЇНИ

НАЦІОНАЛЬНИЙ УНІВЕРСИТЕТ «ЛЬВІВСЬКА ПОЛІТЕХНІКА»

Інститут комп’ютерних наук та інформаційних технологій

Кафедра інформаційних систем та мереж

Лабораторна робота №3

З дисципліни «Методи опрацювання великих даних»

На тему: «Адміністрування налаштування середовища Apache Hadoop»

Виконав студент

групи ІТІС-12:

Борис В.А.

Прийняв асистент

кафедри ІСМ:

Юринець Р.В.

Львів-2022

Мета роботи:дослідити адміністрування налаштування середовища Apache Hadoop.

Теоретичні відомості:

Ефект від застосування Apache Hadoop проявляється тільки при вирішенні дійсно трудомістких завдань, що вимагають одночасно і великого обсягу обчислення і зберігання великих обсягів даних. Для невеликих обчислювальних задач трудовитрати по їх розгортання в середовищі Apache Hadoop можуть привести до невиправдано високої вартості отриманих результатів.

Для розгортання кластера «Hadoop» зазвичай використовують звичайні сервера (Не суперкомп'ютери або десктопи), з'єднані по мережі і розташовані в одному місці (сервера в стійках в «датацентрі»).

Apache Hadoop реалізований з використанням технології Java, тому на всіх комп'ютерах, що плануються для розміщення в кластері обчислень, необхідна установка віртуальної машини Java Runtime Environment (JRE). Мінімальна реалізація JRE, необхідна для виконання Java-додатків, доступна для безкоштовного використання на офіційному сайті фірми Oracle. Для розробки власного додатка, що працює на проектованої розподіленої системі (кластері), необхідно встановити Java Development Kit (JDK).

Hadoop першої версії в Windows зажадає установки Cygwin. Плюсом тут буде відмінна інтеграція з середовищами розробки (IntellijIDEA і Eclipse). Детальніше в цьому чудовому мануале.

Починаючи з другої версії, Hadoop підтримує і серверні редакції Windows. Однак я б не радив намагатися використовувати Hadoop і Windows не тільки в production'e, а й взагалі десь за межами комп'ютера розробника, хоча для цього й існують спеціальні дистрибутиви. Windows 7 і 8 зараз вендори не підтримують, проте люди, які люблять виклик, можуть спробувати це зробити руками.

Для розгортання програми під ОС Windows необхідно встановити Cygwin, що забезпечує інтеграцію Windows-додатків і даних з додатками і даними UNIX-подібної середовища. При установці потрібно включити підтримку мережевого протоколу прикладного рівня SSH і провести його налаштування. Нижче наведено покрокову інформацію щодо адміністрування налаштування середовища:

Запустити Cygwin від імені адміністратора і ввести команду ssh-host-config, яка згенерує конфігураційні файли і видасть запит на підтвердження поділу доступу з привілеїв. Рекомендується відповісти згодою (yes).

Створити обліковий запис для SSH з особливими привілеями.

Сформувати умову запуску процесу для прийому SSH-з'єднань як службу.

Створити привілейований аккаунт з ім'ям користувача (за умовчанням формується ім'я – cyg_server) і встановити пароль.

Ввести команду для запуску служби sshd: net start sshd.

Створити SSH-ключі привілейованого аккаунта (в консолі необхідно ввести команду ssh-user-config). Рекомендується налаштуватися на схему SSH2 (більш безпечна і краще для зберігання ключів).

Створення SSH2_DSA_ID-файлу, якщо необхідно отримувати доступ не по паролю, а по файлу-ключа.

Для перевірки конфігурації ввести в консолі Cygwin команду ssh -v localhost. Ключ -v включить режим verbose, який покаже всі деталі процесу.

Хід роботи:

Готуємо огляд функцій, можливостей та порядку виконання основних дій з адміністрування середовища Apache Hadoop на основі вказаних літературних джерел.

Запускаємо кластер за допомогою команд, які ми описали у лабораторній роботі №1.

Ознайомлюємось з порядком виконання та виконуємо перевірку роботи Hadoop кластера.

Для запуску Apache Hadoop під UNIX-системою немає необхідності встановлювати додаткові додатки, але настройка SSH все одно необхідна. Наведено покрокову інформацію щодо адміністрування налаштування середовища:

Створення користувача: sudo addgroup hadoop

sudo adduser --ingroup hadoop hduser

Створити SSH-ключ із заданим паролем:

su - hduser

*ssh-keygen -t rsa -P "***"*

де *** це пароль

Додати створений ключ до авторизованих ключі:

cat

/ .ssh / id_dsa.pub >> / .ssh / authorized_keys

Після завершення налаштувань оточення необхідно завантажити і розпакувати власне Apache Hadoop (бібліотеки для розробки розподілених додатків). Всі конфігураційні файли Apache Hadoop знаходяться в папці conf. У файлі hadoop-env.sh необхідно вказати розташування JRE або JDK. Файл conf / core-site.xml описує конфігурацію файлової системи проектованої розподіленої системи (місце, де будуть зберігатися оброблювані файли). Файл conf / mapred-site.xml описує один або безліч процесів управління і координування кластером обчислювачів, які будуть виконувати необхідні завдання.

Файл conf / hdfs-site.xml представляє опис синхронізації вмісту декількох копій файлів (реплікації).

Під час налаштування кластера Hadoop слід використовувати доступну інформацію для конкретного рішення Hadoop. Серед відомих стандартних рішень можна згадати IBM Open Platform з IBM BigInsights для Apache Hadoop від IBM, CDH від Cloudera і Hortonworks Data Platform (HDP) від Hortonworks. Перед налаштуванням архітектури Hadoop обов’язкове створення нового облікового запису користувача Hadoop. Це дозволить відокремити установку Hadoop від інших служб, які виконуються на тій же системі. Слід уникати використання в своїй конфігурації масивів RAID (Redundant Array of Independent Disks) з наступних причин:

У надмірності масивів RAI, немає необхідності, оскільки HDFS за замовчуванням забезпечує надмірність з використанням реплікації між вузлами.
Відмова диска в конфігурації RAID впливає на весь дисковий масив, і в результаті вузол стає недоступним. А в HDFS такий вузол буде продовжувати функціонувати без відмовив диска.
У системах RAID швидкість операцій читання і запису обмежується продуктивністю самого повільного диска в масиві. На противагу цьому, HDFS використовує конфігурацію JBOD (набір незалежних дисків), в якій дискові операції є незалежними, і в результаті швидкість перевищує продуктивність самого повільного диска.

Після налаштування кластеру Hadoop, необхідно протестувати його продуктивність.

Рис 1. Загальна інформацію про розгорнутий кластер Hadoop.

Рис 2. Інформація про datanodes кластера.

Рис 3. Огляд директорій створених в HDFS.

Висновок: Під час виконання цієї лабораторної роботи було досліджено адміністрування налаштування середовища Apache Hadoop.
скачати

© Усі права захищені
написати до нас