Методические рекомендации для лабораторного практикума и самостоятельной работы по дисциплине «Технологии обработки больших данных»

Министерство науки и высшего образования РФ
ФГБОУ ВО «Ульяновский государственный университет»
Факультет математики, информационных и авиационных технологий
Кафедра телекоммуникационных технологий и сетей
Липатова Светлана Валерьевна
МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ
для лабораторного практикума и самостоятельной работы по дисциплине
«Технологии обработки больших данных»
для студентов направления
11.04.02 " Инфокоммуникационные технологии и системы связи"
Ульяновск
2022

2
Методические рекомендации для семинарских (практических) занятий, лабораторного практикума и самостоятельной работыпо дисциплине «Технологии обработки больших данных» / составитель: С.В. Липатова - Ульяновск: УлГУ, 2022 –29 с.
Настоящие методические рекомендации предназначены для студентов направления обучения 11.04.02 "Инфокоммуникационные технологии и системы связи". В работе приведены материалы для самостоятельного изучения и контроля усвоения материала.
Студентам всех форм обучения следует использовать данные методические рекомендации при подготовке к семинарам, самостоятельной подготовке, а также промежуточной аттестации по дисциплине «Технологии обработки больших данных».
Рекомендованы к введению в образовательный процесс
Учёным советом факультета математики, информационных и авиационных технологий
УлГУ протокол № 3/19от «19» апреля 2022 г.

3
СОДЕРЖАНИЕ
РЕКОМЕНДАЦИИ ПО ТЕМАМ ДИСЦИПЛИНЫ................................................................. 5
Тема 1. Введение в BigData. .................................................................................................. 5
Основные вопросы темы ............................................................................................... 5
Материалы для самоподготовки ................................................................................... 5
Тема 2. Хранилища данных. Технологии OLTP, OLAP, ETL. ............................................ 7
Основные вопросы темы ............................................................................................... 7
Материалы для самоподготовки ................................................................................... 7
Тема 3. Технологии NoSQL. ............................................................................................... 10
Основные вопросы темы ............................................................................................. 10
Материалы для самоподготовки ................................................................................. 10
Тема 4. Экосистема Hadoop. .............................................................................................. 11
Основные вопросы темы ............................................................................................. 11
Материалы для самоподготовки ................................................................................. 11
Тема 5. Распределённые файловые системы. ..................................................................... 13
Основные вопросы темы ............................................................................................. 13
Материалы для самоподготовки ................................................................................. 13
Тема 6. MapReduce: методология и технология распределённых вычислений. ............... 16
Основные вопросы темы ............................................................................................. 16
Материалы для самоподготовки ................................................................................. 16
Тема 7. Обработка данных в реальном времени. ............................................................... 21
Основные вопросы темы ............................................................................................. 21
Материалы для самоподготовки ................................................................................. 21
Тема 8. Массово-параллельная структура - Massive Parallel Processing............................ 23
Основные вопросы темы ............................................................................................. 23
Материалы для самоподготовки ................................................................................. 23
РЕКОМЕНДУЕМАЯ ЛИТЕРАТУРА .................................................................................... 28

4
ОБЩИЕ ВОПРОСЫ
В результате изучения дисциплин «Технологии обработки больших данных» студенты должны:

приобретение студентами знаний о технологиях подготовки, хранения, обработки и анализа больших данных;

применение статистических и математических методов для анализа больших объёмов информации;

приобретение практических навыков работы с нереляционными базами данных,

приобретение студентами знаний о экосистеме Hadoop.
Методические рекомендации для семинарских (практических) занятий, лабораторного практикума и самостоятельной работыпо дисциплине «Технологии обработки больших данных» направлены на повышение эффективности освоения знаний, умений, навыков и компетенций, связанных с использованием библиотек на языке Python для решения задач машинного обучения.
Методические рекомендации предлагают указания по всем темам дисциплины
«Технологии обработки больших данных». Методические рекомендации разбиты по темам и содержат набор вопросов для систематизации теоретического материала, полученного на лекционных занятиях, и самостоятельного изучения теории, вопросы
(тесты) для текущего контроля на практических занятиях (семинарах), задачи для усвоения практических навыков. Для лабораторного практикума приведены задания, варианты и рекомендации по выполнению лабораторных работ.
Список литературы и информационного обеспечения, приведённый в конце методических указаний, может служить основой для изучения всех рассматриваемых тем.
Дополнительная и учебно-методическая литература могут быть использованы обучающимися для закрепления изучаемого материала.

5
РЕКОМЕНДАЦИИ ПО ТЕМАМ ДИСЦИПЛИНЫ
Тема 1. Введение в BigData.
Основные вопросы темы
Основные вызовы больших данных(V). Определение термина "большие данные".
Классификация Big Data.Роли игроков на рынке Big Data. Профессии Big Data. Примеры успешных кейсов.
Материалы для самоподготовки
1. Что такое большие данные?
Это серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста и распределения по многочисленным узлам вычислительной сети, альтернативных традиционным системам управления базами данных.
2. Перечислите основные V для больших данных?
• Volume – объем, накопленная база данных представляет собой большой объем информации, который трудоемко обрабатывать и хранить традиционными способами, для них требуются новый подход и усовершенствованные инструменты.
• Velocity – скорость, данный признак указывает как на увеличивающуюся скорость накопления данных (90% информации было собрано за последние 2 года), так и на скорость обработки данных, в последнее время стали более востребованы технологии обработки данных в реальном времени.
• Variety
– многообразие, т.е. возможность одновременной обработки структурированной и неструктурированной разно- форматной информации.
Главное отличие структурированной информации – это то, что она может быть классифицирована. Примером такой информации может служить информация о клиентских транзакциях. Неструктурированная информация включает в себя видео, аудио файлы, свободный текст, информацию, поступающую из социальных сетей.
На сегодняшний день 80% информации входит в группу неструктурированной.
Данная информация нуждается в комплексном анализе, чтобы сделать ее полезной для дальнейшей обработки.
• Veracity – достоверность данных, все большее значение пользователи стали придавать значимость достоверности имеющихся данных. Так, у интернет-

6 компаний есть проблема по разделению действий, проводимых роботом и человеком на сайте компании, что приводит в конечном счете к затруднению анализа данных.
• Value – ценность накопленной информации. Большие Данные должны быть полезны компании и приносить определенную ценность для нее. К примеру, помогать в усовершенствовании бизнес- процессов, составлении отчетности или оптимизации расходов.
3. Как можно классифицировать большие данные?
Дайон Хинчклиф, редактора журнала Web 2.0 Journal делит Большие данные на 3 группы:

Быстрые Данные (Fast Data), их объем измеряется терабайтами;

Большая Аналитика (Big Analytics) — петабайтные данные

Глубокое Проникновение (Deep Insight) — экзабайты, зеттабайты.
4. Основные профессии в больших данных?

исследователь данных

консультант в области больших данных

инженер по большим данным

архитектор больших данных

специалист по управлению большими данными
5. Игроки на рынке больших данных?

Поставщики инфраструктуры — решают задачи хранения и предобработки данных.
Например: IBM, Microsoft, Oracle, Sap и другие.

Датамайнеры — разработчики алгоритмов, которые помогают заказчикам извлекать ценные сведения.
Среди них: Yandex Data Factory, «Алгомост», Glowbyte Consulting, CleverData и др.

Системные интеграторы — компании, которые внедряют системы анализа больших данных на стороне клиента.
К примеру: «Форс», «Крок» и др.

Потребители — компании, которые покупают программно-аппаратные комплексы и заказывают алгоритмы у консультантов.
Это «Сбербанк», «Газпром», «МТС», «Мегафон» и другие компании из отраслей финансов, телекоммуникаций, ритейла.

7

Разработчики готовых сервисов — предлагают готовые решения на основе доступа к большим данным. Они открывают возможности Big Data для широкого круга пользователей.
6. Направления больших данных?

Сбор и обработка больших данных

Аналитика

Инженерия больших данных

Архитектура больших данных и системная интеграция

Разработка продуктов и услуг на основе больших данных

Управление большими данными и системами на основе больших данных

Проведение исследований с целью получения новых математических и технических решений для работы с большими данными
Тема 2. Хранилища данных. Технологии OLTP, OLAP, ETL.
Основные вопросы темы
Принципы технологии OLTP. Понятие транзакции. Способы организации транзакций и принципы блокировки доступа к данным. Назначение технологии.
Определение и свойства хранилищ данных, виды данных, хранящихся в хранилищах. Многомерная модель представления данных. Технологии BI и ETL, OLAP.
Виды реализации многомерной модели данных. СУБД, обеспечивающие поддержку
OLAP.
Материалы для самоподготовки
1. Что такое хранилище данных?
Это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений
2. Свойства хранилищ?
0 данные предметно-ориентированны (учитывается специфика предметной области, информация в ХД предназначена для решения задачи поддержки принятия решений, т.е. присутствуют "исторические" данные - факты за определенные интервалы времени, структуры данных отражают развитие всех направлений бизнес-процесса компании во времени);
0 интегрированы и внутренне непротиворечивы (при поступлении из разнородных источников оперативной информации должны быть обеспечены, очистка и

8 согласованность данных для формирования единого информационного пространства);
0 данные инвариантны во времени (данные сохраняют свою истинность в любой момент процесса чтения, в оперативном режиме они не обновляются, а лишь регулярно пополняются из систем оперативной обработки по заданной дисциплине);
0 поддерживающие хронологию (однажды загруженные данные теоретически никогда не меняются, по отношению к ним возможны только две операции: начальная загрузка и чтение);
0 полнота и достоверность хранимых данных(наборы данных, организованные с целью поддержки управления, призванные выступать в роли единого и единственного источника информации, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и поддержки принятия решений).
3. OLTP (ONLINE TRANSACTION PROCESSING)?
0 транзакционная система — обработка транзакций в реальном времени. Способ организации БД, при котором система работает с небольшими по размерам транзакциями, но идущими большим потоком, и при этом клиенту требуется от системы минимальное время отклика.
0 Термин OLTP применяют также к системам (приложениям). OLTP-системы предназначены для ввода, структурированного хранения и обработки информации
(операций, документов) в режиме реального времени.
4. OLAP (ONLINE ANALYTICAL PROCESSING)?
0 технология обработки данных, заключающаяся в подготовке суммарной
(агрегированной) информации на основе больших массивов данных, структурированных по многомерному принципу.
5. 12 признаков OLAP-данных по Кодду?
1) Многомерная концепция данных. OLAP оперирует CUBE-данными, которые являются многомерными массивами. Число измерений OLAP-кубов не ограничено.
2) Прозрачность. OLAP-системы должны опираться на открытые системы, поддерживающие гетерогенные источники данных.
3) Доступность. OLAP-системы должны представлять пользователю единую логическую схему данных.
4) Постоянная скорость выполнения запросов. Производительность не должна падать при росте числа измерений.

9 5) Клиент/сервер архитектура. Системы должны базироваться на открытых интерфейсах и иметь модульную структуру.
6) Различное число измерений. Системы не должны ограничиваться трехмерной моделью представления данных. Измерения должны быть эквивалентны по применению любых функций.
7) Динамическое представление разреженных матриц. Под разреженной матрицей понимается матрица, не каждая ячейка которой содержит данные. OLAP- системы должны содержать средства хранении и обработки разреженных матриц больших объёмов.
8) Многопользовательская поддержка. OLAP-системы должны поддерживать многопользовательский режим работы.
9) Неограниченные многомерные операции. Аналогично требованию о различном числе измерений: все измерения считаются равными, и многомерные операции не должны накладывать ограничения на отношения между ячейками.
10) Интуитивно понятные инструменты манипулирования данными. Для формулирования многомерными запросами пользователи не должны работать в усложнённых меню.
11) Гибкая настройка конечных отчётов. Пользователи должны иметь возможность видеть только необходимые им данные, причём все их изменения должны немедленно отображаться в отчётах.
12) Отсутствие ограничений. Отсутствие ограничений на количество измерений и уровней агрегации данных.
6. Тест FASMI (Fast Shared Multidimensional Information)?

Fast – быстрой, обеспечивать почти мгновенный отклик на большинство запросов;

Shared – многопользовательской, должен существовать механизм контроля доступа к данным и возможность одновременной работы многих пользователей;

Multidimensional – многомерной. Данные должны представляться в виде многомерных кубов;

Information – данные должны быть полны с точки зрения аналитика, т.е. содержать всю необходимую информацию.
7. Реализация OLAP?
Физическая OLAP. Программа, выполняющая на этапе предварительной загрузки данных в OLAP предварительный расчёт агрегатов, которые затем сохраняются в специальную многомерную базу данных, обеспечивающую быстрое извлечение и экономичное хранение.

10
Виртуальная OLAP. Все данные хранятся и обрабатываются в реляционных системах управления базами данных, а агрегаты могут не существовать вообще или создаваться по первому запросу в СУБД или кэше аналитического программного обеспечения.
Гибридная OLAP. Реализация является комбинацией: сами данные хранятся в реляционной базе данных, а агрегаты — в многомерной.
Тема 3. Технологии NoSQL.
Основные вопросы темы
Горизонтальное и вертикальное масштабирование. CAP-теорема. История термина
NoSQL и его трактование. BASE–архитектура (Basically Available, Soft-state, Eventually consistent). Графовые, колончатые, докменто-ориентированные модели модель и ключ- значение. Термин NewSQL. СУБД: HBase, Cassandra, Neo4j, MongoDb.
Материалы для самоподготовки
1. Что значит NoSQL?
NoSQL – термин расшифровывается как Not Only SQL (не только SQL). Включает в себя ряд подходов, направленных на реализацию базы данных, имеющих отличия от моделей, используемых в традиционных, реляционных СУБД. Их удобно использовать при постоянно меняющейся структуре данных. Например, для сбора и хранения информации в социальных сетях.
2. Какие недостатки у реляционных БД?

«дисперсионное хранение»: данные об объекте в разных таблицах

производительность падает при сложных запросах

плохо приспособлены для работе в кластере или облаке

хорошо работают со структурированными данными, структура которых редко меняется, для других данных мало приспособлены
3. BASE–архитектура (Basically Available, Soft-state, Eventually consistent)?
Базовая доступность (Basically Available): сбой в некоторых узлах приводил к отказу в обслуживании только для незначительной части сессий при сохранении доступности в большинстве случаев
Неустойчивое состояние (Soft-state): возможность жертвовать долговременным хранением состояния сессий (таких как промежуточные результаты выборок, информация о навигации, контексте), при этом концентрируясь на фиксации обновлений только критичных операций.