Введение в инженерию больших данных

Знакомство с технологиям Больших данных, на примере технологии Apache Hadoop. Знакомство с технологиями: HDFS, YARN, Hive, Flume, Solr. В ходе курса мы получим реальные данные из соц. сети twitter, структурируем их и визуализируем для анализа.

Введение в инженерию больших данных
Бесплатно
10 недель10 недель
Сертификат гос. образцаСертификат гос. образца
Платный сертификатПлатный сертификат
РусскийРусский
НИТУ МИСиС
Открытое Образование

Описание:

В ходе курса вы узнаете о среде для работы с большими данными - Apache Hadoop, а также познакомитесь с двумя основополагающими компонентами фреймворка Apache Hadoop: HDFS - распределенной файловой системой, MapReduce - подходом для обработки большого объема данных.

Вы сможете узнать об основных компонентах экосистемы Apache Hadoop. Узнаете в чем отличие MapReduce от Yarn, и почему появился Spark.

Узнаем что полезного можно получить из интернета. В практической части курсы мы выкачаем данные из twitter, произведем их очистку и обогащение, а после визуализируем.

Программа курса:

  1. Определения термина «Большие данные» (Big Data)
    1. Что такое Большие Данные
    2. Предпосылки появления технологий Big Data
    3. Характеристики Big Data
    4. Примеры
    5. Вызовы Big Data
    6. Особенности работы с большими данными
    7. Подходы к архитектуре Big Data систем
  2. Обзор экосистемы Apache Hadoop
    1. Базовые понятия
    2. Apache Hadoop
    3. История появления
    4. Возможности Apache Hadoop
    5. Экосистема Apache Hadoop
    6. Основные компоненты
    7. HDFS
    8. Принцип работы HDFS
  3. Распределенные вычисления
    1. Особенности распределенных вычислений
    2. Парадигма MapReduce
    3. Принцип работы MapReduce
    4. Пример MapReduce - счетчик слов в тексте
    5. MapReduce и YARN
  4. Apache Spark
    1. Введение
    2. Принципы работы Apache Spark
    3. Resilient Distributed Dataset (RDD): возможности и свойства
    4. Доступные операции над RDD
    5. Библиотеки Spark
  5. Получение данных
    1. Введение Flume
    2. Принцип работы
    3. Source
    4. Channel
    5. Sink
  6. SQL on Hadoop
    1. Hive
    2. Форматы хранения
    3. Компрессия
    4. UDF
  7. Визуализация данных
    1. Обзор способов визуализации
    2. Apache Zeppelin
    3. Cloudera Search (Solr + Hue)
  8. Прочие компоненты экосистемы Hadoop
    1. Sqoop
    2. Nutch
    3. Hbase
    4. Zookeeper
    5. Oozie
    6. Pig
    7. Impala
  9. Практическая часть - анализ данных twitter