Data Engineering

Практический курс по одному из самых перспективных направлений в Big Data

Data Engineering
Цена
49900
10 недель10 недель
СертификатСертификат
РусскийРусский
SkillFactory

Описание:

Научитесь строить пайплайны данных в реальном времени
В современных компаниях накапливается большой объем данных, из которых можно извлекать важную аналитику, строить гипотезы или модели прогнозирования. Data Engineer - это специалист, который собирает данные из разных источников, очищает их и передает в удобном виде аналитикам для принятия бизнес-решений.
Аналитикам данных нужно знать, как работает хранилище данных, в каком виде там хранятся данные, как они обрабатываются и как их можно получить для анализа.
Курс ориентирован на практику и основные инструменты, подходит для тех, кто имеет базовые знания языка Python. За два месяца вы освоите все важные этапы Data Engineering.

Преимущества курса

  • Курс предназначен для людей, которым нужно освоить основные инструменты и методы по работе с Big Data. Программа рассчитана на тех, кто знаком с Python.
  • Курс основан на практике. Мы рассматриваем инструмент или технологию и сразу на практике пытаемся ее использовать.
  • Программа построена по принципу от простого к сложному. Вы узнаете и освоите самое важное о Data Engineering, что нужно знать аналитику данных.
  • В процессе обучения вам будет помогать преподаватель и координаторы. Они помогут в тех местах, где вы замедлились, и будут отвечать на вопросы. 

Программа курса:

Модуль 1
Введение в Data Engineering
Рассмотрим типовые архитектуры аналитических решений.

Модуль 2
Базы данных SQL
Познакомимся с базами данных, и поймем их преимущество для работы с данными по сравнению с Excel.

Модуль 3
Архитектура корпоративного хранилища данных
Создадим AWS account, запустим кластер Redshift и загрузим в него данные, используя SQL

Модуль 4
Оптимизация хранилища данных
Рассмотрим важные аспекты оптимизации MPP-решений.

Модуль 5
Интеграция данных и создание потоков данных (data piplelines)
Рассмотрим ETL-решения и сравним их с ELT. Автоматизируем процесс загрузки данных в Redshift.

Модуль 6
Выбор и подключение Business Intelligence
Подключим Tableau к нашему хранилищу данных.

Модуль 7
Знакомство с Apache Spark
Создадим RDD и Data Frame, рассмотрим основные операции и кейсы использования.

Модуль 8
Создание решения для Big Data с использованием Hadoop и Spark
Решаем задачу по обработке неструктурированные логов с помощью PySpark на Amazon Elastic Map Reduce.

Модуль 9
Data Lake
Знакомимся с понятием озера данных и используем решения на AWS.

Модуль 10
Решение задачи по стримингу данных
Создаем поток данных (data pipe line) в реальном времени.