Big Data: основы работы с большими массивами данных
Научитесь работать с большими данными, расширьте знания в аналитике и перейдите на новый уровень в профессии
Описание:
Big data — инструменты, подходы и методы обработки огромных объёмов данных. По сути это альтернатива традиционным системам управления данными.
Если вам требуется общее расширение кругозора в теме технологий работы с данными и необходимость апгрейда на текущем месте работы, курс даст возможность расширить профессиональные навыки, работать с новыми задачами и быстро приносить результаты в проектах.
Часто аналитик данных нужен именно в тех компаниях, которые накопили свою big data, и аналитику нужно владеть не только стандартными инструментами вроде статистики и SQL, но и знать основные принципы работы с большими данными, иметь представление о компонентах экосистемы Hadoop и облачных платформах для реализации решений по big data. Обо всём этом мы поговорим в модуле про аналитику больших данных.
Чему вы научитесь на курсе
- Работать с сырыми данными и их параметрами. Идентифицировать характеристики больших данных, требующие улучшения, и обосновывать влияние на сбор данных, мониторинг и отчётность
Формулировать ценность больших данных. Изучите использование пятиэтапного процесса структурирования анализа и научитесь создавать стратегию работы с большими данными - Работать со стеком Hadoop, включая систему ресурсов YARN. Освоите систему управления заданиями, файловую систему HDFS и модель программирования MapReduce
Уверенно оценивать, когда нужны большие данные, а когда нет. Узнаете, как соединить 3 основных источника больших данных: машину, человека и организацию, и что можно получить в итоге - Устанавливать и запускать программы с помощью Hadoop. Сможете установить виртуальную машину, скопировать данные в HDFS, запустить MapReduce-программу
Программа курса:
- Характеристики и источники больших данных
- Монетизация больших данных. Пять «П» работы с данными
- Культура сбора данных. Критерии дизайна работы сервисов
- Основы реализации проектов больших данных. Кейс-стади
- Основы архитектуры хранения и обработки больших данных, виды обработки и масштабирования
- Обзор облачных платформ: AWS, EMR и Azure и прочих
- Основы работы в Hadoop и MapReduce
- Лабораторная работа. Запуск программ и работа с HDFS