Парсинг и анализ данных на Python
Научимся работать с pandas, импортировать и майнить данные из Сети, строить графики и картограммы, создавать отчеты


6799₽
Кэшбэк до 7.5%
Описание:
Курс состоит из 4 больших частей.
1. Анализ данных
- Вы изучите работу с импортом, объединением, преобразованием, фильтрацией данных на pandas, а также научитесь предсказывать тренды.
- Вы сможете самостоятельно загружать данные в формате CSV, TSV, Excel, извлекать из них значения, находить взаимосвязи между разными наборами данных, преобразовывать и усекать наборы данных. В заключении вы освоите математический аппарат линейной регрессии для поиска линейной связи между данными и эффективно примените его для предсказания значений в будущем.
2. Парсинг данных
- Вы изучите получение данных в Python, используя библиотеку requests API и форматы JSON и XML (включая SOAP).
- Научитесь работать с неструктурированными данными в HTML, собирать их и преобразовывать в фреймы данных.
- Научитесь собирать данные целиком с сайта в несколько потоков: создадите мультипроцессного робота-паука.
- В завершении установите SQLite и загрузите все собранные данные в базу, а также научитесь выбирать из базы данных непосредственно в фреймы данных.
3. Визуализация данных
- Вы изучите анатомию matplotlib и типы визуализации различных данных: линии, области, столбцы, круговые диаграммы.
- Научитесь визуализировать зависимости между данными и линейную регрессию с помощью seaborn: построите ящичковые и парные диаграммы, диаграммы распределения.
- Изучите визуализацию временных (хронологических) данных: ряды, скользящие средние, отклонения и "японские свечи".
- В завершении разберете работу с гео-данными и построение фоновых картограмм по нескольким наборам данных, используя geopandas.
4. Генерация отчетов и автоматизация
- В этом курсе вы научитесь создавать и преобразовывать PDF документы, генерировать их из HTML кода, используя шаблонизатор, отправлять отчеты по e-mail и автоматизировать работу.
- В курсе используются библиотеки reportlab, pypdf2, pdfkit, jinja2, smtplib, email, binascii, io, а также бинарный файл wkhtmltopdf. Решаем задачи по созданию PDF документа через холст, разбору PDF документа, объединению PDF документов, созданию HTML и PDF документов из HTML, шаблонизации HTML через jinja2, преобразованию бинарных данных в base64-кодировку. В заключении разберем отправку e-mail, включая HTML-письма и вложенные PDF отчеты.
Чему вы научитесь
- Работа с данными с помощью pandas и numpy
- Получение наборов данных из множества источников
- Преобразование данных и предсказание последовательностей
- Работа с HTTP, JSON, API, SOAP
- Парсинг и скрепинг HTML сайтов
- Визуализация данных: тренды и зависимости
- Гео-данные м фоновые картограммы
- Генерация PDF отчетов
- HTML документы и шаблонизация
- Отправка email и автоматизация работы
Программа курса:
- numpy и pandas
- Индексы и объединение фреймов
- Фильтрация и изменение данных
- Линейная регрессия
- Импорт данных
- Парсинг данных
- Веб-скрепинг
- Работа с SQL
- Основы Matplotlib
- Визуализация зависимостей
- Временные ряды
- Гео-данные и картограммы
- Работа с PDF
- Базовые отчеты
- Генерация отчетов
- Отправка email и интеграция