Curso Scalable Machine Learning with Apache Spark

  • Tableau Data Visualization

Curso Scalable Machine Learning with Apache Spark

16H
Visão Geral

Este Curso Scalable Machine Learning with Apache Spark™,  ensina como dimensionar pipelines de ML com o Spark, incluindo treinamento distribuído, ajuste de hiperparâmetro e inferência. Você criará e ajustará modelos de ML com o SparkML enquanto aproveita o MLflow para rastrear, controlar e gerenciar esses modelos. Este curso abrange os recursos de ML mais recentes no Apache Spark, como Pandas UDFs, Pandas Functions e a API pandas no Spark, bem como as ofertas de produtos de ML mais recentes, como Feature Store e AutoML.

Objetivo

Após realizar este Curso Scalable Machine Learning with Apache Spark™, você será capaz de:

  • Execute EDA escalável com o Spark
  • Crie e ajuste modelos de aprendizado de máquina com o SparkML
  • Rastreie, versione e implante modelos com o MLflow
  • Execute o ajuste de hiperparâmetro distribuído com o HyperOpt
  • Use o espaço de trabalho do Databricks Machine Learning para criar um Feature Store e experimentos de AutoML
  • Aproveite a API de pandas no Spark para dimensionar seu código de pandas
Pre-Requisitos
  • Experiência intermediária com Python
  • Experiência na criação de modelos de aprendizado de máquina
  • Familiaridade com a API PySpark DataFrame
Materiais
Português/Inglês + Exercícios + Lab Pratico
Conteúdo Programatico

Module I

  1. Spark / ML overview
  2. Exploratory data analysis (EDA) and feature engineering with Spark
  3. Linear regression with SparkML: transformers, estimators, pipelines, and evaluators
  4. MLflow Tracking and Model Registry

Module II

  1. Tree-based models: Hyperparameter tuning and parallelism
  2. HyperOpt for distributed hyperparameter tuning
  3. Databricks AutoML and Feature Store
  4. Integrating 3rd party packages (distributed XGBoost)
  5. Distributed inference of scikit-learn models with pandas UDFs
  6. Distributed training with pandas function API
  7. Pandas API on Spark for data manipulation
TENHO INTERESSE

Cursos Relacionados

Curso Análise de Dados Com o Power BI - 20778B

24 horas

Curso Análise de dados Excel Com Power BI - 20779B

16 horas

Curso Talend Data Integration Foundation

16 horas

Curso Talend Data Integration Advanced

16 horas

Curso Advanced Data Analysis and Dashboard Reporting

28 horas