Curso Scalable Machine Learning with Apache Spark
16HVisão Geral
Este Curso Scalable Machine Learning with Apache Spark™, ensina como dimensionar pipelines de ML com o Spark, incluindo treinamento distribuído, ajuste de hiperparâmetro e inferência. Você criará e ajustará modelos de ML com o SparkML enquanto aproveita o MLflow para rastrear, controlar e gerenciar esses modelos. Este curso abrange os recursos de ML mais recentes no Apache Spark, como Pandas UDFs, Pandas Functions e a API pandas no Spark, bem como as ofertas de produtos de ML mais recentes, como Feature Store e AutoML.
Objetivo
Após realizar este Curso Scalable Machine Learning with Apache Spark™, você será capaz de:
- Execute EDA escalável com o Spark
- Crie e ajuste modelos de aprendizado de máquina com o SparkML
- Rastreie, versione e implante modelos com o MLflow
- Execute o ajuste de hiperparâmetro distribuído com o HyperOpt
- Use o espaço de trabalho do Databricks Machine Learning para criar um Feature Store e experimentos de AutoML
- Aproveite a API de pandas no Spark para dimensionar seu código de pandas
Pre-Requisitos
- Experiência intermediária com Python
- Experiência na criação de modelos de aprendizado de máquina
- Familiaridade com a API PySpark DataFrame
Materiais
Português/Inglês + Exercícios + Lab PraticoConteúdo Programatico
Module I
- Spark / ML overview
- Exploratory data analysis (EDA) and feature engineering with Spark
- Linear regression with SparkML: transformers, estimators, pipelines, and evaluators
- MLflow Tracking and Model Registry
Module II
- Tree-based models: Hyperparameter tuning and parallelism
- HyperOpt for distributed hyperparameter tuning
- Databricks AutoML and Feature Store
- Integrating 3rd party packages (distributed XGBoost)
- Distributed inference of scikit-learn models with pandas UDFs
- Distributed training with pandas function API
- Pandas API on Spark for data manipulation