Publico Alvo
- Cientistas de dados e profissionais de ML que são novos no Apache Spark e estão interessados em aprender como empregar suas habilidades com a estrutura Apache Spark
- Analistas de SQL interessados em crescer além de simples consultas SQL e no uso das APIs DataFrame e Spark-ML
- Analistas de dados e engenheiros de dados com experiência em ciência de dados e que desejam uma compreensão mais profunda dos recursos do Spark-ML
Pre-Requisitos
- Python or Scala
- Machine Learning and Data Science principles
Materiais
Inglês + Exercícios + Lab Pratico
Conteúdo Programatico
- Section 1: About Databricks, Spark
- Section 2: Types of Machine Learning and Business Applications of ML
- Section 3: Data cleansing: dealing with null values, outliers, and imputation
- Section 4: Linear Regression: univariate and multivariate models, evaluating measures of fit
- Section 5: Adv Linear Regression: categorical variables, pipelines, saving and loading
- Section 6: Use MLflow to track experiments, log metrics, and compare runs
- Section 7: ML Algorithms in Spark: Decision trees, Random Forest, XGBoost, LightGBM, Isolation Forest, K-Means
- Section 8: Deployment Options
- Section 9: Hyperparameter Tuning: Cross-validation and performance tuning
- Section 10: Logistic regression
TENHO INTERESSE