Visão Geral
O Curso Data Engineer Performance Tuning in Azure Databricks foi desenvolvido para capacitar profissionais a otimizar o desempenho de workloads de dados, pipelines e consultas dentro do ambiente Azure Databricks.
Durante o treinamento, os participantes aprenderão as melhores práticas de otimização do Apache Spark, estratégias de Delta Lake, uso eficiente de caching, particionamento, indexação e análise de job performance. O foco é garantir que as cargas de trabalho de dados sejam rápidas, estáveis e economicamente eficientes em ambientes de produção.
Objetivo
Após realizar o curso Data Engineer Performance Tuning in Azure Databricks, você será capaz de:
- Otimizar workloads e jobs Spark no Azure Databricks.
- Aplicar técnicas de performance tuning em consultas SQL e transformações de dados.
- Melhorar a eficiência de armazenamento e leitura com Delta Lake.
- Configurar clusters e recursos de computação de forma otimizada.
- Monitorar, diagnosticar e resolver gargalos de desempenho em pipelines de dados.
Publico Alvo
- Engenheiros de Dados responsáveis por projetar e manter pipelines de dados no Azure Databricks.
- Desenvolvedores ETL e profissionais de integração de dados que buscam aprimorar o desempenho de seus jobs Spark.
- Cientistas e Analistas de Dados que desejam melhorar o tempo de execução de suas consultas e experimentos em Databricks.
- Arquitetos de Dados e Engenheiros de Nuvem que atuam na otimização e custo-benefício de workloads em nuvem.
Pre-Requisitos
- Conhecimento básico em Azure Databricks e Apache Spark.
- Familiaridade com SQL e manipulação de dados.
- Noções gerais de Delta Lake e armazenamento em nuvem (Azure Data Lake Storage).
- Experiência com scripts em Python ou Scala é recomendada, mas não obrigatória.
Materiais
Português + Exercícios + Lab Pratico
Conteúdo Programatico
Module 1: Introduction to Performance Tuning in Azure Databricks
- Understanding the Azure Databricks Architecture
- Performance Challenges in Data Engineering Workloads
- Key Performance Metrics and Monitoring Tools
- Overview of the Spark Execution Model
Module 2: Optimizing Cluster Configuration
- Choosing the Right Cluster Mode (Standard, High-Concurrency, Job)
- Auto-scaling and Spot Instances
- Cluster Sizing and Node Type Selection
- Managing Libraries and Runtime Versions
- Best Practices for Cluster Cost Optimization
Module 3: Spark Performance Optimization
- Understanding Spark Execution Plans
- Catalyst Optimizer and Tungsten Engine
- Caching and Persistence Strategies
- Partitioning and Parallelism
- Broadcast Joins vs. Shuffle Joins
- Avoiding Data Skew and Shuffle Bottlenecks
Module 4: Delta Lake Optimization Techniques
- Understanding Delta Lake Storage Format
- Z-Ordering and Data Skipping
- OPTIMIZE and VACUUM Commands
- Compaction and File Management
- Schema Evolution and Enforced Data Quality
- Time Travel and Data Versioning Performance Impact
Module 5: Query and ETL Performance with Spark SQL
- Analyzing Query Plans (EXPLAIN and EXPLAIN COST)
- Using Adaptive Query Execution (AQE)
- Optimizing Joins, Aggregations, and Window Functions
- Managing Small Files and I/O Performance
- Handling Large-Scale Data Transformations
Module 6: Incremental and Streaming Workloads
- Optimizing Incremental Pipelines with MERGE INTO
- Managing Structured Streaming Performance
- Trigger Intervals and Checkpointing
- Handling Late Data and Watermarking
- Optimizing Delta Live Tables for Continuous Processing
Module 7: Monitoring and Troubleshooting Performance
- Using the Spark UI and Databricks Dashboard
- Understanding Job Execution Graphs and DAGs
- Common Performance Pitfalls and How to Fix Them
- Log Analysis and Metrics Collection
- Integrating with Azure Monitor and Log Analytics
Module 8: Best Practices and Real-World Scenarios
- End-to-End Performance Tuning Workflow
- Troubleshooting Case Studies
- Performance Optimization Checklist
- Cost vs. Performance Trade-offs
- Recommendations for Production Workloads
TENHO INTERESSE