Curso Data Engenieer Performance Tuning in Azure Databricks

  • DevOps | CI | CD | Kubernetes | Web3

Curso Data Engenieer Performance Tuning in Azure Databricks

24 horas
Visão Geral

O Curso Data Engineer Performance Tuning in Azure Databricks foi desenvolvido para capacitar profissionais a otimizar o desempenho de workloads de dados, pipelines e consultas dentro do ambiente Azure Databricks.
Durante o treinamento, os participantes aprenderão as melhores práticas de otimização do Apache Spark, estratégias de Delta Lake, uso eficiente de caching, particionamento, indexação e análise de job performance. O foco é garantir que as cargas de trabalho de dados sejam rápidas, estáveis e economicamente eficientes em ambientes de produção.

Objetivo

Após realizar o curso Data Engineer Performance Tuning in Azure Databricks, você será capaz de:

  • Otimizar workloads e jobs Spark no Azure Databricks.
  • Aplicar técnicas de performance tuning em consultas SQL e transformações de dados.
  • Melhorar a eficiência de armazenamento e leitura com Delta Lake.
  • Configurar clusters e recursos de computação de forma otimizada.
  • Monitorar, diagnosticar e resolver gargalos de desempenho em pipelines de dados.
Publico Alvo
  • Engenheiros de Dados responsáveis por projetar e manter pipelines de dados no Azure Databricks.
  • Desenvolvedores ETL e profissionais de integração de dados que buscam aprimorar o desempenho de seus jobs Spark.
  • Cientistas e Analistas de Dados que desejam melhorar o tempo de execução de suas consultas e experimentos em Databricks.
  • Arquitetos de Dados e Engenheiros de Nuvem que atuam na otimização e custo-benefício de workloads em nuvem.
Pre-Requisitos
  • Conhecimento básico em Azure Databricks e Apache Spark.
  • Familiaridade com SQL e manipulação de dados.
  • Noções gerais de Delta Lake e armazenamento em nuvem (Azure Data Lake Storage).
  • Experiência com scripts em Python ou Scala é recomendada, mas não obrigatória.
Materiais
Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Performance Tuning in Azure Databricks

  1. Understanding the Azure Databricks Architecture
  2. Performance Challenges in Data Engineering Workloads
  3. Key Performance Metrics and Monitoring Tools
  4. Overview of the Spark Execution Model

Module 2: Optimizing Cluster Configuration

  1. Choosing the Right Cluster Mode (Standard, High-Concurrency, Job)
  2. Auto-scaling and Spot Instances
  3. Cluster Sizing and Node Type Selection
  4. Managing Libraries and Runtime Versions
  5. Best Practices for Cluster Cost Optimization

Module 3: Spark Performance Optimization

  1. Understanding Spark Execution Plans
  2. Catalyst Optimizer and Tungsten Engine
  3. Caching and Persistence Strategies
  4. Partitioning and Parallelism
  5. Broadcast Joins vs. Shuffle Joins
  6. Avoiding Data Skew and Shuffle Bottlenecks

Module 4: Delta Lake Optimization Techniques

  1. Understanding Delta Lake Storage Format
  2. Z-Ordering and Data Skipping
  3. OPTIMIZE and VACUUM Commands
  4. Compaction and File Management
  5. Schema Evolution and Enforced Data Quality
  6. Time Travel and Data Versioning Performance Impact

Module 5: Query and ETL Performance with Spark SQL

  1. Analyzing Query Plans (EXPLAIN and EXPLAIN COST)
  2. Using Adaptive Query Execution (AQE)
  3. Optimizing Joins, Aggregations, and Window Functions
  4. Managing Small Files and I/O Performance
  5. Handling Large-Scale Data Transformations

Module 6: Incremental and Streaming Workloads

  1. Optimizing Incremental Pipelines with MERGE INTO
  2. Managing Structured Streaming Performance
  3. Trigger Intervals and Checkpointing
  4. Handling Late Data and Watermarking
  5. Optimizing Delta Live Tables for Continuous Processing

Module 7: Monitoring and Troubleshooting Performance

  1. Using the Spark UI and Databricks Dashboard
  2. Understanding Job Execution Graphs and DAGs
  3. Common Performance Pitfalls and How to Fix Them
  4. Log Analysis and Metrics Collection
  5. Integrating with Azure Monitor and Log Analytics

Module 8: Best Practices and Real-World Scenarios

  1. End-to-End Performance Tuning Workflow
  2. Troubleshooting Case Studies
  3. Performance Optimization Checklist
  4. Cost vs. Performance Trade-offs
  5. Recommendations for Production Workloads
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h