Visão Geral
O Curso Advanced Data Engineering with Databricks foi desenvolvido para profissionais que já possuem experiência em engenharia de dados e desejam aprofundar-se nas práticas avançadas de desenvolvimento, otimização e automação de pipelines de dados utilizando o Databricks Unified Data Analytics Platform.
Durante o treinamento, o aluno aprenderá a otimizar jobs complexos, implementar pipelines de produção, gerenciar dados em larga escala, trabalhar com Delta Lake avançado, orquestrar fluxos de dados com Databricks Workflows e integrar ferramentas de machine learning e streaming em tempo real.
O curso combina teoria e prática, com laboratórios que simulam cenários corporativos reais.
Objetivo
Após realizar o Curso Advanced Data Engineering with Databricks, você será capaz de:
- Projetar e otimizar pipelines de dados altamente escaláveis
- Aplicar técnicas de performance tuning em jobs Spark e Delta Lake
- Implementar arquiteturas modernas de dados (medallion architecture)
- Gerenciar pipelines de dados contínuos e orquestrados com Databricks Workflows
- Integrar dados em tempo real e machine learning pipelines
- Automatizar e monitorar todo o ciclo de vida do pipeline de dados
Publico Alvo
- Engenheiros de Dados e Arquitetos de Dados experientes
- Cientistas de Dados que desejam aprimorar pipelines de dados em Databricks
- Profissionais responsáveis por migração e integração de dados em larga escala
- Engenheiros de Plataforma e DevOps que trabalham com data pipelines e automação na nuvem
Pre-Requisitos
- Conhecimento prévio em Databricks Fundamentals
- Experiência com SQL, Python e Spark
- Familiaridade com Delta Lake, ETL e cloud computing (Azure, AWS ou GCP)
Informações Gerais
Metodologia
- Curso ao vivo via Microsoft Teams
- Ministrado por instrutor/consultor ativo no mercado e docente em sala de aula
- Curso prático, com laboratórios individuais e cenários reais
- Um aluno por microcomputador com ambiente Databricks configurado
- Apostilas e exercícios práticos inclusos
- Metodologia que combina teoria, prática e troubleshooting avançado
Materiais
Inglês/Português Lab Pratico
Conteúdo Programatico
Module 1: Databricks Advanced Overview
-
Review of Databricks Lakehouse Architecture
- Advanced cluster configuration and optimization
- Databricks Runtime internals and job execution lifecycle
- Workspace organization, governance, and multi-environment management
Module 2: Advanced Delta Lake Concepts
-
Delta Lake internals: transaction logs and data versioning
- Schema evolution, time travel, and optimization techniques
- Delta Live Tables and change data capture (CDC)
- Implementing SCD Type 1, 2, and 3 in Delta Lake
- Managing large tables and compaction strategies
Module 3: Data Pipeline Architecture
-
Building advanced ETL/ELT pipelines
- Medallion Architecture (Bronze, Silver, Gold layers)
- Incremental data loading and upsert operations
- Handling late-arriving and duplicate data
- Designing resilient and idempotent pipelines
Module 4: Performance Tuning and Optimization
-
Spark job optimization: partitioning, caching, and broadcast joins
- Adaptive query execution (AQE)
- Delta Lake optimization commands and Z-Ordering
- Profiling, debugging, and performance monitoring
- Managing cluster costs and job scheduling
Module 5: Advanced Data Orchestration
-
Databricks Workflows: building and managing complex pipelines
- Task dependencies and retries
- Integrating with Airflow, Azure Data Factory, and Prefect
- Parameterized pipelines and reusable templates
- Monitoring and alerting on workflow failures
Module 6: Streaming Data and Real-Time Processing
- Structured Streaming concepts and architecture
- Reading and writing streaming data with Delta Lake
- Stateful stream processing and watermarks
- Integrating with Kafka, Event Hubs, and Kinesis
- Handling data consistency and fault tolerance
Module 7: Data Quality and Observability
- Implementing data validation and testing frameworks
- Integrating Databricks SQL for data quality dashboards
- Automating anomaly detection
- Logging and monitoring best practices
- Governance with Unity Catalog and fine-grained access control
Module 8: Advanced Machine Learning Integration
- Integrating feature pipelines with MLflow
- Managing data versioning for ML training
- Automating feature engineering pipelines
- Real-time inference using streaming data and Delta Live Tables
Module 9: Automation and CI/CD for Data Engineering
-
Managing code versioning with Git integration
- Implementing Databricks Repos and notebooks versioning
- CI/CD using GitHub Actions and Azure DevOps
- Automated deployment of jobs and clusters
- Infrastructure as code with Terraform and Databricks Provider
Module 10: Hands-on Labs
-
Creating and optimizing an end-to-end ETL pipeline
- Implementing Medallion architecture with Delta Live Tables
- Configuring Databricks Workflows with dependencies
- Monitoring and tuning real-time data ingestion
- Automating job deployment with CI/CD
Module 11: Case Studies and Best Practices
-
Enterprise use cases and lessons learned
- Cost optimization in Databricks environments
- Data governance and compliance considerations
- Building a scalable and maintainable data engineering platform
- Future trends in data engineering with Databricks
TENHO INTERESSE