Curso Airflow plus Spark and Lakehouse

40 horas

Visão Geral

Curso Airflow plus Spark and Lakehouse. Este curso aborda a construção de pipelines de dados modernos utilizando a integração entre Apache Airflow, Apache Spark e a arquitetura de Lakehouse. O foco está na orquestração de workflows de dados em escala, processamento distribuído e armazenamento analítico unificado, capacitando o aluno a projetar e operar plataformas de dados robustas, escaláveis e prontas para produção.

Objetivo

Após realizar este Curso Airflow + Spark + Lakehouse, você será capaz de:

Projetar pipelines de dados baseados em arquitetura Lakehouse
Orquestrar jobs Spark utilizando Apache Airflow
Integrar processamento distribuído com workflows de dados
Construir pipelines ETL e ELT escaláveis
Gerenciar dependências e execução de jobs em larga escala
Aplicar boas práticas de confiabilidade, observabilidade e performance
Preparar pipelines para ambientes produtivos de dados

Publico Alvo

Engenheiros de dados
Engenheiros de software focados em dados
Profissionais de analytics engineering
Arquitetos de dados
Profissionais de BI que trabalham com grandes volumes de dados

Pre-Requisitos

Conhecimentos sólidos de Python
Experiência básica com SQL
Conceitos fundamentais de engenharia de dados
Familiaridade com Apache Airflow ou orquestração de workflows
Noções de computação distribuída

Materiais

Ingles/Portugues

Conteúdo Programatico

Module 1: Modern Data Platforms Overview

Evolution of data architectures
Data warehouse vs data lake
Lakehouse architecture principles
Role of orchestration in data platforms

Module 2: Airflow in Large-Scale Data Pipelines

Airflow architecture for data platforms
DAG design for batch processing
Scheduling and dependencies
Production considerations

Module 3: Apache Spark Fundamentals for Data Engineering

Spark architecture and execution model
Spark jobs and applications
DataFrames and transformations
Batch processing patterns

Module 4: Orchestrating Spark with Airflow

SparkSubmitOperator
Managing Spark jobs from Airflow
Parameterized Spark pipelines
Monitoring Spark executions

Module 5: Lakehouse Storage Layers

Bronze, Silver and Gold layers
Table formats and metadata
Schema evolution
Partitioning strategies

Module 6: Building ETL and ELT Pipelines

Ingestion pipelines
Transformations at scale
Data enrichment workflows
Incremental processing

Module 7: Reliability and Data Quality

Idempotent Spark jobs
Error handling strategies
Data validation checks
Recovery and backfill

Module 8: Performance and Scalability

Spark optimization techniques
Parallelism and resource allocation
Airflow concurrency tuning
Cost and performance trade-offs

Module 9: Production-Ready Lakehouse Pipelines

CI/CD for data pipelines
Versioning and deployments
Security and access control
Observability and monitoring

Module 10: Real-World Scenarios and Best Practices

End-to-end pipeline design
Common architectural patterns
Anti-patterns and pitfalls
Preparing for advanced platforms

32h

Ver Curso

Curso Airflow plus Spark and Lakehouse

Curso Airflow plus Spark and Lakehouse

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Curso Agile Product Owner

Curso Agile Fundamentals

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices

O que você quer aprender hoje?

Curso Airflow plus Spark and Lakehouse

Curso Airflow plus Spark and Lakehouse

Visão Geral

Objetivo

Publico Alvo

Pre-Requisitos

Materiais

Conteúdo Programatico

Ficha do Curso

Investimento

Formato de Entrega

Nível

Calendário

Receba todas informações

Cursos Relacionados

Curso Docker Foundation

Curso Ansible Red Hat Basics Automation Technical Foundation

Curso Ansible Foundation

Curso Terraform Foundation

Curso Terraform Deploying to Oracle Cloud Infrastructure

Curso Ansible Linux Automation with Ansible

Curso Agile Product Owner

Curso Agile Fundamentals

Ansible Overview of Ansible architecture

Advanced Automation: Ansible Best Practices