Curso Airflow plus Spark and Lakehouse

  • DevOps | CI | CD | Kubernetes | Web3

Curso Airflow plus Spark and Lakehouse

40 horas
Visão Geral

Curso Airflow plus Spark and Lakehouse. Este curso aborda a construção de pipelines de dados modernos utilizando a integração entre Apache Airflow, Apache Spark e a arquitetura de Lakehouse. O foco está na orquestração de workflows de dados em escala, processamento distribuído e armazenamento analítico unificado, capacitando o aluno a projetar e operar plataformas de dados robustas, escaláveis e prontas para produção.

Objetivo

Após realizar este Curso Airflow + Spark + Lakehouse, você será capaz de:

  • Projetar pipelines de dados baseados em arquitetura Lakehouse
  • Orquestrar jobs Spark utilizando Apache Airflow
  • Integrar processamento distribuído com workflows de dados
  • Construir pipelines ETL e ELT escaláveis
  • Gerenciar dependências e execução de jobs em larga escala
  • Aplicar boas práticas de confiabilidade, observabilidade e performance
  • Preparar pipelines para ambientes produtivos de dados
Publico Alvo
  •  
  • Engenheiros de dados
  • Engenheiros de software focados em dados
  • Profissionais de analytics engineering
  • Arquitetos de dados
  • Profissionais de BI que trabalham com grandes volumes de dados
  •  
Pre-Requisitos
  •  
  • Conhecimentos sólidos de Python
  • Experiência básica com SQL
  • Conceitos fundamentais de engenharia de dados
  • Familiaridade com Apache Airflow ou orquestração de workflows
  • Noções de computação distribuída
  •  
Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Modern Data Platforms Overview

  1. Evolution of data architectures
  2. Data warehouse vs data lake
  3. Lakehouse architecture principles
  4. Role of orchestration in data platforms

Module 2: Airflow in Large-Scale Data Pipelines

  1. Airflow architecture for data platforms
  2. DAG design for batch processing
  3. Scheduling and dependencies
  4. Production considerations

Module 3: Apache Spark Fundamentals for Data Engineering

  1. Spark architecture and execution model
  2. Spark jobs and applications
  3. DataFrames and transformations
  4. Batch processing patterns

Module 4: Orchestrating Spark with Airflow

  1. SparkSubmitOperator
  2. Managing Spark jobs from Airflow
  3. Parameterized Spark pipelines
  4. Monitoring Spark executions

Module 5: Lakehouse Storage Layers

  1. Bronze, Silver and Gold layers
  2. Table formats and metadata
  3. Schema evolution
  4. Partitioning strategies

Module 6: Building ETL and ELT Pipelines

  1. Ingestion pipelines
  2. Transformations at scale
  3. Data enrichment workflows
  4. Incremental processing

Module 7: Reliability and Data Quality

  1. Idempotent Spark jobs
  2. Error handling strategies
  3. Data validation checks
  4. Recovery and backfill

Module 8: Performance and Scalability

  1. Spark optimization techniques
  2. Parallelism and resource allocation
  3. Airflow concurrency tuning
  4. Cost and performance trade-offs

Module 9: Production-Ready Lakehouse Pipelines

  1. CI/CD for data pipelines
  2. Versioning and deployments
  3. Security and access control
  4. Observability and monitoring

Module 10: Real-World Scenarios and Best Practices

  1. End-to-end pipeline design
  2. Common architectural patterns
  3. Anti-patterns and pitfalls
  4. Preparing for advanced platforms
TENHO INTERESSE

Cursos Relacionados

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Ansible Overview of Ansible architecture

16h

Curso Apache NiFi e Hadoop DataFlow Engineering

40 horas

Curso Apache Kafka Data Streaming

24 horas

Curso Python Software Development

24 horas