Curso Airflow plus Spark and Lakehouse

  • DevOps | CI | CD | Kubernetes | Web3

Curso Airflow plus Spark and Lakehouse

40 horas
Visão Geral

Curso Airflow plus Spark and Lakehouse. Este curso aborda a construção de pipelines de dados modernos utilizando a integração entre Apache Airflow, Apache Spark e a arquitetura de Lakehouse. O foco está na orquestração de workflows de dados em escala, processamento distribuído e armazenamento analítico unificado, capacitando o aluno a projetar e operar plataformas de dados robustas, escaláveis e prontas para produção.

Objetivo

Após realizar este Curso Airflow + Spark + Lakehouse, você será capaz de:

  • Projetar pipelines de dados baseados em arquitetura Lakehouse
  • Orquestrar jobs Spark utilizando Apache Airflow
  • Integrar processamento distribuído com workflows de dados
  • Construir pipelines ETL e ELT escaláveis
  • Gerenciar dependências e execução de jobs em larga escala
  • Aplicar boas práticas de confiabilidade, observabilidade e performance
  • Preparar pipelines para ambientes produtivos de dados
Publico Alvo
  •  
  • Engenheiros de dados
  • Engenheiros de software focados em dados
  • Profissionais de analytics engineering
  • Arquitetos de dados
  • Profissionais de BI que trabalham com grandes volumes de dados
  •  
Pre-Requisitos
  •  
  • Conhecimentos sólidos de Python
  • Experiência básica com SQL
  • Conceitos fundamentais de engenharia de dados
  • Familiaridade com Apache Airflow ou orquestração de workflows
  • Noções de computação distribuída
  •  
Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Modern Data Platforms Overview

  1. Evolution of data architectures
  2. Data warehouse vs data lake
  3. Lakehouse architecture principles
  4. Role of orchestration in data platforms

Module 2: Airflow in Large-Scale Data Pipelines

  1. Airflow architecture for data platforms
  2. DAG design for batch processing
  3. Scheduling and dependencies
  4. Production considerations

Module 3: Apache Spark Fundamentals for Data Engineering

  1. Spark architecture and execution model
  2. Spark jobs and applications
  3. DataFrames and transformations
  4. Batch processing patterns

Module 4: Orchestrating Spark with Airflow

  1. SparkSubmitOperator
  2. Managing Spark jobs from Airflow
  3. Parameterized Spark pipelines
  4. Monitoring Spark executions

Module 5: Lakehouse Storage Layers

  1. Bronze, Silver and Gold layers
  2. Table formats and metadata
  3. Schema evolution
  4. Partitioning strategies

Module 6: Building ETL and ELT Pipelines

  1. Ingestion pipelines
  2. Transformations at scale
  3. Data enrichment workflows
  4. Incremental processing

Module 7: Reliability and Data Quality

  1. Idempotent Spark jobs
  2. Error handling strategies
  3. Data validation checks
  4. Recovery and backfill

Module 8: Performance and Scalability

  1. Spark optimization techniques
  2. Parallelism and resource allocation
  3. Airflow concurrency tuning
  4. Cost and performance trade-offs

Module 9: Production-Ready Lakehouse Pipelines

  1. CI/CD for data pipelines
  2. Versioning and deployments
  3. Security and access control
  4. Observability and monitoring

Module 10: Real-World Scenarios and Best Practices

  1. End-to-end pipeline design
  2. Common architectural patterns
  3. Anti-patterns and pitfalls
  4. Preparing for advanced platforms
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h