Curso Airflow para Data Engineering

  • DevOps | CI | CD | Kubernetes | Web3

Curso Airflow para Data Engineering

24 horas
Visão Geral

Curso Airflow para Data Engineering. Este curso aprofunda o uso do Apache Airflow aplicado especificamente à Engenharia de Dados, abordando desde o design de pipelines robustos até estratégias avançadas de orquestração, escalabilidade, observabilidade e boas práticas em ambientes produtivos. O foco está na construção, manutenção e operação de pipelines de dados confiáveis, utilizando o Airflow como ferramenta central para ETL, ELT, integrações e automação em ecossistemas modernos de dados.

Objetivo

Após realizar este Curso Airflow para Data Engineering, você será capaz de:

  • Projetar pipelines de dados escaláveis e resilientes
  • Utilizar o Airflow para orquestrar processos ETL e ELT
  • Criar DAGs complexos com dependências avançadas
  • Trabalhar com diferentes tipos de operadores e sensores
  • Integrar o Airflow com bancos de dados, APIs e sistemas externos
  • Implementar boas práticas de versionamento e organização de DAGs
  • Monitorar, auditar e tratar falhas em pipelines de dados
  • Preparar ambientes de Airflow para produção
Publico Alvo
  •  
  • Engenheiros de dados
  • Engenheiros de software que atuam com dados
  • Profissionais de BI
  • Profissionais de analytics engineering
  • Profissionais de TI que trabalham com pipelines de dados
  •  
Pre-Requisitos
  • Conhecimentos sólidos de Python
  • Noções de bancos de dados SQL
  • Conceitos básicos de engenharia de dados
  • Familiaridade com linha de comando
  • Conhecimentos introdutórios de Linux

 

Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Airflow for Data Engineering Overview

  1. Role of Airflow in data platforms
  2. ETL vs ELT pipelines
  3. Batch data processing concepts
  4. Common data engineering architectures

Module 2: Advanced Airflow Architecture

  1. Scheduler internals
  2. Executors comparison
  3. Metadata database design
  4. Scaling Airflow components

Module 3: DAG Design for Data Pipelines

  1. Modular DAG design
  2. Dynamic DAG generation
  3. Templating and macros
  4. Parameterized pipelines

Module 4: Operators and Sensors for Data Engineering

  1. PythonOperator and custom logic
  2. Database operators
  3. Sensors and event-driven pipelines
  4. ExternalTaskSensor usage

Module 5: Data Integration and Connectivity

  1. Working with SQL databases
  2. APIs and REST integrations
  3. File systems and object storage
  4. Data ingestion patterns

Module 6: Error Handling and Reliability

  1. Retries and backoff strategies
  2. SLAs and alerts
  3. Idempotent pipeline design
  4. Data quality checks

Module 7: Performance and Scalability

  1. Parallelism and concurrency
  2. Task optimization
  3. Resource management
  4. Handling large-scale pipelines

Module 8: Production-Ready Airflow

  1. Deployment strategies
  2. Environment configuration
  3. Security and access control
  4. Monitoring and observability

Module 9: Best Practices and Real-World Scenarios

  1. DAG versioning and CI/CD
  2. Code organization standards
  3. Common anti-patterns
  4. Preparing for advanced use cases
TENHO INTERESSE

Cursos Relacionados

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Ansible Overview of Ansible architecture

16h

Curso Apache NiFi e Hadoop DataFlow Engineering

40 horas

Curso Apache Kafka Data Streaming

24 horas

Curso Python Software Development

24 horas