Curso Airflow para Data Engineering

  • DevOps | CI | CD | Kubernetes | Web3

Curso Airflow para Data Engineering

24 horas
Visão Geral

Curso Airflow para Data Engineering. Este curso aprofunda o uso do Apache Airflow aplicado especificamente à Engenharia de Dados, abordando desde o design de pipelines robustos até estratégias avançadas de orquestração, escalabilidade, observabilidade e boas práticas em ambientes produtivos. O foco está na construção, manutenção e operação de pipelines de dados confiáveis, utilizando o Airflow como ferramenta central para ETL, ELT, integrações e automação em ecossistemas modernos de dados.

Objetivo

Após realizar este Curso Airflow para Data Engineering, você será capaz de:

  • Projetar pipelines de dados escaláveis e resilientes
  • Utilizar o Airflow para orquestrar processos ETL e ELT
  • Criar DAGs complexos com dependências avançadas
  • Trabalhar com diferentes tipos de operadores e sensores
  • Integrar o Airflow com bancos de dados, APIs e sistemas externos
  • Implementar boas práticas de versionamento e organização de DAGs
  • Monitorar, auditar e tratar falhas em pipelines de dados
  • Preparar ambientes de Airflow para produção
Publico Alvo
  •  
  • Engenheiros de dados
  • Engenheiros de software que atuam com dados
  • Profissionais de BI
  • Profissionais de analytics engineering
  • Profissionais de TI que trabalham com pipelines de dados
  •  
Pre-Requisitos
  • Conhecimentos sólidos de Python
  • Noções de bancos de dados SQL
  • Conceitos básicos de engenharia de dados
  • Familiaridade com linha de comando
  • Conhecimentos introdutórios de Linux

 

Materiais
Ingles/Portugues
Conteúdo Programatico

Module 1: Airflow for Data Engineering Overview

  1. Role of Airflow in data platforms
  2. ETL vs ELT pipelines
  3. Batch data processing concepts
  4. Common data engineering architectures

Module 2: Advanced Airflow Architecture

  1. Scheduler internals
  2. Executors comparison
  3. Metadata database design
  4. Scaling Airflow components

Module 3: DAG Design for Data Pipelines

  1. Modular DAG design
  2. Dynamic DAG generation
  3. Templating and macros
  4. Parameterized pipelines

Module 4: Operators and Sensors for Data Engineering

  1. PythonOperator and custom logic
  2. Database operators
  3. Sensors and event-driven pipelines
  4. ExternalTaskSensor usage

Module 5: Data Integration and Connectivity

  1. Working with SQL databases
  2. APIs and REST integrations
  3. File systems and object storage
  4. Data ingestion patterns

Module 6: Error Handling and Reliability

  1. Retries and backoff strategies
  2. SLAs and alerts
  3. Idempotent pipeline design
  4. Data quality checks

Module 7: Performance and Scalability

  1. Parallelism and concurrency
  2. Task optimization
  3. Resource management
  4. Handling large-scale pipelines

Module 8: Production-Ready Airflow

  1. Deployment strategies
  2. Environment configuration
  3. Security and access control
  4. Monitoring and observability

Module 9: Best Practices and Real-World Scenarios

  1. DAG versioning and CI/CD
  2. Code organization standards
  3. Common anti-patterns
  4. Preparing for advanced use cases
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h