Visão Geral
Este curso aprofunda o uso do Apache Airflow em ambientes produtivos, com foco em performance, escalabilidade, confiabilidade e operação contínua. O aluno aprenderá como preparar, operar e evoluir clusters de Airflow para cenários reais de negócio, lidando com grandes volumes de DAGs, múltiplos times, alta concorrência, SLAs rigorosos e requisitos de observabilidade e segurança.
Objetivo
Após realizar este curso Airflow em Produção: Performance, Escala e Confiabilidade, você será capaz de:
- Preparar ambientes de Airflow para uso produtivo
- Ajustar performance e paralelismo de DAGs e tasks
- Escalar Airflow horizontal e verticalmente
- Projetar pipelines confiáveis e tolerantes a falhas
- Implementar observabilidade e monitoramento efetivo
- Gerenciar falhas, backfills e incidentes em produção
- Aplicar boas práticas de segurança e governança
- Operar Airflow com previsibilidade e estabilidade
Conteúdo Programatico
Module 1: Airflow in Production Overview
- From development to production
- Production challenges
- Reliability and scalability goals
- Airflow as a critical platform
Module 2: Production Architecture
- Webserver, scheduler and workers
- Executors comparison
- Metadata database considerations
- High availability design
Module 3: Performance Fundamentals
- DAG parsing performance
- Scheduler tuning
- Task execution efficiency
- Reducing overhead
Module 4: Concurrency, Parallelism and Scale
- Parallelism vs concurrency
- Pools and queues
- Worker scaling strategies
- Managing high DAG volume
Module 5: Reliable DAG Design
- Idempotent tasks
- Retry and backoff strategies
- Failure isolation
- Safe backfills
Module 6: Observability and Monitoring
- Key Airflow metrics
- Logs and traces
- SLA monitoring
- Alerting strategies
Module 7: Metadata Database and State Management
- Metadata growth challenges
- Database tuning
- Cleanup and retention
- State consistency
Module 8: Security and Access Control
- Authentication and authorization
- RBAC in Airflow
- Secrets management
- Secure connections
Module 9: Operating Airflow at Scale
- Multi-team environments
- CI/CD for DAGs
- Environment separation
- Change management
Module 10: Incident Management and Best Practices
- Common production failures
- Incident response workflows
- Postmortems and learning
- Production readiness checklist