Visão Geral
Curso Airflow para Data Engineering. Este curso aprofunda o uso do Apache Airflow aplicado especificamente à Engenharia de Dados, abordando desde o design de pipelines robustos até estratégias avançadas de orquestração, escalabilidade, observabilidade e boas práticas em ambientes produtivos. O foco está na construção, manutenção e operação de pipelines de dados confiáveis, utilizando o Airflow como ferramenta central para ETL, ELT, integrações e automação em ecossistemas modernos de dados.
Conteúdo Programatico
Module 1: Airflow for Data Engineering Overview
- Role of Airflow in data platforms
- ETL vs ELT pipelines
- Batch data processing concepts
- Common data engineering architectures
Module 2: Advanced Airflow Architecture
- Scheduler internals
- Executors comparison
- Metadata database design
- Scaling Airflow components
Module 3: DAG Design for Data Pipelines
- Modular DAG design
- Dynamic DAG generation
- Templating and macros
- Parameterized pipelines
Module 4: Operators and Sensors for Data Engineering
- PythonOperator and custom logic
- Database operators
- Sensors and event-driven pipelines
- ExternalTaskSensor usage
Module 5: Data Integration and Connectivity
- Working with SQL databases
- APIs and REST integrations
- File systems and object storage
- Data ingestion patterns
Module 6: Error Handling and Reliability
- Retries and backoff strategies
- SLAs and alerts
- Idempotent pipeline design
- Data quality checks
Module 7: Performance and Scalability
- Parallelism and concurrency
- Task optimization
- Resource management
- Handling large-scale pipelines
Module 8: Production-Ready Airflow
- Deployment strategies
- Environment configuration
- Security and access control
- Monitoring and observability
Module 9: Best Practices and Real-World Scenarios
- DAG versioning and CI/CD
- Code organization standards
- Common anti-patterns
- Preparing for advanced use cases