Curso Flink SQL for Data Engineering

  • DevOps | CI | CD | Kubernetes | Web3

Curso Flink SQL for Data Engineering

30h
Visão Geral

Este curso apresenta o uso do Apache Flink SQL aplicado diretamente ao trabalho de engenharia de dados. Ao longo da formação, você aprenderá a construir pipelines robustos, ingerir dados em alta escala, criar transformações avançadas, aplicar janelas, realizar joins complexos e integrar o Flink SQL com sistemas como Kafka, bancos de dados e data lakes. O foco é preparar você para projetar, implementar e operar arquiteturas de dados modernas baseadas em streaming.

Objetivo

Após realizar este curso, você será capaz de:

  • Criar pipelines completos de engenharia de dados usando Flink SQL.
  • Implementar ingestão contínua de dados conectando múltiplas fontes.
  • Aplicar transformações complexas, joins, agregações e janelas.
  • Construir camadas bronze, silver e gold usando SQL em streaming.
  • Entender e controlar tempo de evento, watermarks e dados atrasados.
  • Integrar Flink SQL com data lakes, bancos de dados e Kafka.
  • Aplicar boas práticas para pipelines confiáveis e escaláveis.
Publico Alvo
  • Engenheiros de dados iniciantes e intermediários
  • Analistas e cientistas de dados que querem trabalhar com real-time
  • Profissionais que atuam com Kafka ou arquitetura distribuída
  • Desenvolvedores que desejam migrar para streaming data pipelines
  • Arquitetos de dados que usam Flink ou querem adotá-lo
Pre-Requisitos
  • Conhecimento sólido de SQL
  • Noções de Big Data, particionamento e sistemas distribuídos
  • Conhecimento básico de Kafka (desejável)
  • Familiaridade com conceitos de pipelines de dados
Conteúdo Programatico

Module 1 – Introduction to Flink SQL for Data Engineering

  1. Role of Flink SQL in modern data engineering
  2. Streaming vs batch data engineering
  3. Architectural components and patterns

Module 2 – Data Ingestion with Flink SQL

  1. Kafka source DDLs
  2. Ingesting from files, object storage and JDBC connectors
  3. Schema definitions and serialization formats (JSON, Avro, Debezium, Protobuf)
  4. Creating multi-source pipelines

Module 3 – Time Semantics and Watermarks

  1. Event time vs ingestion time vs processing time
  2. Custom watermark strategies
  3. Handling late, early and out-of-order data
  4. Practical patterns for real-world pipelines

Module 4 – Transformations for Data Engineering

  1. Filtering, projections and enrichment
  2. Computed fields and schema evolution
  3. Handling changelogs and upsert semantics
  4. Data normalization and denormalization with SQL

Module 5 – Windows and Aggregations

  1. Tumbling, hopping and session windows
  2. Hierarchical aggregations (multi-hop aggregations)
  3. Real-time metrics and time-series processing
  4. Materializing incremental results

Module 6 – Stream and Table Joins

  1. Stream–stream joins at scale
  2. Temporal table joins
  3. Lookup joins with external systems
  4. Joins for dimension modeling and enrichment

Module 7 – Building Multi-Layer Pipelines (Bronze, Silver, Gold)

  1. Designing staged pipelines with Flink SQL
  2. Data cleansing and formatting
  3. Deduplication techniques
  4. Creating analytics-ready tables

Module 8 – Output to Data Warehouses and OLAP Systems

  1. Writing to Kafka sinks
  2. Delivering results to OLAP systems (ClickHouse, Pinot, Druid)
  3. Exporting to data lakes (Hudi, Iceberg, Delta)
  4. Multi-sink pipeline strategies

Module 9 – Monitoring, Debugging and Optimization

  1. Using EXPLAIN and analyzing query plans
  2. State tuning and memory optimization
  3. Avoiding backpressure and performance bottlenecks
  4. Techniques for high-throughput pipelines

Module 10 – Real-World Data Engineering Use Cases

  1. Real-time ETL pipeline
  2. Streaming CDC from operational databases
  3. IoT ingestion and normalization
  4. Real-time transformations for BI dashboards

Module 11 – Best Practices for Production

  1. Governance and schema evolution
  2. Versioning and catalog management
  3. Error handling and recovery strategies
  4. Observability and lineage considerations
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h