Curso Apache Flink for Data Engineers

  • DevOps | CI | CD | Kubernetes | Web3

Curso Apache Flink for Data Engineers

36h
Visão Geral

Este Curso Apache Flink for Data Engineers foi criado para formar engenheiros de dados capazes de trabalhar com Apache Flink em cenários reais de alto volume e alta complexidade. Ele aborda desde os fundamentos do Flink até a criação de pipelines escaláveis, resilientes e integrados com ecossistemas modernos de Big Data. Você aprenderá conceitos essenciais para projetar, otimizar e operar fluxos de dados contínuos que atendem aplicações empresariais.

Objetivo

Após realizar este curso, você será capaz de:

  • Compreender profundamente a arquitetura do Flink
  • Criar pipelines de streaming eficientes e escaláveis
  • Trabalhar com estado, janelas e tempo de evento
  • Integrar o Flink a sistemas de mensageria, storage e bancos de dados
  • Construir aplicações de streaming tolerantes a falhas
  • Fazer deploy, monitorar e otimizar aplicações em produção
Publico Alvo
  • Engenheiros de dados
  • Desenvolvedores backend que trabalham com dados
  • Arquitetos de dados
  • Profissionais que criam ou mantêm pipelines de streaming
  • Estudantes que desejam se especializar em Big Data
Pre-Requisitos
  • Programação em Java, Scala ou Python
  • Conhecimentos básicos de sistemas distribuídos
  • Noções de mensageria (Kafka, Pulsar ou similares)
  • Conceitos fundamentais de engenharia de dados
Conteúdo Programatico

Module 1 – Foundations for Data Engineers

  1. Role of data engineers in streaming architectures
  2. Challenges of real-time processing
  3. Big Data ecosystem overview
  4. Where Flink fits in the modern data stack

Module 2 – Flink Architecture for Engineering

  1. Distributed runtime in depth
  2. Job graph and execution graph
  3. Task slots, parallelism and resource utilization
  4. Checkpoints and state internals

Module 3 – Building Robust Data Pipelines

  1. Data ingestion patterns
  2. End-to-end streaming designs
  3. Stateless vs stateful pipeline design
  4. Designing fault-tolerant workflows

Module 4 – Working with DataStream API

  1. Transformations and operators
  2. Keyed streams and partitioning strategies
  3. Custom functions and user-defined operators
  4. Serialization formats and schema design

Module 5 – Event-Time Processing & Windowing

  1. Time domains and semantics
  2. Watermarks strategies
  3. Advanced windowing techniques
  4. Handling late and out-of-order events

Module 6 – Advanced State Management

  1. Keyed vs operator state
  2. RocksDB internals
  3. State growth limitations
  4. Designing large-scale stateful applications

Module 7 – Integrating Flink with Data Systems

  1. Kafka source & sink
  2. File systems (S3, HDFS, local)
  3. JDBC, NoSQL databases and object stores
  4. CDC pipelines with Flink + Debezium

Module 8 – Streaming Joins & Enrichment

  1. Stream-stream joins
  2. Stream-batch joins
  3. Side inputs and enrichment patterns
  4. Temporal tables and versioned data

Module 9 – Observability & Monitoring

  1. Metrics essentials for data engineers
  2. Backpressure diagnosis
  3. Flink Dashboard deep dive
  4. Logging, tracing and alerting patterns

Module 10 – Performance Engineering

  1. Memory tuning
  2. Parallelism optimization
  3. Checkpoint interval tuning
  4. Low-latency and high-throughput strategies

Module 11 – Deploying Flink in Production

  1. Standalone, YARN and Kubernetes
  2. Flink Operator for Kubernetes
  3. CI/CD automation for Flink jobs
  4. Multi-environment release strategies

Module 12 – Capstone Data Engineering Project

  1. Designing a full streaming pipeline
  2. Ingesting raw data from Kafka
  3. Applying transformations and windowing
  4. Persisting results into analytical storage
  5. Deploying and validating the production pipeline
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h