Curso Kafka Data Streaming with Spark & Flink

  • DevOps | CI | CD | Kubernetes | Web3

Curso Kafka Data Streaming with Spark & Flink

16h
Visão Geral

O Curso Kafka Data Streaming with Spark & Flink ensina como integrar Apache Kafka com frameworks de stream processing como Apache Spark Structured Streaming e Apache Flink.
Durante o treinamento, os participantes aprenderão a construir pipelines de dados em tempo real, processar grandes volumes de eventos, implementar transformações, agregações e joins, além de monitorar e otimizar aplicações de streaming.
O curso combina teoria, laboratórios práticos e projetos para capacitar os alunos a criar arquiteturas de streaming escaláveis, resilientes e de alto desempenho.

Objetivo

Ao concluir o curso Kafka Data Streaming with Spark & Flink, o participante será capaz de:

  • Integrar Kafka com Spark Structured Streaming e Flink.
  • Construir pipelines de dados em tempo real para ingestão e processamento de eventos.
  • Aplicar transformações, agregações, joins e janelas temporais em streams de dados.
  • Monitorar, depurar e otimizar aplicações de streaming.
  • Garantir resiliência, escalabilidade e tolerância a falhas em pipelines de dados.
  • Implementar boas práticas de design e operação em sistemas de streaming distribuídos.
Publico Alvo
  • Engenheiros de dados que trabalham com pipelines de streaming.
  • Desenvolvedores de Big Data e cientistas de dados que precisam processar eventos em tempo real.
  • Arquitetos de soluções que projetam sistemas distribuídos de streaming.
  • Profissionais DevOps e SREs que suportam aplicações Kafka com Spark e Flink.
Pre-Requisitos
  • Conhecimento básico de Apache Kafka (producers, consumers, topics).
  • Experiência com Spark (PySpark/Scala) e/ou Flink.
  • Familiaridade com Linux, Docker e clusters distribuídos.
  • Noções de Big Data, pipelines de eventos e stream processing.
Informações Gerais

Metodologia:

  • Curso ao vivo e online, via Microsoft Teams.
  • Ministrado por instrutor especialista em Kafka, Spark e Flink.
  • Aulas com exemplos práticos, laboratórios e projeto final.
  • Ambiente individual para cada participante com Kafka, Spark, Flink e Docker/Kubernetes.
  • Projeto final de pipeline completo de streaming em tempo real.
  • Fornecimento de material digital, scripts e templates de configuração.
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Kafka and Streaming

  1. Overview of Kafka and event-driven architectures
  2. Introduction to streaming concepts and frameworks
  3. Comparing batch vs real-time processing
  4. Setting up Kafka, Spark, and Flink environments

Module 2: Kafka Producers and Consumers

  1. Producing and consuming messages in Kafka
  2. Serialization and deserialization (JSON, Avro, Protobuf)
  3. Managing partitions, offsets, and consumer groups
  4. Error handling and retries

Module 3: Spark Structured Streaming Integration

  1. Overview of Spark Structured Streaming
  2. Reading from and writing to Kafka topics
  3. Transformations, aggregations, and windowing in Spark
  4. Stateful and stateless processing

Module 4: Flink Streaming Integration

  1. Introduction to Apache Flink and its architecture
  2. KafkaSource and KafkaSink integration
  3. Keyed streams, windows, and event time processing
  4. Stateful processing and checkpointing in Flink

Module 5: Advanced Stream Processing

  1. Joining streams and enriching data in real-time
  2. Handling late events and out-of-order data
  3. Performance tuning and resource optimization
  4. Fault tolerance and exactly-once semantics

Module 6: Monitoring and Observability

  1. Metrics and dashboards with Prometheus and Grafana
  2. Logging and debugging Kafka + Spark/Flink pipelines
  3. Alerting for production pipelines
  4. Troubleshooting common streaming issues

Module 7: Deployment and Scaling

  1. Running Spark and Flink applications in Docker and Kubernetes
  2. Scaling streaming jobs for high throughput
  3. Best practices for production-grade deployments
  4. Resource management and cluster configuration

Module 8: Hands-On Project

Project: Build a complete Kafka data streaming pipeline using Spark Structured Streaming and Flink, including producers, consumers, stream transformations, windowing, joins, and deployment in Docker/Kubernetes.

TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h