Curso Kafka com Spark Streaming

  • DevOps | CI | CD | Kubernetes | Web3

Curso Kafka com Spark Streaming

24 horas
Visão Geral

O Curso Kafka com Spark Streaming foi projetado para profissionais que desejam compreender e aplicar o processamento de dados em tempo real utilizando duas das tecnologias mais poderosas do ecossistema Big Data: Apache Kafka e Apache Spark Streaming.
Durante o curso, o aluno aprenderá a integrar Kafka e Spark para construir pipelines de dados robustos, escaláveis e resilientes, capazes de lidar com grandes volumes de dados em tempo real, desde a ingestão até o processamento e análise contínua.

Objetivo

Após realizar este curso Kafka com Spark Streaming, você será capaz de:

  • Compreender os fundamentos da integração entre Apache Kafka e Apache Spark Streaming.
  • Construir pipelines de dados em tempo real para ingestão, processamento e entrega de resultados.
  • Trabalhar com tópicos Kafka, RDDs, DStreams e DataFrames estruturados.
  • Configurar, monitorar e otimizar o desempenho de pipelines de streaming.
  • Integrar Spark Streaming com outras ferramentas analíticas e sistemas de armazenamento.
Publico Alvo
  • Desenvolvedores de software e engenheiros de dados.
  • Profissionais de Big Data e arquitetos de soluções.
  • Cientistas de dados que desejam aplicar processamento em tempo real.
  • Administradores de sistemas e DevOps interessados em fluxos de dados contínuos.
Pre-Requisitos
  • Conhecimento básico de Apache Kafka.
  • Noções de Python, Scala ou Java.
  • Conceitos fundamentais de Big Data e processamento distribuído.
  • Experiência básica com Linux e containers (Docker) é recomendada.
Materiais
Português + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução ao Ecossistema de Streaming

  1. Visão geral de Big Data e processamento em tempo real.
  2. Papel do Apache Kafka e do Apache Spark no ecossistema.
  3. Casos de uso reais de streaming: IoT, analytics, e-commerce, monitoramento.
  4. Arquitetura geral de um pipeline de dados contínuo.

Módulo 2: Fundamentos do Apache Kafka

  1. Estrutura do Kafka: brokers, tópicos, partições e offset.
  2. Producers, consumers e grupos de consumo.
  3. Criação e configuração de tópicos.
  4. Produção e consumo de mensagens em tempo real.
  5. Entendendo garantias de entrega (at-least-once, exactly-once).

Módulo 3: Fundamentos do Apache Spark Streaming

  1. Arquitetura do Spark e do Spark Streaming.
  2. Diferença entre Spark batch e Spark Streaming.
  3. Estrutura de DStreams e micro-batches.
  4. Introdução ao Structured Streaming (Spark 3.x).
  5. Operações e transformações em streams.

Módulo 4: Integração Kafka + Spark Streaming

  1. Conectores nativos e configuração de integração.
  2. Criando uma aplicação Spark Streaming para consumir dados Kafka.
  3. Deserialização de mensagens JSON, Avro e Protobuf.
  4. Criação de pipelines de transformação em tempo real.
  5. Checkpointing e recuperação de falhas.

Módulo 5: Structured Streaming com Kafka

  1. Uso de DataFrames e SQL para processamento contínuo.
  2. Leitura e escrita em tópicos Kafka com Structured Streaming.
  3. Gerenciamento de estado e janelas temporais.
  4. Integração com sinks (HDFS, Cassandra, PostgreSQL, ElasticSearch).
  5. Controle de latência e tuning de performance.

Módulo 6: Monitoramento e Tuning

  1. Monitoramento de jobs com Spark UI.
  2. Logging e métricas no Kafka e no Spark.
  3. Ajustes de performance (batch interval, paralelismo, memória).
  4. Gerenciamento de erros e retentativas.

Módulo 7: Deploy e Escalabilidade

  1. Deploy em ambientes distribuídos (YARN, Kubernetes, Docker).
  2. Estratégias de escalabilidade horizontal.
  3. Configuração de alta disponibilidade e fault-tolerance.
  4. Boas práticas para pipelines em produção.

Módulo 8: Projeto Prático – Pipeline de Streaming Completo

  1. Construção de uma aplicação fim a fim:
  2. Kafka → Spark Streaming → PostgreSQL/ElasticSearch.
  3. Dashboard em tempo real com dados processados.
  4. Implementação, testes e monitoramento do pipeline.
  5. Documentação técnica e boas práticas de operação.
TENHO INTERESSE

Cursos Relacionados

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Ansible Overview of Ansible architecture

16h

Curso Apache NiFi e Hadoop DataFlow Engineering

40 horas

Curso Apache Kafka Data Streaming

24 horas

Curso Python Software Development

24 horas