Curso Kafka com Spark Streaming

  • DevOps | CI | CD | Kubernetes | Web3

Curso Kafka com Spark Streaming

24 horas
Visão Geral

O Curso Kafka com Spark Streaming foi projetado para profissionais que desejam compreender e aplicar o processamento de dados em tempo real utilizando duas das tecnologias mais poderosas do ecossistema Big Data: Apache Kafka e Apache Spark Streaming.
Durante o curso, o aluno aprenderá a integrar Kafka e Spark para construir pipelines de dados robustos, escaláveis e resilientes, capazes de lidar com grandes volumes de dados em tempo real, desde a ingestão até o processamento e análise contínua.

Objetivo

Após realizar este curso Kafka com Spark Streaming, você será capaz de:

  • Compreender os fundamentos da integração entre Apache Kafka e Apache Spark Streaming.
  • Construir pipelines de dados em tempo real para ingestão, processamento e entrega de resultados.
  • Trabalhar com tópicos Kafka, RDDs, DStreams e DataFrames estruturados.
  • Configurar, monitorar e otimizar o desempenho de pipelines de streaming.
  • Integrar Spark Streaming com outras ferramentas analíticas e sistemas de armazenamento.
Publico Alvo
  • Desenvolvedores de software e engenheiros de dados.
  • Profissionais de Big Data e arquitetos de soluções.
  • Cientistas de dados que desejam aplicar processamento em tempo real.
  • Administradores de sistemas e DevOps interessados em fluxos de dados contínuos.
Pre-Requisitos
  • Conhecimento básico de Apache Kafka.
  • Noções de Python, Scala ou Java.
  • Conceitos fundamentais de Big Data e processamento distribuído.
  • Experiência básica com Linux e containers (Docker) é recomendada.
Materiais
Português + Exercícios + Lab Pratico
Conteúdo Programatico

Módulo 1: Introdução ao Ecossistema de Streaming

  1. Visão geral de Big Data e processamento em tempo real.
  2. Papel do Apache Kafka e do Apache Spark no ecossistema.
  3. Casos de uso reais de streaming: IoT, analytics, e-commerce, monitoramento.
  4. Arquitetura geral de um pipeline de dados contínuo.

Módulo 2: Fundamentos do Apache Kafka

  1. Estrutura do Kafka: brokers, tópicos, partições e offset.
  2. Producers, consumers e grupos de consumo.
  3. Criação e configuração de tópicos.
  4. Produção e consumo de mensagens em tempo real.
  5. Entendendo garantias de entrega (at-least-once, exactly-once).

Módulo 3: Fundamentos do Apache Spark Streaming

  1. Arquitetura do Spark e do Spark Streaming.
  2. Diferença entre Spark batch e Spark Streaming.
  3. Estrutura de DStreams e micro-batches.
  4. Introdução ao Structured Streaming (Spark 3.x).
  5. Operações e transformações em streams.

Módulo 4: Integração Kafka + Spark Streaming

  1. Conectores nativos e configuração de integração.
  2. Criando uma aplicação Spark Streaming para consumir dados Kafka.
  3. Deserialização de mensagens JSON, Avro e Protobuf.
  4. Criação de pipelines de transformação em tempo real.
  5. Checkpointing e recuperação de falhas.

Módulo 5: Structured Streaming com Kafka

  1. Uso de DataFrames e SQL para processamento contínuo.
  2. Leitura e escrita em tópicos Kafka com Structured Streaming.
  3. Gerenciamento de estado e janelas temporais.
  4. Integração com sinks (HDFS, Cassandra, PostgreSQL, ElasticSearch).
  5. Controle de latência e tuning de performance.

Módulo 6: Monitoramento e Tuning

  1. Monitoramento de jobs com Spark UI.
  2. Logging e métricas no Kafka e no Spark.
  3. Ajustes de performance (batch interval, paralelismo, memória).
  4. Gerenciamento de erros e retentativas.

Módulo 7: Deploy e Escalabilidade

  1. Deploy em ambientes distribuídos (YARN, Kubernetes, Docker).
  2. Estratégias de escalabilidade horizontal.
  3. Configuração de alta disponibilidade e fault-tolerance.
  4. Boas práticas para pipelines em produção.

Módulo 8: Projeto Prático – Pipeline de Streaming Completo

  1. Construção de uma aplicação fim a fim:
  2. Kafka → Spark Streaming → PostgreSQL/ElasticSearch.
  3. Dashboard em tempo real com dados processados.
  4. Implementação, testes e monitoramento do pipeline.
  5. Documentação técnica e boas práticas de operação.
TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h