Curso Kafka for Data Engineers

  • DevOps | CI | CD | Kubernetes | Web3

Curso Kafka for Data Engineers

16h
Visão Geral

O Curso Kafka for Data Engineers foi desenvolvido para capacitar engenheiros de dados a projetar, construir e gerenciar pipelines de dados modernos utilizando o Apache Kafka.
Os participantes aprenderão a integrar o Kafka com diversas fontes e destinos de dados, compreender o fluxo de eventos em tempo real, aplicar boas práticas de processamento distribuído e implementar pipelines de streaming escaláveis e resilientes.
O curso combina fundamentos teóricos e práticas laboratoriais para garantir domínio técnico na utilização do Kafka em ambientes de engenharia de dados.

Objetivo

Ao final do curso Kafka for Data Engineers, o participante será capaz de:

  • Entender o papel do Kafka no ecossistema de engenharia de dados.
  • Projetar e implementar pipelines de ingestão de dados em tempo real.
  • Integrar o Kafka com ferramentas de processamento como Spark, Flink e Kafka Streams.
  • Trabalhar com Kafka Connect para integração com bancos de dados, APIs e sistemas externos.
  • Aplicar Schema Registry e formatos como Avro e JSON para controle de dados.
  • Monitorar, otimizar e escalar clusters Kafka em ambientes produtivos.
Publico Alvo
  • Engenheiros de Dados que desejam dominar Kafka em pipelines de dados em tempo real.
  • Desenvolvedores, Arquitetos de Dados e Analistas que trabalham com integração e processamento de grandes volumes de dados.
  • Profissionais de BI e Big Data que desejam aplicar Kafka em soluções de ingestão e streaming.
  • DevOps e administradores de sistemas interessados em arquiteturas de dados orientadas a eventos.
Pre-Requisitos
  • Conhecimento básico de Apache Kafka (conceitos de tópicos, produtores, consumidores).
  • Experiência com linguagens de programação como Python, Java ou Scala.
  • Noções de bancos de dados relacionais e NoSQL.
  • Familiaridade com conceitos de ETL/ELT e pipelines de dados.
Informações Gerais

Metodologia:

  • Curso ao vivo e online ministrado via Microsoft Teams.
  • Instrutor especialista e atuante no mercado de dados e streaming.
  • Aulas práticas com exercícios individuais e em grupo.
  • Laboratório individual configurado para cada participante.
  • Metodologia baseada em teoria aplicada e projetos reais.
  • Fornecimento de material digital e scripts de laboratório.
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to Kafka for Data Engineering

  1. Kafka’s role in modern data pipelines
  2. Batch vs. Streaming data processing
  3. Core concepts: brokers, topics, partitions, producers, consumers
  4. Real-time data use cases

Module 2: Kafka Architecture and Data Flow

  1. Understanding producers, consumers, and consumer groups
  2. Message serialization and deserialization
  3. Offsets, partitions, and replication strategies
  4. High availability and fault tolerance

Module 3: Data Ingestion with Kafka

  1. Designing scalable data ingestion pipelines
  2. Connecting data sources with Kafka Connect
  3. Integrating relational and NoSQL databases
  4. Ingesting data from REST APIs, logs, and IoT devices

Module 4: Kafka Connect Deep Dive

  1. Source and Sink connectors explained
  2. Configuring connectors and transformations
  3. Managing distributed Connect clusters
  4. Hands-on: deploying connectors with Docker Compose

Module 5: Data Serialization and Schema Management

  1. Introduction to Schema Registry
  2. Working with Avro, JSON, and Protobuf schemas
  3. Enforcing schema compatibility and evolution
  4. Best practices for schema versioning

Module 6: Stream Processing for Data Engineers

  1. Kafka Streams fundamentals
  2. Stateless vs. stateful transformations
  3. Windowing, joins, and aggregations
  4. Hands-on with Kafka Streams API

Module 7: Integrating Kafka with Big Data Ecosystems

  1. Integration with Apache Spark Structured Streaming
  2. Integration with Apache Flink
  3. Data lake and data warehouse ingestion (S3, Snowflake, BigQuery)
  4. Building hybrid streaming + batch architectures

Module 8: Monitoring, Security, and Optimization

  1. Kafka metrics and monitoring with Prometheus/Grafana
  2. Securing Kafka: SSL, SASL, and ACLs
  3. Performance tuning for throughput and latency
  4. Troubleshooting data ingestion issues

Module 9: Hands-On Project

Project: Build a real-time data pipeline using Kafka, Connect, Schema Registry, and Spark Structured Streaming, integrating data from multiple sources and visualizing insights in a dashboard.

TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h