Visão Geral
O curso Real-Time Replication Using Kafka Connect foi desenvolvido para ensinar como configurar, gerenciar e otimizar pipelines de replicação de dados em tempo real utilizando o Kafka Connect, um dos componentes mais poderosos do ecossistema Apache Kafka.
Durante o treinamento, os participantes aprenderão a integrar sistemas heterogêneos (como bancos de dados, filas e aplicações corporativas), configurar conectores de origem e destino, monitorar tarefas e implementar boas práticas de alta disponibilidade e tolerância a falhas.
Esse curso é ideal para profissionais que buscam dominar a replicação de dados em tempo real para cenários de Data Streaming, ETL moderno, integração de sistemas e arquiteturas orientadas a eventos.
Objetivo
Após realizar o curso Real-Time Replication Using Kafka Connect, você será capaz de:
- Entender os conceitos fundamentais do Kafka Connect e sua arquitetura.
- Configurar e executar conectores de origem (source) e destino (sink).
- Implementar pipelines de replicação em tempo real entre diferentes sistemas.
- Trabalhar com conectores pré-desenvolvidos (como JDBC, Debezium, Elasticsearch, S3, entre outros).
- Monitorar, escalar e otimizar tarefas de replicação.
- Implementar práticas de segurança e resiliência em pipelines de dados.
Publico Alvo
- Engenheiros de dados e arquitetos de soluções.
- Desenvolvedores e administradores de sistemas que trabalham com Apache Kafka.
- Profissionais de DevOps e integração de sistemas.
- Analistas de dados e profissionais de infraestrutura que desejam dominar replicação em tempo real.
Pre-Requisitos
- Conhecimentos básicos de Apache Kafka e conceitos de mensagens/eventos.
- Familiaridade com sistemas de banco de dados (relacional ou NoSQL).
- Conhecimento básico de Linux e Docker (opcional, mas recomendado).
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico
Módulo 1: Introdução ao Kafka Connect
- O que é o Kafka Connect e sua função no ecossistema Kafka
- Arquitetura: workers, tasks e connectors
- Tipos de conectores (source e sink)
- Modos de execução: standalone e distributed
- Quando usar Kafka Connect versus outras soluções de integração
Módulo 2: Ambiente de Trabalho e Instalação
- Preparando o ambiente com Kafka e Kafka Connect
- Configuração básica no modo standalone
- Teste inicial de conexão e validação do cluster
- Entendendo os diretórios e arquivos de configuração
Módulo 3: Conectores de Origem (Source Connectors)
- Configuração e uso de conectores JDBC Source
- Replicando dados de bancos relacionais para tópicos Kafka
- Introdução ao Debezium para captura de alterações (CDC)
- Exemplo prático: replicando dados em tempo real de um banco PostgreSQL
Módulo 4: Conectores de Destino (Sink Connectors)
- Configuração de conectores JDBC Sink
- Enviando dados para bancos de destino (MySQL, PostgreSQL, etc.)
- Integração com Elasticsearch e sistemas de armazenamento
- Exemplo prático: pipeline completo entre banco origem e destino
Módulo 5: Execução em Modo Distribuído
- Configurando o modo distributed e múltiplos workers
- Escalabilidade e paralelismo em pipelines de dados
- Gerenciamento de falhas e tolerância
- Uso de REST API para monitoramento e gerenciamento
Módulo 6: Monitoramento e Troubleshooting
- Logs e métricas do Kafka Connect
- Uso de ferramentas como Confluent Control Center e Prometheus
- Diagnóstico de erros e recuperação de tarefas
- Boas práticas de observabilidade
Módulo 7: Segurança e Boas Práticas
- Autenticação e autorização (SASL, ACLs)
- Criptografia com SSL/TLS
- Boas práticas para confiabilidade e consistência de dados
- Estratégias de versionamento e rollback de pipelines
Módulo 8: Casos Práticos e Exercícios
- Replicação entre dois clusters Kafka em tempo real
- Pipeline completo de integração: PostgreSQL → Kafka → Elasticsearch
- Desafio final: criando e monitorando sua própria replicação distribuída
TENHO INTERESSE