Curso Kafka Cluster High Availability & Disaster Recovery

  • DevOps | CI | CD | Kubernetes | Web3

Curso Kafka Cluster High Availability & Disaster Recovery

16h
Visão Geral

O Curso Kafka Cluster High Availability & Disaster Recovery ensina como projetar, configurar e gerenciar ambientes Apache Kafka resilientes e tolerantes a falhas, garantindo alta disponibilidade (HA) e recuperação de desastres (DR) em infraestruturas críticas.
Durante o treinamento, os participantes aprenderão estratégias de replicação, failover, backup e restauração, além de boas práticas para mitigar interrupções e proteger dados em trânsito e em repouso.
Com foco em arquiteturas corporativas e ambientes distribuídos, este curso oferece uma abordagem prática e detalhada para manter Kafka sempre disponível e confiável.

Objetivo

Ao concluir o curso Kafka Cluster High Availability & Disaster Recovery, o participante será capaz de:

  • Compreender os conceitos de alta disponibilidade e tolerância a falhas no Kafka.
  • Configurar replicação síncrona e assíncrona para evitar perda de dados.
  • Implementar estratégias de backup, failover e recuperação de desastres.
  • Projetar arquiteturas multi-datacenter com replicação entre regiões.
  • Automatizar o monitoramento e recuperação de clusters Kafka.
  • Aplicar boas práticas de resiliência, redundância e continuidade operacional.
Publico Alvo
  • Administradores de sistemas e engenheiros DevOps responsáveis por clusters Kafka.
  • Engenheiros de dados que gerenciam pipelines de missão crítica.
  • Arquitetos de soluções que projetam ambientes Kafka resilientes.
  • Profissionais de infraestrutura e segurança que implementam políticas de continuidade operacional.
Pre-Requisitos
  • Conhecimento intermediário de Apache Kafka e administração de clusters.
  • Familiaridade com Linux, Docker e configuração de redes.
  • Experiência prévia com monitoramento e troubleshooting de sistemas distribuídos.
Informações Gerais

Metodologia:

  • Curso ao vivo e online, ministrado via Microsoft Teams.
  • Instrutor especialista em infraestrutura distribuída e alta disponibilidade.
  • Aulas com demonstrações práticas e exercícios guiados.
  • Laboratório individual para simulação de falhas e recuperação.
  • Estudo de casos reais de falhas e DR corporativo.
  • Fornecimento de material digital e scripts práticos de replicação e failover.
Materiais
Inglês/Português + Exercícios + Lab Pratico
Conteúdo Programatico

Module 1: Introduction to High Availability in Kafka

  1. Understanding HA and DR concepts in distributed systems
  2. Kafka architecture and fault tolerance mechanisms
  3. The role of replication, partitions, and leader election
  4. Common failure scenarios and how Kafka handles them

Module 2: Broker and Cluster Replication

  1. In-sync replicas (ISR) and replication factor tuning
  2. Leader-follower synchronization
  3. Handling unclean leader election and replica lag
  4. Hands-on: configuring and testing replication reliability

Module 3: Designing for High Availability

  1. Multi-broker cluster design principles
  2. Data replication strategies across racks and nodes
  3. Avoiding single points of failure (SPOF)
  4. Using KRaft mode for cluster coordination redundancy

Module 4: Kafka Multi-Cluster and Cross-Region Replication

  1. Understanding multi-datacenter deployments
  2. Implementing asynchronous replication between clusters
  3. Using MirrorMaker 2.0 for cross-region replication
  4. Design patterns for active-active and active-passive clusters

Module 5: Backup and Disaster Recovery Strategies

  1. Backup and restore procedures for Kafka topics and metadata
  2. Snapshots, incremental backups, and retention policies
  3. Planning and executing disaster recovery drills
  4. Automating backup pipelines using scripts and tools

Module 6: Failover, Monitoring, and Recovery Automation

  1. Configuring broker auto-restart and recovery
  2. Using Cruise Control for rebalancing and failover
  3. Monitoring replication and leader election health
  4. Integrating alerting with Prometheus and Grafana

Module 7: Testing, Validation, and Performance Under Failover

  1. Simulating broker and network failures
  2. Measuring recovery time (RTO) and data loss tolerance (RPO)
  3. Stress testing and performance benchmarking during failover
  4. Case study: end-to-end failover and DR validation

Module 8: Hands-On Project

Project: Configure a multi-broker Kafka cluster with MirrorMaker 2.0, implement cross-region replication, simulate broker failures, and execute a full recovery test scenario.

TENHO INTERESSE

Cursos Relacionados

Curso Ansible Red Hat Basics Automation Technical Foundation

16 horas

Curso Terraform Deploying to Oracle Cloud Infrastructure

24 Horas

Curso Ansible Linux Automation with Ansible

24 horas

Ansible Overview of Ansible architecture

16h

Advanced Automation: Ansible Best Practices

32h